Add support for embed.ly

[youtube-dl.git] / youtube_dl / extractor / generic.py
diff --git a/youtube_dl/extractor/generic.py b/youtube_dl/extractor/generic.py

index 30160d59d4218601a7bff538f6fd96cc130bd7a4..e84c022a587cf7cae22f3d6ec33fdbf15f07098b 100644 (file)
--- a/youtube_dl/extractor/generic.py
+++ b/youtube_dl/extractor/generic.py
@@ -13,6 +13,7 @@ from ..utils import (
      compat_urllib_parse,
      compat_urllib_request,
      compat_urlparse,
+    compat_xml_parse_error,
  
      ExtractorError,
      HEADRequest,
@@ -101,6 +102,18 @@ class GenericIE(InfoExtractor):
                  'title': '2cc213299525360.mov',  # that's what we get
              },
          },
+        # embed.ly video
+        {
+            'url': 'http://www.tested.com/science/weird/460206-tested-grinding-coffee-2000-frames-second/',
+            'info_dict': {
+                'id': '9ODmcdjQcHQ',
+                'ext': 'mp4',
+            },
+            # No need to test YoutubeIE here
+            'params': {
+                'skip_download': True,
+            },
+        },
      ]
  
      def report_download_webpage(self, video_id):
@@ -241,10 +254,10 @@ class GenericIE(InfoExtractor):
  
          # Is it an RSS feed?
          try:
-            doc = xml.etree.ElementTree.fromstring(webpage)
+            doc = xml.etree.ElementTree.fromstring(webpage.encode('utf-8'))
              if doc.tag == 'rss':
                  return self._extract_rss(url, video_id, doc)
-        except xml.etree.ElementTree.ParseError:
+        except compat_xml_parse_error:
              pass
  
          # it's tempting to parse this further, but you would
@@ -380,6 +393,14 @@ class GenericIE(InfoExtractor):
          if mobj is not None:
              return self.url_result(mobj.group('url'), 'HuffPost')
  
+        # Look for embed.ly
+        mobj = re.search(r'class=["\']embedly-card["\'][^>]href=["\'](?P<url>[^"\']+)', webpage)
+        if mobj is not None:
+            return self.url_result(mobj.group('url'))
+        mobj = re.search(r'class=["\']embedly-embed["\'][^>]src=["\'][^"\']*url=(?P<url>[^&]+)', webpage)
+        if mobj is not None:
+            return self.url_result(compat_urllib_parse.unquote(mobj.group('url')))
+
          # Start with something easy: JW Player in SWFObject
          mobj = re.search(r'flashvars: [\'"](?:.*&)?file=(http[^\'"&]*)', webpage)
          if mobj is None: