[youku] compare bytes and str for compatible; use compat_urllib_parse for making...

[youtube-dl.git] / youtube_dl / extractor / generic.py
diff --git a/youtube_dl/extractor/generic.py b/youtube_dl/extractor/generic.py

index 4946cc1325b0ffdecca0767e7532ddcb4741a028..9a7b0d25d790054e39729bab63e42b1ea7a89dff 100644 (file)
--- a/youtube_dl/extractor/generic.py
+++ b/youtube_dl/extractor/generic.py
@@ -32,11 +32,13 @@ from .brightcove import BrightcoveIE
  from .nbc import NBCSportsVPlayerIE
  from .ooyala import OoyalaIE
  from .rutv import RUTVIE
  from .nbc import NBCSportsVPlayerIE
  from .ooyala import OoyalaIE
  from .rutv import RUTVIE
+from .sportbox import SportBoxEmbedIE
  from .smotri import SmotriIE
  from .condenast import CondeNastIE
  from .udn import UDNEmbedIE
  from .senateisvp import SenateISVPIE
  from .bliptv import BlipTVIE
  from .smotri import SmotriIE
  from .condenast import CondeNastIE
  from .udn import UDNEmbedIE
  from .senateisvp import SenateISVPIE
  from .bliptv import BlipTVIE
+from .svt import SVTIE
  
  
  class GenericIE(InfoExtractor):
  
  
  class GenericIE(InfoExtractor):
@@ -223,6 +225,37 @@ class GenericIE(InfoExtractor):
                  'skip_download': True,
              },
          },
                  'skip_download': True,
              },
          },
+        # SportBox embed
+        {
+            'url': 'http://www.vestifinance.ru/articles/25753',
+            'info_dict': {
+                'id': '25753',
+                'title': 'Вести Экономика ― Прямые трансляции с Форума-выставки "Госзаказ-2013"',
+            },
+            'playlist': [{
+                'info_dict': {
+                    'id': '370908',
+                    'title': 'Госзаказ. День 3',
+                    'ext': 'mp4',
+                }
+            }, {
+                'info_dict': {
+                    'id': '370905',
+                    'title': 'Госзаказ. День 2',
+                    'ext': 'mp4',
+                }
+            }, {
+                'info_dict': {
+                    'id': '370902',
+                    'title': 'Госзаказ. День 1',
+                    'ext': 'mp4',
+                }
+            }],
+            'params': {
+                # m3u8 download
+                'skip_download': True,
+            },
+        },
          # Embedded TED video
          {
              'url': 'http://en.support.wordpress.com/videos/ted-talks/',
          # Embedded TED video
          {
              'url': 'http://en.support.wordpress.com/videos/ted-talks/',
@@ -645,6 +678,17 @@ class GenericIE(InfoExtractor):
                  'title': 'Facebook Creates "On This Day" | Crunch Report',
              },
          },
                  'title': 'Facebook Creates "On This Day" | Crunch Report',
              },
          },
+        # SVT embed
+        {
+            'url': 'http://www.svt.se/sport/ishockey/jagr-tacklar-giroux-under-intervjun',
+            'info_dict': {
+                'id': '2900353',
+                'ext': 'flv',
+                'title': 'Här trycker Jagr till Giroux (under SVT-intervjun)',
+                'duration': 27,
+                'age_limit': 0,
+            },
+        },
          # RSS feed with enclosure
          {
              'url': 'http://podcastfeeds.nbcnews.com/audio/podcast/MSNBC-MADDOW-NETCAST-M4V.xml',
          # RSS feed with enclosure
          {
              'url': 'http://podcastfeeds.nbcnews.com/audio/podcast/MSNBC-MADDOW-NETCAST-M4V.xml',
@@ -1078,6 +1122,11 @@ class GenericIE(InfoExtractor):
          if bliptv_url:
              return self.url_result(bliptv_url, 'BlipTV')
  
          if bliptv_url:
              return self.url_result(bliptv_url, 'BlipTV')
  
+        # Look for SVT player
+        svt_url = SVTIE._extract_url(webpage)
+        if svt_url:
+            return self.url_result(svt_url, 'SVT')
+
          # Look for embedded condenast player
          matches = re.findall(
              r'<iframe\s+(?:[a-zA-Z-]+="[^"]+"\s+)*?src="(https?://player\.cnevids\.com/embed/[^"]+")',
          # Look for embedded condenast player
          matches = re.findall(
              r'<iframe\s+(?:[a-zA-Z-]+="[^"]+"\s+)*?src="(https?://player\.cnevids\.com/embed/[^"]+")',
@@ -1212,6 +1261,11 @@ class GenericIE(InfoExtractor):
          if rutv_url:
              return self.url_result(rutv_url, 'RUTV')
  
          if rutv_url:
              return self.url_result(rutv_url, 'RUTV')
  
+        # Look for embedded SportBox player
+        sportbox_urls = SportBoxEmbedIE._extract_urls(webpage)
+        if sportbox_urls:
+            return _playlist_from_matches(sportbox_urls, ie='SportBoxEmbed')
+
          # Look for embedded TED player
          mobj = re.search(
              r'<iframe[^>]+?src=(["\'])(?P<url>https?://embed(?:-ssl)?\.ted\.com/.+?)\1', webpage)
          # Look for embedded TED player
          mobj = re.search(
              r'<iframe[^>]+?src=(["\'])(?P<url>https?://embed(?:-ssl)?\.ted\.com/.+?)\1', webpage)
@@ -1289,6 +1343,10 @@ class GenericIE(InfoExtractor):
          mobj = re.search(
              r'<iframe[^>]+?src=(["\'])(?P<url>https?://m(?:lb)?\.mlb\.com/shared/video/embed/embed\.html\?.+?)\1',
              webpage)
          mobj = re.search(
              r'<iframe[^>]+?src=(["\'])(?P<url>https?://m(?:lb)?\.mlb\.com/shared/video/embed/embed\.html\?.+?)\1',
              webpage)
+        if not mobj:
+            mobj = re.search(
+                r'data-video-link=["\'](?P<url>http://m.mlb.com/video/[^"\']+)',
+                webpage)
          if mobj is not None:
              return self.url_result(mobj.group('url'), 'MLB')
  
          if mobj is not None:
              return self.url_result(mobj.group('url'), 'MLB')
  
@@ -1367,7 +1425,7 @@ class GenericIE(InfoExtractor):
          # Look for Senate ISVP iframe
          senate_isvp_url = SenateISVPIE._search_iframe_url(webpage)
          if senate_isvp_url:
          # Look for Senate ISVP iframe
          senate_isvp_url = SenateISVPIE._search_iframe_url(webpage)
          if senate_isvp_url:
-            return self.url_result(surl, 'SenateISVP')
+            return self.url_result(senate_isvp_url, 'SenateISVP')
  
          def check_video(vurl):
              if YoutubeIE.suitable(vurl):
  
          def check_video(vurl):
              if YoutubeIE.suitable(vurl):
@@ -1436,7 +1494,7 @@ class GenericIE(InfoExtractor):
                  if refresh_header:
                      found = re.search(REDIRECT_REGEX, refresh_header)
              if found:
                  if refresh_header:
                      found = re.search(REDIRECT_REGEX, refresh_header)
              if found:
-                new_url = found.group(1)
+                new_url = compat_urlparse.urljoin(url, found.group(1))
                  self.report_following_redirect(new_url)
                  return {
                      '_type': 'url',
                  self.report_following_redirect(new_url)
                  return {
                      '_type': 'url',