[npo] Extend _VALID_URL (closes #16682)

[youtube-dl.git] / youtube_dl / extractor / pbs.py
diff --git a/youtube_dl/extractor/pbs.py b/youtube_dl/extractor/pbs.py

index 8889e4a1aaa3e41f49a63b53c010cf69d0842b1b..8d6f2dd3d57555f7331bbc45582ee813dd57047e 100644 (file)
--- a/youtube_dl/extractor/pbs.py
+++ b/youtube_dl/extractor/pbs.py
@@ -187,7 +187,7 @@ class PBSIE(InfoExtractor):
      _VALID_URL = r'''(?x)https?://
          (?:
             # Direct video URL
-           (?:%s)/(?:viralplayer|video)/(?P<id>[0-9]+)/? |
+           (?:%s)/(?:(?:vir|port)alplayer|video)/(?P<id>[0-9]+)(?:[?/]|$) |
             # Article with embedded player (or direct video)
             (?:www\.)?pbs\.org/(?:[^/]+/){1,5}(?P<presumptive_id>[^/]+?)(?:\.html)?/?(?:$|[?\#]) |
             # Player
@@ -360,6 +360,21 @@ class PBSIE(InfoExtractor):
                  'skip_download': True,
              },
          },
+        {
+            'url': 'http://www.pbs.org/wgbh/roadshow/watch/episode/2105-indianapolis-hour-2/',
+            'info_dict': {
+                'id': '2365936247',
+                'ext': 'mp4',
+                'title': 'Antiques Roadshow - Indianapolis, Hour 2',
+                'description': 'md5:524b32249db55663e7231b6b8d1671a2',
+                'duration': 3180,
+                'thumbnail': r're:^https?://.*\.jpg$',
+            },
+            'params': {
+                'skip_download': True,
+            },
+            'expected_warnings': ['HTTP Error 403: Forbidden'],
+        },
          {
              'url': 'http://player.pbs.org/widget/partnerplayer/2365297708/?start=0&end=0&chapterbar=false&endscreen=false&topbar=true',
              'only_matching': True,
@@ -367,6 +382,10 @@ class PBSIE(InfoExtractor):
          {
              'url': 'http://watch.knpb.org/video/2365616055/',
              'only_matching': True,
+        },
+        {
+            'url': 'https://player.pbs.org/portalplayer/3004638221/?uid=',
+            'only_matching': True,
          }
      ]
      _ERRORS = {
@@ -417,6 +436,8 @@ class PBSIE(InfoExtractor):
                  r'class="coveplayerid">([^<]+)<',                       # coveplayer
                  r'<section[^>]+data-coveid="(\d+)"',                    # coveplayer from http://www.pbs.org/wgbh/frontline/film/real-csi/
                  r'<input type="hidden" id="pbs_video_id_[0-9]+" value="([0-9]+)"/>',  # jwplayer
+                r"(?s)window\.PBS\.playerConfig\s*=\s*{.*?id\s*:\s*'([0-9]+)',",
+                r'<div[^>]+\bdata-cove-id=["\'](\d+)"',  # http://www.pbs.org/wgbh/roadshow/watch/episode/2105-indianapolis-hour-2/
              ]
  
              media_id = self._search_regex(
@@ -500,7 +521,7 @@ class PBSIE(InfoExtractor):
              if player:
                  video_info = self._parse_json(
                      self._search_regex(
-                        r'(?s)PBS\.videoData\s*=\s*({.+?});\n',
+                        [r'(?s)PBS\.videoData\s*=\s*({.+?});\n', r'window\.videoBridge\s*=\s*({.+?});'],
                          player, '%s video data' % page, default='{}'),
                      display_id, transform_source=js_to_json, fatal=False)
                  if video_info:
@@ -508,10 +529,14 @@ class PBSIE(InfoExtractor):
                      if not info:
                          info = video_info
                  if not chapters:
-                    for chapter_data in re.findall(r'(?s)chapters\.push\(({.*?})\)', player):
-                        chapter = self._parse_json(chapter_data, video_id, js_to_json, fatal=False)
-                        if not chapter:
-                            continue
+                    raw_chapters = video_info.get('chapters') or []
+                    if not raw_chapters:
+                        for chapter_data in re.findall(r'(?s)chapters\.push\(({.*?})\)', player):
+                            chapter = self._parse_json(chapter_data, video_id, js_to_json, fatal=False)
+                            if not chapter:
+                                continue
+                            raw_chapters.append(chapter)
+                    for chapter in raw_chapters:
                          start_time = float_or_none(chapter.get('start_time'), 1000)
                          duration = float_or_none(chapter.get('duration'), 1000)
                          if start_time is None or duration is None: