[qqmusic]update valid url

[youtube-dl.git] / youtube_dl / extractor / qqmusic.py
diff --git a/youtube_dl/extractor/qqmusic.py b/youtube_dl/extractor/qqmusic.py

index 1ba3bbddf654dbe6a407465df0d1fe89af789106..7513acba90bc10346dbc361bd8b5d017c08cbca0 100644 (file)
--- a/youtube_dl/extractor/qqmusic.py
+++ b/youtube_dl/extractor/qqmusic.py
@@ -2,8 +2,8 @@
  from __future__ import unicode_literals
  
  import random
-import time
  import re
+import time
  
  from .common import InfoExtractor
  from ..utils import (
@@ -11,15 +11,16 @@ from ..utils import (
      strip_jsonp,
      unescapeHTML,
      clean_html,
+    ExtractorError,
  )
  
  
  class QQMusicIE(InfoExtractor):
      IE_NAME = 'qqmusic'
      IE_DESC = 'QQ音乐'
-    _VALID_URL = r'http://y.qq.com/#type=song&mid=(?P<id>[0-9A-Za-z]+)'
+    _VALID_URL = r'https?://y\.qq\.com/n/yqq/song/(?P<id>[0-9A-Za-z]+)\.html'
      _TESTS = [{
-        'url': 'http://y.qq.com/#type=song&mid=004295Et37taLD',
+        'url': 'https://y.qq.com/n/yqq/song/004295Et37taLD.html',
          'md5': '9ce1c1c8445f561506d2e3cfb0255705',
          'info_dict': {
              'id': '004295Et37taLD',
@@ -28,11 +29,11 @@ class QQMusicIE(InfoExtractor):
              'release_date': '20141227',
              'creator': '林俊杰',
              'description': 'md5:d327722d0361576fde558f1ac68a7065',
-            'thumbnail': 're:^https?://.*\.jpg$',
+            'thumbnail': r're:^https?://.*\.jpg$',
          }
      }, {
          'note': 'There is no mp3-320 version of this song.',
-        'url': 'http://y.qq.com/#type=song&mid=004MsGEo3DdNxV',
+        'url': 'https://y.qq.com/n/yqq/song/004MsGEo3DdNxV.html',
          'md5': 'fa3926f0c585cda0af8fa4f796482e3e',
          'info_dict': {
              'id': '004MsGEo3DdNxV',
@@ -41,11 +42,11 @@ class QQMusicIE(InfoExtractor):
              'release_date': '20050626',
              'creator': '李季美',
              'description': 'md5:46857d5ed62bc4ba84607a805dccf437',
-            'thumbnail': 're:^https?://.*\.jpg$',
+            'thumbnail': r're:^https?://.*\.jpg$',
          }
      }, {
          'note': 'lyrics not in .lrc format',
-        'url': 'http://y.qq.com/#type=song&mid=001JyApY11tIp6',
+        'url': 'https://y.qq.com/n/yqq/song/001JyApY11tIp6.html',
          'info_dict': {
              'id': '001JyApY11tIp6',
              'ext': 'mp3',
@@ -53,7 +54,7 @@ class QQMusicIE(InfoExtractor):
              'release_date': '19970225',
              'creator': 'Dark Funeral',
              'description': 'md5:ed14d5bd7ecec19609108052c25b2c11',
-            'thumbnail': 're:^https?://.*\.jpg$',
+            'thumbnail': r're:^https?://.*\.jpg$',
          },
          'params': {
              'skip_download': True,
@@ -162,7 +163,8 @@ class QQPlaylistBaseIE(InfoExtractor):
          for item in re.findall(r'class="data"[^<>]*>([^<>]+)</', page):
              song_mid = unescapeHTML(item).split('|')[-5]
              entries.append(cls.url_result(
-                'http://y.qq.com/#type=song&mid=' + song_mid, 'QQMusic',
+                # https://y.qq.com/n/yqq/song/004Dbsoo1yCbNZ.html
+                'https://y.qq.com/n/yqq/song/' + song_mid + ".html", 'QQMusic',
                  song_mid))
  
          return entries
@@ -171,13 +173,13 @@ class QQPlaylistBaseIE(InfoExtractor):
  class QQMusicSingerIE(QQPlaylistBaseIE):
      IE_NAME = 'qqmusic:singer'
      IE_DESC = 'QQ音乐 - 歌手'
-    _VALID_URL = r'http://y.qq.com/#type=singer&mid=(?P<id>[0-9A-Za-z]+)'
+    _VALID_URL = r'https?://y\.qq\.com/n/yqq/singer/(?P<id>[0-9A-Za-z]+)\.html'
      _TEST = {
-        'url': 'http://y.qq.com/#type=singer&mid=001BLpXF2DyJe2',
+        'url': 'https://y.qq.com/n/yqq/singer/001BLpXF2DyJe2.html',
          'info_dict': {
              'id': '001BLpXF2DyJe2',
              'title': '林俊杰',
-            'description': 'md5:2a222d89ba4455a3af19940c0481bb78',
+            'description': 'md5:870ec08f7d8547c29c93010899103751',
          },
          'playlist_count': 12,
      }
@@ -216,10 +218,10 @@ class QQMusicSingerIE(QQPlaylistBaseIE):
  class QQMusicAlbumIE(QQPlaylistBaseIE):
      IE_NAME = 'qqmusic:album'
      IE_DESC = 'QQ音乐 - 专辑'
-    _VALID_URL = r'http://y.qq.com/#type=album&mid=(?P<id>[0-9A-Za-z]+)'
+    _VALID_URL = r'https?://y\.qq\.com/n/yqq/album/(?P<id>[0-9A-Za-z]+)\.html'
  
      _TESTS = [{
-        'url': 'http://y.qq.com/#type=album&mid=000gXCTb2AhRR1',
+        'url': 'https://y.qq.com/n/yqq/album/000gXCTb2AhRR1.html',
          'info_dict': {
              'id': '000gXCTb2AhRR1',
              'title': '我们都是这样长大的',
@@ -227,7 +229,7 @@ class QQMusicAlbumIE(QQPlaylistBaseIE):
          },
          'playlist_count': 4,
      }, {
-        'url': 'http://y.qq.com/#type=album&mid=002Y5a3b3AlCu3',
+        'url': 'https://y.qq.com/n/yqq/album/002Y5a3b3AlCu3.html',
          'info_dict': {
              'id': '002Y5a3b3AlCu3',
              'title': '그리고...',
@@ -245,7 +247,7 @@ class QQMusicAlbumIE(QQPlaylistBaseIE):
  
          entries = [
              self.url_result(
-                'http://y.qq.com/#type=song&mid=' + song['songmid'], 'QQMusic', song['songmid']
+                'https://y.qq.com/n/yqq/song/' + song['songmid'] + ".html", 'QQMusic', song['songmid']
              ) for song in album['list']
          ]
          album_name = album.get('name')
@@ -259,20 +261,20 @@ class QQMusicAlbumIE(QQPlaylistBaseIE):
  class QQMusicToplistIE(QQPlaylistBaseIE):
      IE_NAME = 'qqmusic:toplist'
      IE_DESC = 'QQ音乐 - 排行榜'
-    _VALID_URL = r'http://y\.qq\.com/#type=toplist&p=(?P<id>(top|global)_[0-9]+)'
+    _VALID_URL = r'https?://y\.qq\.com/n/yqq/toplist/(?P<id>[0-9]+)\.html'
  
      _TESTS = [{
-        'url': 'http://y.qq.com/#type=toplist&p=global_123',
+        'url': 'https://y.qq.com/n/yqq/toplist/123.html',
          'info_dict': {
              'id': 'global_123',
              'title': '美国iTunes榜',
          },
          'playlist_count': 10,
      }, {
-        'url': 'http://y.qq.com/#type=toplist&p=top_3',
+        'url': 'https://y.qq.com/n/yqq/toplist/3.html',
          'info_dict': {
              'id': 'top_3',
-            'title': 'QQ音乐巅峰榜·欧美',
+            'title': '巅峰榜·欧美',
              'description': 'QQ音乐巅峰榜·欧美根据用户收听行为自动生成，集结当下最流行的欧美新歌！:更新时间：每周四22点|统'
                             '计周期：一周（上周四至本周三）|统计对象：三个月内发行的欧美歌曲|统计数量：100首|统计算法：根据'
                             '歌曲在一周内的有效播放次数，由高到低取前100名（同一歌手最多允许5首歌曲同时上榜）|有效播放次数：'
@@ -280,7 +282,7 @@ class QQMusicToplistIE(QQPlaylistBaseIE):
          },
          'playlist_count': 100,
      }, {
-        'url': 'http://y.qq.com/#type=toplist&p=global_106',
+        'url': 'https://y.qq.com/n/yqq/toplist/106.html',
          'info_dict': {
              'id': 'global_106',
              'title': '韩国Mnet榜',
@@ -291,7 +293,9 @@ class QQMusicToplistIE(QQPlaylistBaseIE):
      def _real_extract(self, url):
          list_id = self._match_id(url)
  
-        list_type, num_id = list_id.split("_")
+        # list_type, num_id = list_id.split("_")
+        list_type = "toplist"
+        num_id = list_id
  
          toplist_json = self._download_json(
              'http://i.y.qq.com/v8/fcg-bin/fcg_v8_toplist_cp.fcg?type=%s&topid=%s&format=json'
@@ -300,7 +304,7 @@ class QQMusicToplistIE(QQPlaylistBaseIE):
  
          entries = [
              self.url_result(
-                'http://y.qq.com/#type=song&mid=' + song['data']['songmid'], 'QQMusic', song['data']['songmid']
+                'https://y.qq.com/n/yqq/song/' + song['data']['songmid'] + ".html", 'QQMusic', song['data']['songmid']
              ) for song in toplist_json['songlist']
          ]
  
@@ -313,17 +317,26 @@ class QQMusicToplistIE(QQPlaylistBaseIE):
  class QQMusicPlaylistIE(QQPlaylistBaseIE):
      IE_NAME = 'qqmusic:playlist'
      IE_DESC = 'QQ音乐 - 歌单'
-    _VALID_URL = r'http://y\.qq\.com/#type=taoge&id=(?P<id>[0-9]+)'
+    _VALID_URL = r'https?://y\.qq\.com/n/yqq/playlist/(?P<id>[0-9]+)\.html'
  
-    _TEST = {
-        'url': 'http://y.qq.com/#type=taoge&id=3462654915',
+    _TESTS = [{
+        'url': 'http://y.qq.com/n/yqq/playlist/3462654915.html',
          'info_dict': {
              'id': '3462654915',
              'title': '韩国5月新歌精选下旬',
              'description': 'md5:d2c9d758a96b9888cf4fe82f603121d4',
          },
          'playlist_count': 40,
-    }
+        'skip': 'playlist gone',
+    }, {
+        'url': 'https://y.qq.com/n/yqq/playlist/1374105607.html',
+        'info_dict': {
+            'id': '1374105607',
+            'title': '易入人心的华语民谣',
+            'description': '民谣的歌曲易于传唱、、歌词朗朗伤口、旋律简单温馨。属于那种才入耳孔。却上心头的感觉。没有太多的复杂情绪。简单而直接地表达乐者的情绪，就是这样的简单才易入人心。',
+        },
+        'playlist_count': 20,
+    }]
  
      def _real_extract(self, url):
          list_id = self._match_id(url)
@@ -331,14 +344,21 @@ class QQMusicPlaylistIE(QQPlaylistBaseIE):
          list_json = self._download_json(
              'http://i.y.qq.com/qzone-music/fcg-bin/fcg_ucc_getcdinfo_byids_cp.fcg?type=1&json=1&utf8=1&onlysong=0&disstid=%s'
              % list_id, list_id, 'Download list page',
-            transform_source=strip_jsonp)['cdlist'][0]
-
+            transform_source=strip_jsonp)
+        if not len(list_json.get('cdlist', [])):
+            if list_json.get('code'):
+                raise ExtractorError(
+                    'QQ Music said: error %d in fetching playlist info' % list_json['code'],
+                    expected=True)
+            raise ExtractorError('Unable to get playlist info')
+
+        cdlist = list_json['cdlist'][0]
          entries = [
              self.url_result(
-                'http://y.qq.com/#type=song&mid=' + song['songmid'], 'QQMusic', song['songmid']
-            ) for song in list_json['songlist']
+                'https://y.qq.com/n/yqq/song/' + song['songmid'] + ".html", 'QQMusic', song['songmid']
+            ) for song in cdlist['songlist']
          ]
  
-        list_name = list_json.get('dissname')
-        list_description = clean_html(unescapeHTML(list_json.get('desc')))
+        list_name = cdlist.get('dissname')
+        list_description = clean_html(unescapeHTML(cdlist.get('desc')))
          return self.playlist_result(entries, list_id, list_name, list_description)