weixin_45219904 2020-03-15 11:39 采纳率: 0%
浏览 614

python爬取音乐id时出错。

utf-8
```import requests
from lxml import etree
import json
url = "http://music.163.com/playlist?id=2182968685"
headers = {'Host': 'music.163.com',
           'Referer': 'http://music.163.com/',
           'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
           'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36(KHTML, like Gecko)Chrome/79.10.3945.130 Safari/537.36'
           }
s = requests.session()
r = s.get(url, headers=headers)
results = etree.HTML(r.content)
print(results)
results = results.xpath('//span/a/@href')
#print(results)
for result in results:
    print(result)
上面是代码,结果如下:
<Element html at 0x2246160fac8>
/user/home?id=60348755
javascript:void(0)
javascript:void(0)
javascript:void(0)
javascript:void(0)
javascript:void(0)
/artist?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
望各位大神指点迷津,到底是那里出了问题。
  • 写回答

3条回答 默认 最新

  • 李草坪 2020-03-15 23:04
    关注

    你的规则提取的范围太大了,可以把你的xpath规则改一下:results = results.xpath('//ul[@class="f-hide"]/li/a/@href')

    评论

报告相同问题?

悬赏问题

  • ¥15 程序不包含适用于入口点的静态Main方法
  • ¥15 素材场景中光线烘焙后灯光失效
  • ¥15 请教一下各位,为什么我这个没有实现模拟点击
  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
  • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 ubuntu子系统密码忘记