weixin_45219904 2020-03-15 11:39 采纳率: 0%
浏览 614

python爬取音乐id时出错。

utf-8
```import requests
from lxml import etree
import json
url = "http://music.163.com/playlist?id=2182968685"
headers = {'Host': 'music.163.com',
           'Referer': 'http://music.163.com/',
           'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
           'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36(KHTML, like Gecko)Chrome/79.10.3945.130 Safari/537.36'
           }
s = requests.session()
r = s.get(url, headers=headers)
results = etree.HTML(r.content)
print(results)
results = results.xpath('//span/a/@href')
#print(results)
for result in results:
    print(result)
上面是代码,结果如下:
<Element html at 0x2246160fac8>
/user/home?id=60348755
javascript:void(0)
javascript:void(0)
javascript:void(0)
javascript:void(0)
javascript:void(0)
/artist?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
/song?id=${x.id}
望各位大神指点迷津,到底是那里出了问题。
  • 写回答

3条回答 默认 最新

  • 李草坪 2020-03-15 23:04
    关注

    你的规则提取的范围太大了,可以把你的xpath规则改一下:results = results.xpath('//ul[@class="f-hide"]/li/a/@href')

    评论

报告相同问题?

悬赏问题

  • ¥15 NAO机器人的录音程序保存问题
  • ¥15 C#读写EXCEL文件,不同编译
  • ¥15 MapReduce结果输出到HBase,一直连接不上MySQL
  • ¥15 扩散模型sd.webui使用时报错“Nonetype”
  • ¥15 stm32流水灯+呼吸灯+外部中断按键
  • ¥15 将二维数组,按照假设的规定,如0/1/0 == "4",把对应列位置写成一个字符并打印输出该字符
  • ¥15 NX MCD仿真与博途通讯不了啥情况
  • ¥15 win11家庭中文版安装docker遇到Hyper-V启用失败解决办法整理
  • ¥15 gradio的web端页面格式不对的问题
  • ¥15 求大家看看Nonce如何配置