skjlgo 2021-11-08 17:02 采纳率: 91.7%
浏览 36
已结题

python 爬虫问题,在源代码中显示的是中文,但是爬下来的是乱码一样的东西?

img


这个是源代码。

xpath1=r'//title/text()'
        resp=requests.get(url)
        text=resp.text
        html=etree.HTML(text)
        名字=html.xpath(xpath1)
        print(名字)




1
['15bc3133-f15a-4f99-87fa-dcfa1961d289PPT模板-']

奇怪的是,PPT模板是正常的,但是前面这一块成了乱码一样的东西。
猜想,是不是,一种编码方式,需要我进行解码,如果是这样,请说一下这种是怎么样的编码方式,如何解码,得出正确的标题。

  • 写回答

2条回答 默认 最新

  • CSDN专家-showbo 2021-11-08 17:08
    关注

    目测title是js动态设置的,题主查看网页源代码,源代码模式显示的就是题主这串内容,requests只能得到源代码内容,不会解析js,所以要获取标题题主要找源代码中的其他节点

    如果源码显示正常标题,那么就是requests请求缺少一些参数导致被反扒了。比如user-agent,Referer此类请求头要加上

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 11月16日
  • 已采纳回答 11月8日
  • 创建了问题 11月8日

悬赏问题

  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
  • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 ubuntu子系统密码忘记
  • ¥15 保护模式-系统加载-段寄存器
  • ¥15 电脑桌面设定一个区域禁止鼠标操作
  • ¥15 求NPF226060磁芯的详细资料