skjlgo 2021-11-08 17:02 采纳率: 91.7%

浏览 36

已结题

python 爬虫问题，在源代码中显示的是中文，但是爬下来的是乱码一样的东西？

这个是源代码。

xpath1=r'//title/text()'
        resp=requests.get(url)
        text=resp.text
        html=etree.HTML(text)
        名字=html.xpath(xpath1)
        print(名字)




1
['15bc3133-f15a-4f99-87fa-dcfa1961d289PPT模板-']

奇怪的是，PPT模板是正常的，但是前面这一块成了乱码一样的东西。
猜想，是不是，一种编码方式，需要我进行解码，如果是这样，请说一下这种是怎么样的编码方式，如何解码，得出正确的标题。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-showbo 2021-11-08 17:08
关注
目测title是js动态设置的，题主查看网页源代码，源代码模式显示的就是题主这串内容，requests只能得到源代码内容，不会解析js，所以要获取标题题主要找源代码中的其他节点

如果源码显示正常标题，那么就是requests请求缺少一些参数导致被反扒了。比如user-agent，Referer此类请求头要加上

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月8日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月8日