畅情 2021-08-14 11:26 采纳率: 60%
浏览 53
已结题

想请教一些练习爬虫时候遇到的问题

练习爬虫时,爬取今日头条网页代码的时候发现网页的内容集在doc,看到一些以前的回答,他们需要的网页信息都是集中在xhr,以及这个sourcemapping里面的内容通过requests请求是的不到的,这是什么原因
img

  • 写回答

3条回答 默认 最新

  • CSDN专家-showbo 2021-08-14 11:48
    关注

    requests.get得到的是和浏览查看源代码一样的内容,js动态生成的内容requests.get无法获取,需要用Selenium来解析才行。

    要么就找到数据接口直接reqeusts.get接口获取数据,头条搜索结果内容是在页面里面的用beautifulsoup解析下就行了。有帮助或启发麻烦点个采纳【本回答右上角】,谢谢~~有其他问题可以继续交流~

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 8月22日
  • 已采纳回答 8月14日
  • 创建了问题 8月14日

悬赏问题

  • ¥15 关于模型训练的一个问题
  • ¥15 装了几千台服务器从来没遇到这种问题,哎看下哪位帮我解决吧
  • ¥15 单片机程序上的困难问题
  • ¥15 请教某软件缓存Ts文件破解合并mp4的方法
  • ¥15 求小游戏炸弹人中关于敌人的C++代码
  • ¥15 拿到这个服务器最高权限有偿
  • ¥50 来个抓app跳转支付宝转链接的
  • ¥15 remotes安装提示没有description文件
  • ¥15 AttributeError: 'NoneType' object has no attribute 'drop_duplicates'报错
  • ¥15 以下代码,运行结果报错