想请教一些练习爬虫时候遇到的问题

练习爬虫时，爬取今日头条网页代码的时候发现网页的内容集在doc，看到一些以前的回答，他们需要的网页信息都是集中在xhr，以及这个sourcemapping里面的内容通过requests请求是的不到的，这是什么原因

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-showbo 2021-08-14 11:48
关注
requests.get得到的是和浏览查看源代码一样的内容，js动态生成的内容requests.get无法获取，需要用Selenium来解析才行。

要么就找到数据接口直接reqeusts.get接口获取数据，头条搜索结果内容是在页面里面的用beautifulsoup解析下就行了。有帮助或启发麻烦点个采纳【本回答右上角】，谢谢~~有其他问题可以继续交流~

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

想请教一些练习爬虫时候遇到的问题 python 有问必答
2021-08-14 11:26

回答 3 已采纳 requests.get得到的是和浏览查看源代码一样的内容，js动态生成的内容requests.get无法获取，需要用Selenium来解析才行。要么就找到数据接口直接reqeusts.get接口获
想请教一下python爬虫中文乱码问题 python 有问必答正则表达式
2021-07-02 22:54

回答 3 已采纳教你一招，请求数据之前先右键查看网页源代码，看看最上面的charset是啥，一般都是utf-8或者gbk的，要按它给的写程序，你这个网页是utf8编码，所以可以这样写，参考： import reque
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
爬虫python 新闻,Python爬虫实例--爬取人民网新闻
2021-04-28 06:04

weixin_39719127的博客其实我只是因为在那边评论区想评论，然后发现位置不够，所以才打算写这个博客的，然后具体的可以看我转载的文章，很详细，我这边只说一下关于txt转换为JSON格式的问题第一次写，格式可能很乱，见谅一下话不多说，...
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
python爬虫入门请教问题 python 有问必答
2021-03-29 21:25

回答 4 已采纳你只是爬了个静态的，网页还有很多动态元素；有一些是相对路径的，在对方的服务器上，你本地无法加载到。你看百度的快照，跟你这种差不多，如果你想完全一样的页面，除了一些小网站，其他基本不可能。
python爬虫有一些小问题 pycharm python 爬虫
2023-03-12 01:58

回答 4 已采纳。。。。你要明白，源文件和查看元素的区别在浏览器里，使用查看元素方式得到的是已经经过浏览器渲染之后的数据而查看源文件，则是真正这个页面返回的数据那么问题来了，你在查看元素时有，但抓取时没有，那么
python爬虫代码大作业_爬虫大作业
2020-12-03 23:08

weixin_39610722的博客 2.用python 编写爬虫程序，从网络上爬取相关主题的数据。答：第一，首先打开广州大学的新闻页：http://news.gzhu.edu.cn/guangdayaowen/，看到此页有20条新闻，获取总的新闻页数的代码实现如下：#获取文章总页数def ...
beautifulSoup4爬虫问题，python简单代码请教一下 python 有问必答爬虫
2022-01-15 17:29

回答 1 已采纳就是获取 soup.find_all("script", type="text/javascript") 返回的结果，取第3个元素的文本。
用python做爬虫遇到的问题 python 爬虫
2021-09-11 14:26

回答 2 已采纳
python爬虫数据显示问题 python 爬虫
2022-07-20 16:54

回答 3 已采纳首先，你这里写错了divs = query(".cm-content-box").items()
Python100经典练习题 (2).pdf
2021-12-06 13:34

Python是一种广泛使用的高级编程语言...同时，遇到不懂的概念或问题时，积极查阅文档或向他人请教，这样才能不断进步。最后，参与Python社区，如文中提到的QQ群，与其他学习者交流讨论，是加深理解、拓展视野的好途径。
python爬虫的时候想提取URL但是提取不全 python 爬虫
2022-09-19 00:24

回答 3 已采纳是被你的过滤条件过滤了吧，检查一下过滤条件： import bs4 as bs import urllib.request source = urllib.request.urlopen("https
Python爬虫学习路线（非常详细）
2022-11-07 14:15

程序员小猴紫的博客因为要深度思考，因为要持续学习，因为要请教大佬，所以咱们学习路线的创作周期被不断拉长。截至目前，咱们一共发布了两套学习路线，分别是： - C/C++ 学习路线之 Windows 开发 - Java 学习路线完整版
python爬虫，新手入门爬取小说代码详解
2023-06-27 10:09

cyz_梦想成真的博客详细的代码和注释帮助新手练习简单的小说python爬取。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月22日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月14日

悬赏问题

¥15 网络科学导论，网络控制
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同
¥50 如何openEuler 22.03上安装配置drbd
¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
¥15 无线连接树莓派，无法执行update，如何解决？（相关搜索：软件下载）

想请教一些练习爬虫时候遇到的问题

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新