Python：如何爬取到该数据？

该网站不能使用urllib因为返回的是text/html，也无法使用bs4解析源代码得到结果，里面大量使用ajax技术进行组合返回数据。
所以我用selenium

browser.get(request_url)
html_text=browser.page_source

爬取如下网页结构:

<span class = "content">
“学号：”
<span>1233415</span>
",详细内容："
<span class = "morelength">
" "...身高："
<em class = "oas_impInfo">
167</em>
"cm..." "
</span>

爬出来的内容是

{“学号”：“1233415”, "详细内容："\"...身高：", "cm...\""}

怎样才能获取的内容呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2020-09-07 13:20
关注
首先 f12 抓包，看看 ajax 的 json 请求的实际地址是什么，然后用
r = requests.get(request_url)
obj = r.json()
print(obj.学号)

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

Python：如何爬取到该数据？ python
2020-09-07 10:20

回答 2 已采纳首先 f12 抓包，看看 ajax 的 json 请求的实际地址是什么，然后用 r = requests.get(request_url) obj = r.json() print(obj.学
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 11:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬虫爬取不到数据，如何分析定位？ python 有问必答爬虫
2021-11-27 11:36

回答 3 已采纳你爬虫应该是用requests发送http请求的吧，这个是无法从elements找到，你要在network的doc分析网页，你找不到的数据很大可能是ajax请求渲染前端的
python爬虫：爬取新浪新闻数据
2021-01-20 03:10

我们可以试试爬取新浪新闻首页,我们发现会返回403 ,因为对方服务器会对爬虫进行屏蔽。此时,我们需要伪装成浏览器才能爬取。 1.实战分析：浏览器伪装一般通过报头进行：打开某个网页，按F12—Network— 任意点一个...
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 10:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python爬虫爬取jsonp请求的响应数据怎么获取 json python
2021-05-22 21:34

回答 1 已采纳这里我们以爬取淘宝评论为例子讲解一下如何去做到的。这里主要分为了四步：一获取淘宝评论时，ajax请求链接（url）二获取该ajax请求返回的json数据三使用python解析js
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
Python：爬取博文评论
2022-05-23 23:42

爬取博文评论数据： 1. 用 Jupyter Noteboke 打开； 2. 用到了requests库； 3. json() 函数； 4. to_excel函数储存数据；注意注意注意：第一次执行时，可能会弹出爬取失败的网址；遇到这种情况，重复执行几次...
python selenuim 爬取多页数据 python 有问必答爬虫
2022-06-05 15:43

回答 2 已采纳网页不刷新应该是翻页是通过ajax获取后端数据的，你看看网页是怎样触发ajax请求的
python爬虫爬取到的内容无法输出到txt文档中 python
2022-08-12 12:20

回答 3 已采纳不如换用requests库和bs4库吧。 from bs4 import BeautifulSoup as bs import requests as r url = 'https://fanqie
关于#python#的问题：python爬虫爬取百度图片 python 有问必答爬虫
2021-11-27 22:00

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Python爬虫案例1：爬取淘宝网页数据
2023-10-27 12:54

淘宝网页爬虫代码以及爬取的芒果、草莓、鸭舌帽数据excel文件
Python用beautifulsoup爬取网页数据 python
2022-04-29 00:54

回答 1 已采纳是不是最后一页的数据？导出覆盖了吧
Python爬虫案例2：爬取前程无忧网站数据
2023-10-27 13:55

Python爬虫案例2：爬取前程无忧网站数据，资源包含爬虫程序，爬虫解析程序，爬取数据excel文件
用python进行多页数据爬取_Python爬虫：如何爬取分页数据？
2020-11-21 00:03

weixin_39595164的博客爬取对象：编程思路：1. 寻找分页地址的变动规律 2. 解析网页，获取内容，放入自定义函数中 3. 调用函数，输出分页内容详细解说：1. 首先插入用到的库：BeautifulSoup、requestsfrom bs4 import BeautifulSoupimport...
没有解决我的问题, 去提问

悬赏问题

¥15 matlab答疑关于海上风电的爬坡事件检测
¥88 python部署量化回测异常问题
¥30 酬劳2w元求合作写文章
¥15 在现有系统基础上增加功能
¥15 远程桌面文档内容复制粘贴，格式会变化
¥15 关于#java#的问题：找一份能快速看完mooc视频的代码
¥15 这种微信登录授权谁可以做啊
¥15 请问我该如何添加自己的数据去运行蚁群算法代码
¥20 用HslCommunication 连接欧姆龙 plc有时会连接失败。报异常为“未知错误”
¥15 网络设备配置与管理这个该怎么弄

Python：如何爬取到该数据？

2条回答 默认 最新

悬赏问题

2条回答默认最新