python用beautifulsoup爬取网页内容部分内容缺失

本人python新手，想用beautifulsoup爬取网页内容（比如东方财富网的沪深港通资金流向http://data.eastmoney.com/hsgt/index.html），自己通过浏览器F12能找到关键的每日top10股票，但是用beautifulsoup爬取后，却缺失这一部分内容。请问是什么原因？我试过很多网站都是会缺少我最想要的关健内容，请问怎么破？

def askURL(url):
    head={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.182 Safari/537.36"}
    request=urllib.request.Request(url,headers=head)
    html=''
    try:
        response=urllib.request.urlopen(request)
        html=response.read().decode('utf-8')
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
    return html


def getData(baseurl)
    for i in range(1,2):
        url=baseurl+str(i)
        html=askURL(url)
        # print(html)
        # break
        soup =BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):
            data=[]
            item=str(item)
            link = re.findall(findLink, item)[0]
            data.append(link)
            number=re.findall(findNumber,item)[0]
            data.append(number)
            date=re.findall(findNumber,item)[1]
            data.append(date)
            pic=re.findall(findPic,item)[0]
            data.append(pic)
            datalist.append(data)
    return datalist

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
多鱼的夏天 2021-04-07 15:25
关注
有些信息不直接在网页源代码中，也可能通过异步请求获取内容，然后使用js添加到网页中。

你可以通过chrome开发者工具，在network tab的xhr中发现这些请求。

再高阶些，有些站点在页面源代码和异步请求中是加密内容，需要分析js发现解密函数，然后进行解密才能获取到内容。

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python用beautifulsoup爬取网页数据 python
2022-04-29 00:54

回答 1 已采纳是不是最后一页的数据？导出覆盖了吧
Python爬虫 BeautifulSoup解析网页爬取内容为None python 有问必答
2021-08-31 14:07

回答 2 已采纳你抓的频率太快，IP被墙了
BeautifulSoup 爬取报错为空 python 爬虫
2022-07-11 09:37

回答 4 已采纳 emmmm，你打印webpage_source 看下有没有请求url返回网页
python3 读取html文件,关于Python3.7的BeautifulSoup解析html文件缺失内容的问题
2021-06-28 01:20

weixin_39673947的博客背景从网站爬取html，用BeautifulSoup解析标签内容，发现用尽办法都找不到想要的标签。分析过程(1)把urlopen请求到的html打印出来，body是完整的；(2)把BeautifulSoup解析后的soup打印出来，body只有少量的div，很快...
python爬虫爬取网页代码遇到了一些问题 python 爬虫
2022-08-17 17:07

回答 3 已采纳因为元素里的你要的内容是通过 ajax 请求动态加载的，可以浏览器抓包去看下，你想要的这条数据到底是哪个请求返回的，找到真正的请求，然后模拟发送就行了
用爬虫爬取网页，表格第一行内容无法获得 python 爬虫
2021-12-14 09:11

回答 1 已采纳如果是想要获得标题，表头用的是th，不是td。和表格正文内容不是一样的。
python爬虫如何只爬取标签内容 python
2019-04-28 11:24

回答 1 已采纳用 for key in ee.keys(): print（key）就行啦
使用selenium和beautifulsoup爬取网页的注意事项
2023-08-09 11:36

diaconoi的博客本文主要是基于我自己做的一个小项目：采用selenium和beautifulsoup获取163邮箱所有未读邮件内容，结合自己接触使用selenium和beautifulsoup的过程中，我将自己认为几个比较重要的地方记录下来，希望对大家有帮助。
Python获取div下内容 python 爬虫
2022-04-14 10:52

回答 1 已采纳一个取巧的方法： # span后面的懒得写了。。正则表达式的前后缀你可以改动一下 list_match = re.findall(r'<span...>(.*?)</span>
python爬虫爬到的网页内容不完全 python 爬虫网络
2021-10-31 23:19

回答 1 已采纳 beautifulsoup是爬静态网页的，应该是有些内容属于动态，可以尝试selenium
网页内容解析，python json python
2023-03-12 11:09

回答 2 已采纳这都直接返回json信息了。
关于Python3.7的BeautifulSoup解析html文件缺失内容的问题
2018-12-25 16:54

季佑的博客从网站爬取html，用BeautifulSoup解析标签内容，发现用尽办法都找不到想要的标签。分析过程（1）把urlopen请求到的html打印出来，body是完整的；（2）把BeautifulSoup解析后的soup打印出来，body只有少量的div...
python 使用BeautifulSoup 出错 python
2017-08-16 08:57

回答 3 已采纳 nostarchsoup=bs4.BeautifulSoup(res.text，'html.parser')这样写
Python使用标准库urllib模拟浏览器爬取网页内容
2018-08-29 22:16

dongfuguo的博客 爬取网页内容的第一步是分析目标网站源代码结构，确定自己要爬取的内容在哪里，这要求对HTML代码有一定了解，对于某些网站内容的爬取还需要具有一定的Javascript基础。但是，如果目标网站...
Python爬取网页文本数据，从此告别复制粘贴！
2023-11-06 11:29

码农必胜客的博客如何复制网页付费文本资料呢？python网络爬虫一招教你自动生成文本文档
没有解决我的问题, 去提问

悬赏问题

¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题
¥15 lna设计源简并电感型共源放大器
¥15 如何用Labview在myRIO上做LCD显示？(语言-开发语言)

python用beautifulsoup爬取网页内容部分内容缺失

1条回答 默认 最新

悬赏问题

1条回答默认最新