zll962464 2023-03-28 10:02 采纳率: 50%

浏览 74

已结题

python爬取网页信息（主要为期刊影响因子、官网等），已有ISSN进行检索，但爬取过程找不到class该怎么办？

如第一张图所示，已经拥有ISSN，通过搜索框输入后，对结果栏（如第二张图所示）里面的一些指标包括影响因子、官网等进行提取，在通过request提取后，发现找不到这些指标对应的class，代码如第三张图所示，最终想得到的信息如第四张图所示。初学python，问题比较愚蠢还请见谅。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阳光宅男xxb 2023-03-28 14:12
关注
你需要现在网页html中看下那些指标因子的html结构是什么，才知道怎么提取。你的数据是在一个表格中，你可以先定位到表格的html，然后通过前后html标签来定位到你要解析的数据。代码如下，已成功提取，望采纳！

import requests from bs4 import BeautifulSoup import re req = requests.get(url="https://www.letpub.com.cn/index.php?journalid=662&page=journalapp&view=detail") req.encoding = "utf-8" html=req.text soup = BeautifulSoup(html,'lxml') #先定位数据所在的table table_htmls = soup.find_all('table',attrs={'class':'table_yjfx'}) tr = table_htmls[1].find('td',string=re.compile("E-ISSN")) print(tr.parent.next_sibling.contents[1].get_text()) td_2 = table_htmls[1].find('td',string="期刊官方网站") if td_2: print(td_2.next_sibling.a['href'])

最后成功提取你要的数据：

因为我这里没有登录，所以影响因子那里是图上的文字
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月28日

悬赏问题

¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题
¥15 lna设计源简并电感型共源放大器