python爬取网页信息（主要为期刊影响因子、官网等），已有ISSN进行检索，但爬取过程找不到class该怎么办？

如第一张图所示，已经拥有ISSN，通过搜索框输入后，对结果栏（如第二张图所示）里面的一些指标包括影响因子、官网等进行提取，在通过request提取后，发现找不到这些指标对应的class，代码如第三张图所示，最终想得到的信息如第四张图所示。初学python，问题比较愚蠢还请见谅。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

5条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阳光宅男xxb 2023-03-28 14:12
关注
你需要现在网页html中看下那些指标因子的html结构是什么，才知道怎么提取。你的数据是在一个表格中，你可以先定位到表格的html，然后通过前后html标签来定位到你要解析的数据。代码如下，已成功提取，望采纳！

import requests from bs4 import BeautifulSoup import re req = requests.get(url="https://www.letpub.com.cn/index.php?journalid=662&page=journalapp&view=detail") req.encoding = "utf-8" html=req.text soup = BeautifulSoup(html,'lxml') #先定位数据所在的table table_htmls = soup.find_all('table',attrs={'class':'table_yjfx'}) tr = table_htmls[1].find('td',string=re.compile("E-ISSN")) print(tr.parent.next_sibling.contents[1].get_text()) td_2 = table_htmls[1].find('td',string="期刊官方网站") if td_2: print(td_2.next_sibling.a['href'])

最后成功提取你要的数据：

因为我这里没有登录，所以影响因子那里是图上的文字
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(4条)

报告相同问题？

关注问题

python爬取到的网页文本，保存本地txt显示文件为空？什么原因呢？ python 有问必答
2022-04-07 11:17

回答 3 已采纳 w改为a（追加），要不会将当前写入的内容覆盖文件内容要么将open和close放到for循环外
python爬取网页题库如何将选项一一对应 python
2022-10-06 15:37

回答 1 已采纳拿去 import requests from bs4 import BeautifulSoup url_list = [] option_one = [] option_two = [] op =
python爬虫中如果有两个相同的class标签，而爬取目标为第二个，如何解决 python 爬虫
2022-08-09 16:58

回答 3 已采纳 soup.find_all('div',class_='box_con')[1]这样呢
面向CCF目录中的论文暴力爬取实现
2022-09-26 21:31

Jack_August的博客此篇是《震惊！...计算机硕士新生人手必备不可不看》的实现说明，具体说明了期刊论文的获取部分。只需修改GetAllPaperText-Plus.py 文件内的函数 BlockFind , 并修改 KW 的值即可实现不同热点的论文获取
python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
利用python自动爬取网页相关信息并输出到excel表格里 list python
2022-08-03 18:00

回答 5 已采纳设计流程读取Excel中的事件编号需要的知识：使用 Python 读取Excel中的数据输入事件编号到网页端需要的知识：1.使用 Python 发送网络请求。首先需要分析目标网页输入事件编号这
python 爬取表格获取不到数据 python
2020-02-17 22:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
基于Java的新闻全文搜索引擎的设计与实现
2023-08-06 20:07

阿坨的博客该搜索引擎通过Scrapy网络爬虫工具获取新闻页面，将新闻内容存储在分布式存储系统HBase中，并利用倒排索引及轮排索引等索引技术对新闻内容进行索引，实现了常用的新闻搜索功能，如短语查询、布尔查询、通配符查询等...
为什么爬取到的内容和网页上的不一样呢？求解决方法 python 爬虫
2022-05-12 17:10

回答 2 已采纳因为他是异步加载的。解决方法：1、一般爬取到的内容和网页上的不一样，可能是请求异常或者是异步加载导致的，需要去定位数据来源。2、打开控制台全局搜索151.4，发现没结果，那么继续搜索1514，发现有
python爬取并下载的文件为什么是空白且加载不出来？ python
2021-08-08 11:16

回答 2 已采纳你只是爬取了html网页，，怎么能让你运行人家的网页呢你说的加载不出来那是肯定的这个样子应该你只是爬了个外壳，css和js都不能用了，所以背景是白的，按钮都是没有样式的如果明白了，点击右上角给个采纳哦
python 爬取网页时出现多种错误 python selenium 有问必答
2021-10-26 22:34

回答 2 已采纳代码中anal.xpath（//*[@id= Pating 一 app-profile-ratings"]/div[2]/div/div/span[1]/meta[2])可能获取到为空列表，不能用[0
计算机学科国际会议排名
2017-08-30 10:16

十一月zz的博客计算机和通信分会联合年会，由IEEE计算机通信技术委员会和IEEE通信协会联合举办，是信息通信领域规模最大的顶尖国际学术会议，录用率约为16%左右。这个每年一度的会议的主要议题是计算机通信，重点是流量管理和协议...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 4月5日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月28日

悬赏问题

¥15 如何解决ldsc的这条报错/index error
¥15 VS2022+WDK驱动开发环境
¥30 关于#java#的问题，请各位专家解答！
¥30 vue+element根据数据循环生成多个table，如何实现最后一列平均分合并
¥20 pcf8563时钟芯片不启振
¥20 pip2.40更新pip2.43时报错
¥15 换yum源但仍然用不了httpd
¥50 C# 使用DEVMOD设置打印机首选项
¥15 麒麟V10 arm安装gdal
¥20 OPENVPN连接问题

python爬取网页信息（主要为期刊影响因子、官网等），已有ISSN进行检索，但爬取过程找不到class该怎么办？

5条回答 默认 最新

问题事件

悬赏问题

5条回答默认最新