使用beautifulsoup爬取时跳出JavaScript链接是为什么

运行如下代码后，无含a标签的元素输出


- i******

from bs4 import BeautifulSoup
# 目标网页的URL
url = 'https://www.pharmgkb.org/guidelineAnnotations'
# 发送HTTP请求获取网页内容
response = requests.get(url)
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser'
# 找到所有的<a>标签
a_tags = soup.find_all('a', href=True)
# 遍历并打印每个<a>标签的href属性
for tag in a_tags:

输出为一个链接

https://www.whatismybrowser.com/guides/how-to-enable-javascript/

请问原因

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
笑面虎 2024-05-13 12:03
关注
以下内容由CHATGPT及笑面虎共同生成、有用望采纳：

【您想要解决的问题】：您遇到的问题是在使用Python的BeautifulSoup库爬取网页时，没有获取到含有<a>标签的元素，而是被重定向到了一个提示启用JavaScript的页面。

【问题出现原因】：这个问题通常是因为目标网站使用了JavaScript来动态生成内容。BeautifulSoup只能解析静态的HTML内容，而无法执行JavaScript代码。因此，当您尝试使用BeautifulSoup来解析一个依赖JavaScript来渲染的页面时，您获取到的HTML可能是执行JavaScript之前的原始代码，而不是JavaScript执行后的最终结果。

【问题解决方案】：要解决这个问题，您可以使用Selenium库，它可以通过模拟一个真实的浏览器环境来执行JavaScript代码，并获取到执行后的页面内容。这样，您就可以获取到动态生成的<a>标签了。

【提供代码】：以下是使用Selenium获取网页中所有<a>标签的示例代码：

from selenium import webdriver from selenium.webdriver.chrome.options import Options # 设置Selenium不打开浏览器窗口 chrome_options = Options() chrome_options.add_argument("--headless") # 创建WebDriver对象 driver = webdriver.Chrome(options=chrome_options) # 目标网页的URL url = 'https://www.pharmgkb.org/guidelineAnnotations' # 使用Selenium获取网页内容 driver.get(url) # 获取页面源代码 html_content = driver.page_source # 使用BeautifulSoup解析网页内容 from bs4 import BeautifulSoup soup = BeautifulSoup(html_content, 'html.parser') # 找到所有的<a>标签 a_tags = soup.find_all('a', href=True) # 遍历并打印每个<a>标签的href属性 for tag in a_tags: print(tag['href']) # 关闭WebDriver driver.quit()

【代码运行方式】：要运行这段代码，您需要安装Selenium库和对应的WebDriver。对于Chrome浏览器，您需要下载ChromeDriver。确保下载与您的浏览器版本相匹配的ChromeDriver，并将其路径添加到系统的PATH环境变量中。

【代码预期运行结果】：如果代码成功执行，它将打印出网页上所有<a>标签的href属性值。

【推荐相关链接】：

Selenium官方文档：https://www.selenium.dev/documentation/en/
BeautifulSoup官方文档：https://www.crummy.com/software/BeautifulSoup/bs4/doc/
ChromeDriver下载：https://sites.google.com/a/chromium.org/chromedriver/downloads

请注意，使用Selenium进行爬虫可能会对网站服务器造成较大压力，因此在使用时应当遵守网站的爬虫政策，并尽量限制请求频率。
解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

BeautifulSoup 爬取报错为空 python 爬虫
2022-07-11 09:37

回答 4 已采纳 emmmm，你打印webpage_source 看下有没有请求url返回网页
Python爬虫 BeautifulSoup解析网页爬取内容为None python 有问必答
2021-08-31 14:07

回答 2 已采纳你抓的频率太快，IP被墙了
Python用beautifulsoup爬取网页数据 python
2022-04-29 00:54

回答 1 已采纳是不是最后一页的数据？导出覆盖了吧
【python爬虫】爬虫编程技术的解密与实战
2024-01-26 10:29

SarPro的博客《【Python爬虫】爬虫编程技术的解密与实战》深入剖析了爬虫技术的精髓，并提供了实际应用的实战经验。作者首先解密了Python爬虫编程的关键技术，涵盖了网页解析、数据提取、请求模拟等方面。通过详细而易懂的讲解，...
为什么爬取豆瓣top250得到是的是个空列表啊 python 有问必答
2021-12-03 22:06

回答 2 已采纳被反扒了，加上User-Agent def getHtml(url): r=requests.get(url,headers={'User-Agent':'Mozilla/5.0 (Windo
使用requests 获取博客园每页内容时，为什么一直重复爬取第一页内容？感谢大佬 python 有问必答
2021-04-03 09:45

回答 4 已采纳问题出在urls构造上，第一页和后续网页的地址是不一样的，将这行改为：urls = [f'https://cnblogs.com/#p{page}' if page == 1 else f'https
这是为什么，包已经导了bs4，beautifulsoup导不了 python
2022-11-23 23:38

回答 2 已采纳方法一：安装lxml 在cmd中输入pip install lxml 方法二：换一种解析方式将soup = BeautifulSoup(r.text, ‘lxml’)修改成如下形式即可：soup =
【Python】编程练习的解密与实战（三）
2024-01-12 08:00

SarPro的博客博文【Python】编程练习的解密与实战”深入研究了Python编程领域，为学习者提供了全面而实用的编程练习与解密经验。文章首先介绍了编程练习的重要性，强调通过实际动手操作加深对Python语言的理解。随后，通过解密一...
使用BeautifulSoup或golang colly解析HTML时遇到问题 python
2018-07-12 07:23

回答 1 已采纳 It looks to me like the HTML is actually commented out, so that's why BeautifulSoup can't find it.
pychon中爬取网页信息，输出时乱码问题，求解决 python 开发语言有问必答爬虫
2022-01-08 21:33

回答 1 已采纳你requests 读取页面文件的编码不对 ,用 res.encoding='utf-8'或res.encoding='gbk'设置下读取页面文件用的编码, 再获取res.text即可，比如 res=
如何使用BeautifulSoup python
2022-04-06 20:16

回答 4 已采纳建议先看看这几篇文章，有什么问题，请回复https://www.baidu.com/link?url=xexfw2IDqY3NUSuSZc8EO7s2QFz84GPxwyGMR5jclQz24Ogwc
Python爬虫从小白到高手各种最新案例！ Urllib Xpath JsonPath BeautifulSoup
2023-06-23 13:53

软工菜鸡的博客本教程适合想掌握爬虫技术的学习者，以企业主流版本Python 3.7来讲解，内容包括：...教程中示例多种网站的爬取，包括设计类网站、招聘类网站、图书类网站、图片素材类网站等，还讲解了验证码的破解和常见的打码平台使用
python爬取数据到文本文件：为什么里面写了utf-8还是乱码 python
2021-07-24 11:40

回答 3 已采纳你在你画圆圈的的上一行写一句r.encoding="utf-8"试一试，有用的话点一下采纳
python实现模拟用户点击行为测试
2023-12-06 06:15

进击的雷神的博客使用条件变量：条件变量是一种线程间通信的机制，可以用来同步多个线程的状态并决定它们的执行顺序。使用条件变量：条件变量是一种线程间通信的机制，可以用来同步多个线程的状态并决定它们的执行顺序。使用数据库：...
Python编程-让繁琐的工作自动化（十一）从Web爬取信息
2019-09-11 20:29

半夏云流的博客目录 1.webbrowser模块 1.1 弄清楚URL 1.2 处理命令行参数 2. 用requests模块从Web下载文件 ...3. 用BeautifulSoup模块解析HTML 3.1 从HTML创建一个BeautifulSoup对象 4. 小项目《1》：查找一个话...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月13日

悬赏问题

¥15 软件工程用例图的建立（相关搜索：软件工程用例图|画图）
¥15 如何在arcgis中导出拓扑关系表
¥15 处理数据集文本挖掘代码
¥15 matlab2017
¥15 在vxWorks下TCP/IP编程，总是connect（）报错，连接服务器失败: errno = 0x41
¥15 AnolisOs7.9如何安装 Qt_5.14.2的运行库
¥20 求：怎么实现qt与pcie通信
¥50 前后端数据顺序不一致问题，如何解决？（相关搜索：数据结构）
¥15 基于蒙特卡罗法的中介效应点估计代码
¥15 罗技G293和UE5.3

使用beautifulsoup爬取时跳出JavaScript链接是为什么

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新