python爬虫的时候想提取URL但是提取不全

import bs4 as bs
import urllib.request
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from functools import wraps
source = urllib.request.urlopen("https://www.formula1.com/en/results.html/2021/race.html").read()
soup = bs.BeautifulSoup(source,'lxml')
all_urls = soup.find_all('a')
race_urls = []
for url in all_urls:
    if ('2021' in str(url.get('href'))) and ('fastest-laps' in str(url.get('href')))and (url.get('href') not in race_urls) :
            race_urls.append(url.get('href'))
race_urls

最后出来的只有一个['/en/results.html/2021/fastest-laps.html']，应该有22个才对，请各位解答。本人初学勿喷。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
honestman_ 2022-09-19 08:39
关注
是被你的过滤条件过滤了吧，检查一下过滤条件：

import bs4 as bs import urllib.request source = urllib.request.urlopen("https://www.formula1.com/en/results.html/2021/races/1068/azerbaijan/race-result.html").read() soup = bs.BeautifulSoup(source,'lxml') all_urls = soup.find_all('a') race_urls = [] for url in all_urls: if ('2021' in str(url.get('href'))) and (url.get('href') not in race_urls) : race_urls.append(url.get('href')) print(race_urls) print(len(race_urls))
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫的时候想提取URL但是提取不全 python 爬虫
2022-09-19 00:24

回答 3 已采纳是被你的过滤条件过滤了吧，检查一下过滤条件： import bs4 as bs import urllib.request source = urllib.request.urlopen("https
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Python爬虫是指使用Python编程语言编写的程序，用于从互联网上获取数据爬虫程序通过模拟浏览器的行为
2024-02-21 00:37

总的来说，Python爬虫是通过Python编程语言实现的自动化数据获取工具，它涉及到网络请求、网页解析、反爬策略、数据存储等多个方面，广泛应用于数据分析、市场研究、内容监控等场景。通过不断学习和实践，我们可以...
python爬虫如何精确提取a标签 pycharm python 爬虫
2022-02-12 15:12

回答 1 已采纳远程看看可以吗
python爬虫爬虫的网站源码不齐全怎么办 python
2019-04-26 16:05

回答 1 已采纳现在都是动态网页,你爬取到的只是一个基本框架而已。你可以用f12 然后检测一下http请求，基本上获取到的都是第一个请求。后面的数据都是通过js修改后的网页。交互式的。所以要想做复杂爬虫，
python爬虫遇到标签不全的网页 python
2022-07-23 10:52

回答 3 已采纳我知道问题的原因了,不是代码的问题,而是整个网站有url访问限制,谢谢各位了
Python 爬虫编程从入门到实践
2024-03-11 13:42

本文将深入探讨Python爬虫编程的基础知识，从入门到实践，帮助初学者掌握这一技能。首先，我们要了解什么是网络爬虫。网络爬虫是一种自动浏览互联网并收集信息的程序，它能遍历网页、抓取数据，为数据分析、信息...
爬虫request能不能提取出正在获取的网页的url python 爬虫
2022-01-20 16:42

回答 2 已采纳我JAVA的.你说的应该是request请求里面.既有URL.又有参数等,JAVA这边有个深拷贝和浅拷贝.深拷贝可以达成.python这边你看下
爬虫，关于JavaScript写出来的目标url如何提取 python 数据库爬虫
2022-12-08 12:48

回答 2 已采纳说明这个url是动态拼接出来，使用webdriver打开浏览器等待加载完成，再去拿页面源码，再定位这个url. 如有帮助，请采纳哦
python爬虫提取文本？ python
2021-07-14 11:26

回答 1 已采纳 import re a = "<script type='text/javascript'>window._global = {env: 'production',currentUser
初学python爬虫，记录一下学习过程，正则表达式提取图片网址
2020-12-23 01:14

对于初学者来说，学习如何构建一个简单的Python爬虫是十分有趣的。本篇将详细介绍如何利用正则表达式（Regular Expression）从网页中提取图片链接，以实现基础的网络爬虫功能。首先，我们导入所需的库。Python中的...
如何使用python爬虫单独提取经验与学历避开工资 python 前端
2022-07-21 14:17

回答 4 已采纳 find() 方法检测字符串中是否包含子字符串 str 。一个是div标签的文本，一个是span标签的文本。都不是同一个标签下，这很好取呀。你是用的什么方法获取的？
利用Python编程爬虫
2024-01-03 20:16

在IT行业中，Python编程语言因其简洁明了的语法和强大的功能而被广泛应用于各个领域，尤其是在网络爬虫技术上。网络爬虫是一种自动化程序，能够按照一定的规则抓取互联网上的信息，为数据分析、搜索引擎优化、市场...
绝对与相对的舞蹈：Python 爬虫处理 URL 的艺术
2024-07-07 04:24

Python 爬虫，通常被称为 Python Spider 或 Python Web Scraper，是一种使用 Python 编程语言编写的自动化脚本或程序，用于从互联网上的网站提取信息。这种程序可以访问网页，解析页面内容，并从中提取出有用的数据...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金10元 9月19日
展开全部

悬赏问题

¥15 latex投稿显示click download
¥15 请问读取环境变量文件失败是什么原因？
¥15 在若依框架下实现人脸识别
¥15 网络科学导论，网络控制
¥100 安卓tv程序连接SQLSERVER2008问题
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？

python爬虫的时候想提取URL但是提取不全

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新