python爬虫的时候想提取URL但是提取不全

import bs4 as bs
import urllib.request
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from functools import wraps
source = urllib.request.urlopen("https://www.formula1.com/en/results.html/2021/race.html").read()
soup = bs.BeautifulSoup(source,'lxml')
all_urls = soup.find_all('a')
race_urls = []
for url in all_urls:
    if ('2021' in str(url.get('href'))) and ('fastest-laps' in str(url.get('href')))and (url.get('href') not in race_urls) :
            race_urls.append(url.get('href'))
race_urls

最后出来的只有一个['/en/results.html/2021/fastest-laps.html']，应该有22个才对，请各位解答。本人初学勿喷。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
honestman_ 2022-09-19 08:39
关注
是被你的过滤条件过滤了吧，检查一下过滤条件：

import bs4 as bs import urllib.request source = urllib.request.urlopen("https://www.formula1.com/en/results.html/2021/races/1068/azerbaijan/race-result.html").read() soup = bs.BeautifulSoup(source,'lxml') all_urls = soup.find_all('a') race_urls = [] for url in all_urls: if ('2021' in str(url.get('href'))) and (url.get('href') not in race_urls) : race_urls.append(url.get('href')) print(race_urls) print(len(race_urls))
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

python爬虫的时候想提取URL但是提取不全 python 爬虫
2022-09-19 00:24

回答 3 已采纳是被你的过滤条件过滤了吧，检查一下过滤条件： import bs4 as bs import urllib.request source = urllib.request.urlopen("https
python爬虫html获取不全 html python 爬虫
2022-06-24 19:43

回答 1 已采纳其实有的，但是这个网站应该是为了懒加载把url用base64密了一下，然后再动态加载，其实我下面发的这个就是url 是base64后的url 解码后就是https://s1.aigei.com/
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
全网最全python爬虫精进
2021-04-25 17:33

yk 坤帝的博客因为这些数据是用计算机的语言写的，浏览器还要把这些数据翻译成我们能看得懂的内容；（2）提取数据：我们就可以在拿到的数据中，挑选出对我们有用的数据；（3）存储数据：将挑选出来的有用数据保存在某一文件/...
python爬虫如何精确提取a标签 pycharm python 爬虫
2022-02-12 15:12

回答 1 已采纳远程看看可以吗
python爬虫爬虫的网站源码不齐全怎么办 python
2019-04-26 16:05

回答 1 已采纳现在都是动态网页,你爬取到的只是一个基本框架而已。你可以用f12 然后检测一下http请求，基本上获取到的都是第一个请求。后面的数据都是通过js修改后的网页。交互式的。所以要想做复杂爬虫，
python爬虫遇到标签不全的网页 python
2022-07-23 10:52

回答 3 已采纳我知道问题的原因了,不是代码的问题,而是整个网站有url访问限制,谢谢各位了
python爬虫.zip
2024-03-01 13:43

爬取51job前程无忧、智联招聘的大城市（北京、上海、深圳、广州、杭州、成都、武汉、长沙、珠海）各种编程岗位的职位数。爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、...
爬虫request能不能提取出正在获取的网页的url python 爬虫
2022-01-20 16:42

回答 2 已采纳我JAVA的.你说的应该是request请求里面.既有URL.又有参数等,JAVA这边有个深拷贝和浅拷贝.深拷贝可以达成.python这边你看下
爬虫，关于JavaScript写出来的目标url如何提取 python 数据库爬虫
2022-12-08 12:48

回答 2 已采纳说明这个url是动态拼接出来，使用webdriver打开浏览器等待加载完成，再去拿页面源码，再定位这个url. 如有帮助，请采纳哦
python爬虫提取文本？ python
2021-07-14 11:26

回答 1 已采纳 import re a = "<script type='text/javascript'>window._global = {env: 'production',currentUser
python爬虫4：json提取数据
2022-10-08 15:30

枷锁猴的博客简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写，同时也易于机器解析和生成，并有效地提升网络传输效率。稍加分析可以看出，type为热门类型（可选参数为movie,tv），tag为热门电影电视剧...
如何使用python爬虫单独提取经验与学历避开工资 python 前端
2022-07-21 14:17

回答 4 已采纳 find() 方法检测字符串中是否包含子字符串 str 。一个是div标签的文本，一个是span标签的文本。都不是同一个标签下，这很好取呀。你是用的什么方法获取的？
利用Python编程爬虫搜集微博平台上关于大学生网课的评论.zip
2024-03-01 14:15

使用SPSS、机器学习、自然语言处理等方法，对收集到的文本数据进行分词、数据清洗、词频统计和聚类分析。最后根据所得到的数据进行以及分析，发现目前在线教学中学生体验的现状、趋势以及一些待解决的问题。爬虫...
小白如何入门 Python 爬虫？.docx
2023-04-26 22:12

python爬虫本文针对初学者，我会用最简单的案例告诉你如何入门python爬虫！想要入门Python 爬虫首先需要解决四个问题熟悉python编程了解HTML 了解网络爬虫的基本原理学习使用python爬虫库一、你应该知道...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 9月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 9月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
赞助了问题酬金10元 9月19日
展开全部

悬赏问题

¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改
¥20 wireshark抓不到vlan

python爬虫的时候想提取URL但是提取不全

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新