zhysg 2022-09-19 00:24 采纳率: 50%
浏览 103
已结题

python爬虫的时候想提取URL但是提取不全

python爬虫的时候想提取URL但是提取不全

import bs4 as bs
import urllib.request
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from functools import wraps
source = urllib.request.urlopen("https://www.formula1.com/en/results.html/2021/race.html").read()
soup = bs.BeautifulSoup(source,'lxml')
all_urls = soup.find_all('a')
race_urls = []
for url in all_urls:
    if ('2021' in str(url.get('href'))) and ('fastest-laps' in str(url.get('href')))and (url.get('href') not in race_urls) :
            race_urls.append(url.get('href'))
race_urls

最后出来的只有一个['/en/results.html/2021/fastest-laps.html'],应该有22个才对,请各位解答。本人初学勿喷。

  • 写回答

3条回答 默认 最新

  • honestman_ 2022-09-19 08:39
    关注

    是被你的过滤条件过滤了吧,检查一下过滤条件:

    import bs4 as bs
    import urllib.request
    source = urllib.request.urlopen("https://www.formula1.com/en/results.html/2021/races/1068/azerbaijan/race-result.html").read()
    soup = bs.BeautifulSoup(source,'lxml')
    all_urls = soup.find_all('a')
    race_urls = []
    for url in all_urls:
        if ('2021' in str(url.get('href'))) and (url.get('href') not in race_urls) :
                race_urls.append(url.get('href'))
    
    
    print(race_urls)
    print(len(race_urls))
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 9月27日
  • 已采纳回答 9月19日
  • 修改了问题 9月19日
  • 赞助了问题酬金10元 9月19日
  • 展开全部

悬赏问题

  • ¥15 2024-五一综合模拟赛
  • ¥15 下图接收小电路,谁知道原理
  • ¥15 装 pytorch 的时候出了好多问题,遇到这种情况怎么处理?
  • ¥20 IOS游览器某宝手机网页版自动立即购买JavaScript脚本
  • ¥15 手机接入宽带网线,如何释放宽带全部速度
  • ¥30 关于#r语言#的问题:如何对R语言中mfgarch包中构建的garch-midas模型进行样本内长期波动率预测和样本外长期波动率预测
  • ¥15 ETLCloud 处理json多层级问题
  • ¥15 matlab中使用gurobi时报错
  • ¥15 这个主板怎么能扩出一两个sata口
  • ¥15 不是,这到底错哪儿了😭