zhysg 2022-09-19 00:24 采纳率: 50%
浏览 103
已结题

python爬虫的时候想提取URL但是提取不全

python爬虫的时候想提取URL但是提取不全

import bs4 as bs
import urllib.request
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from functools import wraps
source = urllib.request.urlopen("https://www.formula1.com/en/results.html/2021/race.html").read()
soup = bs.BeautifulSoup(source,'lxml')
all_urls = soup.find_all('a')
race_urls = []
for url in all_urls:
    if ('2021' in str(url.get('href'))) and ('fastest-laps' in str(url.get('href')))and (url.get('href') not in race_urls) :
            race_urls.append(url.get('href'))
race_urls

最后出来的只有一个['/en/results.html/2021/fastest-laps.html'],应该有22个才对,请各位解答。本人初学勿喷。

  • 写回答

3条回答 默认 最新

  • honestman_ 2022-09-19 08:39
    关注

    是被你的过滤条件过滤了吧,检查一下过滤条件:

    import bs4 as bs
    import urllib.request
    source = urllib.request.urlopen("https://www.formula1.com/en/results.html/2021/races/1068/azerbaijan/race-result.html").read()
    soup = bs.BeautifulSoup(source,'lxml')
    all_urls = soup.find_all('a')
    race_urls = []
    for url in all_urls:
        if ('2021' in str(url.get('href'))) and (url.get('href') not in race_urls) :
                race_urls.append(url.get('href'))
    
    
    print(race_urls)
    print(len(race_urls))
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 9月27日
  • 已采纳回答 9月19日
  • 修改了问题 9月19日
  • 赞助了问题酬金10元 9月19日
  • 展开全部

悬赏问题

  • ¥15 YOLOv8已有一个初步的检测模型,想利用这个模型对新的图片进行自动标注,生成labellmg可以识别的数据,再手动修改。如何操作?
  • ¥30 NIRfast软件使用指导
  • ¥20 matlab仿真问题,求功率谱密度
  • ¥15 求micropython modbus-RTU 从机的代码或库?
  • ¥15 django5安装失败
  • ¥15 Java与Hbase相关问题
  • ¥15 后缀 crn 游戏文件提取资源
  • ¥20 bash代码推送不上去 git fetch origin master #失败了
  • ¥15 LOL外服加入了反作弊系统,现在游戏录像rofl文件离线都无法打开
  • ¥15 在centos7安装conda