zhysg 2022-09-19 00:24 采纳率: 50%
浏览 103
已结题

python爬虫的时候想提取URL但是提取不全

python爬虫的时候想提取URL但是提取不全

import bs4 as bs
import urllib.request
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from functools import wraps
source = urllib.request.urlopen("https://www.formula1.com/en/results.html/2021/race.html").read()
soup = bs.BeautifulSoup(source,'lxml')
all_urls = soup.find_all('a')
race_urls = []
for url in all_urls:
    if ('2021' in str(url.get('href'))) and ('fastest-laps' in str(url.get('href')))and (url.get('href') not in race_urls) :
            race_urls.append(url.get('href'))
race_urls

最后出来的只有一个['/en/results.html/2021/fastest-laps.html'],应该有22个才对,请各位解答。本人初学勿喷。

  • 写回答

3条回答 默认 最新

  • honestman_ 2022-09-19 08:39
    关注

    是被你的过滤条件过滤了吧,检查一下过滤条件:

    import bs4 as bs
    import urllib.request
    source = urllib.request.urlopen("https://www.formula1.com/en/results.html/2021/races/1068/azerbaijan/race-result.html").read()
    soup = bs.BeautifulSoup(source,'lxml')
    all_urls = soup.find_all('a')
    race_urls = []
    for url in all_urls:
        if ('2021' in str(url.get('href'))) and (url.get('href') not in race_urls) :
                race_urls.append(url.get('href'))
    
    
    print(race_urls)
    print(len(race_urls))
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 9月27日
  • 已采纳回答 9月19日
  • 修改了问题 9月19日
  • 赞助了问题酬金10元 9月19日
  • 展开全部

悬赏问题

  • ¥50 用易语言http 访问不了网页
  • ¥50 safari浏览器fetch提交数据后数据丢失问题
  • ¥15 matlab不知道怎么改,求解答!!
  • ¥15 永磁直线电机的电流环pi调不出来
  • ¥15 用stata实现聚类的代码
  • ¥15 请问paddlehub能支持移动端开发吗?在Android studio上该如何部署?
  • ¥20 docker里部署springboot项目,访问不到扬声器
  • ¥15 netty整合springboot之后自动重连失效
  • ¥15 悬赏!微信开发者工具报错,求帮改
  • ¥20 wireshark抓不到vlan