python爬虫，为什么可以正常爬取数据，但程序还是走了为了提示报错而写的 except 里的内容？

import requests
from lxml import etree
import csv
from datetime import datetime
import time

def doSth():
    try:
        # 1.目标 url。
        url = 'https://s.weibo.com/top/summary?cate=realtimehot'
        # 模拟浏览器请求头
        headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36'}

        # 2.发送请求
        data = requests.get(url, headers=headers).text
        # 转换
        html = etree.HTML(data)

        # 3.解析数据         xpath 取出来的数据是一个列表。
        # 排名
        rank = html.xpath('//td[@class="td-01 ranktop"]/text()')
        # 事件
        affair = html.xpath('//td[@class="td-02"]/a/text()')
        affair.pop(0)  # 忽略微博热搜的置顶推荐内容。   # .pop(n) :删除列表第 n+1 个元素。
        # 热度
        view = html.xpath('//td[@class="td-02"]/span/text()')

        # 链接
        link = html.xpath('//tr/td/a/@href')
        link_try = html.xpath('//tr/td/a/@href_to')
        link.pop(0)
        # 处理链接数据（因为链接的 html 位置可能存在不同的地方，所以做了以下判断）
        index = 0
        for i, sku in enumerate(link):  # 这里的 i 和 sku 是什么？这里的 i 和最后保存时最后的代码里的 i 一样吗？
            if sku == "javascript:void(0);":
                link[i] = link_try[index]
                index += 1

        # 4.保存数据为 csv。
        date = datetime.now().strftime('%Y-%m-%d %H-%M-%S')
        with open('./' + date + '.csv', 'w', newline='', encoding='utf-8-sig')as f:
            writer = csv.writer(f)
            writer.writerow(['排名', '事件', '热度', '链接'])
            for i, rank in enumerate(rank):
                writer.writerow([rank, affair[i], view[i], 'https://s.weibo.com' + link[i]])
        # 5.睡眠120秒。
        time.sleep(120)
    except:
        print(time.strftime("%Y-%m-%d %X"))
        print("requests speed so high,need sleep!")
        time.sleep(10)
        print("continue...")

while True:
    doSth()

停止运行后，还报了两个错

两个报错

为什么可以正常爬取数据，但程序还是走了为了提示报错而写的 except 里的内容？

之前一直用这个可以跑，就这几天突然出现了问题。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
python收藏家 2021-05-21 13:55
关注
那要看link和rank的长度是不是一样，这是索引越界了

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python数据爬取超详细讲解（零基础入门，老年人都看的懂）
2020-07-13 11:16

码农BookSea的博客关于Python爬虫的超详细讲解，用例子来给大家一步步分析爬虫的代码原理，由浅入深，老年人来了，我也给你整明白。
超强干货之---Python-数据爬取（爬虫）
2024-07-12 17:01

.房东的猫的博客定义：深度优先搜索是一种遍历或搜索树或图的算法，从起始节点开始，一直沿着一个分支走到底，再回溯到上一个节点继续搜索下一个分支，直到遍历完所有节点。特点递归：通常用递归实现，或者使用栈来模拟递归过程。...
Python（一）实现一个爬取微信小程序数据并定时秒杀的爬虫+工程化初步实践
2025-06-25 07:30

JackSparrow414的博客本文介绍了使用Python开发微信小程序自动化爬虫的全过程。首先通过Charles抓包工具获取小程序API请求格式，解决了iOS/Android系统抓包的技术难点。然后采用Python工程化规范搭建项目，使用Poetry管理虚拟环境，并...
python爬虫爬取网页表格数据
2020-12-25 04:20

用python爬取网页表格数据，供大家参考，具体内容如下 from bs4 import BeautifulSoup import requests import csv import bs4 #检查url地址 def check_link(url): try: r = requests.get(url) r.raise_for_...
Python爬虫实战：爬取视频到本地，超详细实战教程
2025-09-17 11:09

xcLeigh的博客该教程针对批量保存网站视频的需求，详解用 Python 实现爬取的方法。先介绍所需的 requests、BeautifulSoup4、you-get 等工具库及安装步骤，说明网站单视频与合集视频的 URL 特点。接着分阶段讲解核心功能，从单...
python爬取招聘网信息并保存为csv文件
2023-04-02 19:11

【Python爬虫获取招聘网站信息并保存为CSV文件】在Python编程中，网络爬虫是一种常用的技术，用于自动化地从互联网上抓取信息。在这个场景中，我们将学习如何使用Python来爬取招聘网站上的职位信息，并将其存储为...
【爬虫】Python实现爬取淘宝商品信息（超详细）
2024-07-25 17:57

RoundLet_Y的博客项目基于Python的第三方库...# 全局变量count = 1 # 写入Excel商品计数# 启动ChromeDriver服务# 关闭自动测试状态显示 // 会导致浏览器报：请停用开发者模式# 把chrome设为selenium驱动的浏览器代理；# 窗口最大化。
Python 爬虫入门：从数据爬取到转存 MySQL 数据库
2025-06-25 22:39

覃炳文20230322027的博客本文介绍了一个Python爬虫入门项目，使用requests和BeautifulSoup爬取豆瓣电影Top250数据并存入MySQL数据库。主要内容包括：1)使用requests获取网页内容并设置请求头；2)利用BeautifulSoup解析HTML提取电影排名、...
【Python网络爬虫案例】python爬虫之爬取豆瓣电影信息
2024-08-04 17:55

左手の明天的博客豆瓣是一个电影资讯网站，用户可以在网站上查找电影信息、评论电影等。我们希望通过爬虫程序获取豆瓣电影的名称、评分和简介等信息，以便进行数据分析或制作推荐系统。
python-爬虫（最后附爬取数据的源码）
2021-12-13 12:00

小秃米的博客只要能通过浏览器访问的数据都可以通过爬虫抓取。爬虫的本质：模拟浏览器打开网页，获取网页中我们想要的那部分数据。 1. 获取数据 python一般使用urllib2获取页面数据 2. 解析数据通过导入from bs4 import ...
没有解决我的问题, 去提问

python爬虫，为什么可以正常爬取数据，但程序还是走了为了提示报错而写的 except 里的内容？

1条回答 默认 最新

1条回答默认最新