爬虫代码写好了运行报错怎么解决(语言-python|开发工具-pycharm)

问题遇到的现象和发生背景

问题相关代码，请勿粘贴截图

# coding=gbk
import requests
from bs4 import BeautifulSoup
import os
import urllib.request

headers = {'user-agent': 'Mozilla/5.0'}
root_url = 'http://www.shuomingshuku.com/file/'
def getall():
    mkdir("D:\\Python爬取的文件\\")
    for i in range(1, 200, 1):
        _file = getHtml(i)
        getFile(_file)
def getHtml(page_id):
    testurl = str(root_url) + str(page_id)
    res = requests.get(testurl, headers=headers)
    res.encoding = "utf-8"
    soup = BeautifulSoup(res.text, "html.parser")
    element_h1 = soup.find_all("h1")
    element_a = soup.find_all("a", attrs={"class": "btn", "rel": "nofollow"})
    file_name = element_h1[0].next
    file_url = element_a[0].attrs['href']
    return [file_name, file_url]
def getFile(files):
    file_name = files[0]
    u = urllib.request.urlopen(files[1])
    f = open("D:\\Python爬取的文件\\" + file_name + ".pdf", 'wb')
    block_sz = 8192
    while True:
        buffer = u.read(block_sz)
        if not buffer:
            break

        f.write(buffer)
    f.close()
    print("成功-下载文件：" + file_name)
def mkdir(path):
    path = path.strip()
    path = path.rstrip("\\")
    isExists = os.path.exists(path)
    if not isExists:
        os.makedirs(path)
        return True
    else:
        return False
if __name__ == "__main__":
    getall()

运行结果及报错内容

"I:\Program Files\Python\python.exe" "I:/Program Files/Python/xuexi/xuexi02.py"
Traceback (most recent call last):
  File "I:\Program Files\Python\xuexi\xuexi02.py", line 47, in <module>
    getall()
  File "I:\Program Files\Python\xuexi\xuexi02.py", line 12, in getall
    _file = getHtml(i)
  File "I:\Program Files\Python\xuexi\xuexi02.py", line 22, in getHtml
    file_url = element_a[0].attrs['href']
IndexError: list index out of range

我想要达到的结果

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

二当家的白帽子优质创作者: 后端开发技术领域 2021-12-19 12:12

关注

把404排除掉的逻辑，你忘记加了，望采纳


# coding=gbk
import requests
from bs4 import BeautifulSoup
import os
import urllib.request

headers = {'user-agent': 'Mozilla/5.0'}
root_url = 'http://www.shuomingshuku.com/file/'


def getall():
    mkdir("D:\\Python爬取的文件\\")
    for i in range(1, 200, 1):
        _file = getHtml(i)
        if _file:
            getFile(_file)


def getHtml(page_id):
    testurl = str(root_url) + str(page_id)
    res = requests.get(testurl, headers=headers)
    if res.status_code == 404:
        print("\n当前page_id：" + str(page_id) + " 返回404")
        return None
    res.encoding = "utf-8"
    soup = BeautifulSoup(res.text, "html.parser")
    element_h1 = soup.find_all("h1")
    element_a = soup.find_all("a", attrs={"class": "btn", "rel": "nofollow"})
    file_name = element_h1[0].next
    file_url = element_a[0].attrs['href']
    return [file_name, file_url]


def getFile(files):
    file_name = files[0]
    u = urllib.request.urlopen(files[1])
    f = open("D:\\Python爬取的文件\\" + file_name + ".pdf", 'wb')
    block_sz = 8192
    while True:
        buffer = u.read(block_sz)
        if not buffer:
            break
        f.write(buffer)
    f.close()
    print("成功-下载文件：" + file_name)


def mkdir(path):
    path = path.strip()
    path = path.rstrip("\\")
    isExists = os.path.exists(path)
    if not isExists:
        os.makedirs(path)
        return True
    else:
        return False


if __name__ == "__main__":
    getall()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

Pycharm-Python爬虫专业工具我的最爱使用
2024-04-20 16:54

它以其强大的功能、友好的用户界面和丰富的插件系统，深受广大程序员的喜爱，尤其是对于Python爬虫的开发工作，PyCharm更是一款不可或缺的工具。 ### PyCharm的功能特性 1. **智能代码补全**：PyCharm提供智能代码...
python爬虫代码运行之后不报错也没有结果_看完！一小时带你入门Python爬虫
2020-12-14 13:03

weixin_39615643的博客一、什么叫爬虫爬虫，又名“网络爬虫”，就是能够自动访问互联网并将网站内容下载下来的程序。它也是搜索引擎的基础，像百度和GOOGLE都是凭借强大的网络爬虫，来检索海量的互联网信息的然后存储到云端，为网友提供...
Python入门：Python编译器、Pycharm可视化工具安装应用教程
2025-07-14 22:30

xcLeigh的博客本文聚焦 Python 入门必备工具。开篇介绍 Python 编译器的重要性，详细阐述如何下载、安装 Python 编译器，包括官网...还介绍了将 Pycharm 设置为中文界面的方法，助力新手轻松上手 Python 开发，快速搭建起开发环境。
introducao-ao-python：介绍编程语言的Python以及一个Ferramenta PyCharm
2021-02-14 13:35

通过学习，学生不仅能掌握Python语言，还能学会使用PyCharm这一高效工具，为未来更深入的Python开发打下坚实基础。在学习过程中，建议动手实践，不断编写代码，遇到问题时充分利用PyCharm的调试功能来解决问题，这样...
100天精通Python（爬虫篇）——第115天：自动编写爬虫代码工具_Curl转python爬虫代码工具（快速构建初始爬虫代码）
2025-03-07 21:25

小满大王i的博客 100天精通Python（爬虫篇）——第115天：自动编写爬虫代码工具_Curl转python爬虫代码工具（快速构建初始爬虫代码）
【python实现网络爬虫（18）】Pycharm下载安装步骤，项目配置与运行详解
2020-12-21 01:59

【Python实现网络爬虫（18）】PyCharm下载安装步骤、项目配置与运行详解 PyCharm是一款由JetBrains公司开发的Python集成开发环境（IDE），深受开发者喜爱，尤其在Python编程和Web开发领域。它提供了丰富的功能，如...
基于Python的Django-html基于爬虫的贵州菜价可视化系统源码-说明文档
2024-07-18 09:17

基于Python的Django-html基于爬虫的贵州菜价可视化系统 ...开发工具：Pycharm 编程语言: python 数据库: MySQL5.7+ 后端技术：Django 前端技术：HTML 关键技术：HTML、MYSQL、Python 数据库工具：Navicat、SQLyog
实验01-搭建Python网络爬虫开发环境.docx
2020-09-14 20:32

实验01的主要目标是搭建一个完整的Python网络爬虫开发环境，包括配置代码编辑器、设置运行环境、安装必要的框架和组件以及学会使用HTTP抓包工具。以下是对这些内容的详细说明： 1. **Python网络爬虫开发环境**： -...
Python 爬虫实战：爬虫开发环境搭建（Anaconda+PyCharm）
2025-12-27 15:35

python 爬虫工程师的博客本文详细介绍了使用Anaconda和PyCharm搭建爬虫开发环境的完整流程。Anaconda提供虚拟环境管理和依赖隔离，PyCharm则作为专业IDE提升开发效率。文章从软件安装、镜像源配置、虚拟环境创建到IDE关联进行了逐步讲解，并...
Python + PyCharm 全指南：快速上手，掌握核心开发技巧
2025-03-21 18:59

嵌入式Jerry的博客 PyCharm 是 Python 最强大的 IDE，提供，可以极大提升开发效率。本篇文章，并通过让你快速掌握核心概念！✅f"{变量}"n-1✅return✅__init__selfdog.bark()venvCreate✅✅Shift + F9F8F7PyCharm 可以自动创建，避免...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月19日

爬虫代码写好了 运行 报错 怎么解决(语言-python|开发工具-pycharm)

问题遇到的现象和发生背景

运行结果及报错内容

2条回答 默认 最新

问题事件

爬虫代码写好了运行报错怎么解决(语言-python|开发工具-pycharm)

2条回答默认最新