尝试python爬虫时出现错误，求解答！

尝试用python爬虫，是在站内分享的代码基础上修改的（表示敬意

# -*- codeing = utf-8 -*-
from bs4 import BeautifulSoup           # 网页解析，获取数据
import re                               # 正则表达式，进行文字匹配
import urllib.request, urllib.error     # 制定URL，获取网页数据
import xlwt                             # 进行excel操作

gamename = 'rank'
baseurl = "http://bgm.tv"  # bangumi链接
url = baseurl + "/game/browser?sort=rank"  # 要爬取的网页链接
col = ("年份", "名称", "排名",)


# 创建正则表达式对象
findChara = re.compile(r'<h3>(.*?)</h3>')  # 作品信息
findCharaLink = re.compile(r'<p class="info tip"> (.*?)年')  # 0.年份
findCharaJapanese = re.compile(r'<small class="gray">(.*?)</small>')  # 1.名称
findCharaChinese = re.compile(r'</small>"(.*?)"</span>')  # 2.排名



# 得到指定一个URL的网页内容
def askURL(url):
    head = {  
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 80.0.3987.122  Safari / 537.36"
    }

    request = urllib.request.Request(url, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)

    print("URL内容请求成功")
    return html


# 给链接添加baseurl前缀，如果为空就返回空，否则返回baseurl + content
def reshapeLink(content):
    if content == "":
        return ""
    else:
        return baseurl + content


# 如果正则表达式返回为空列表，则返回""，否则返回第0个元素
def getContent(content):
    if content == []:
        return ""
    else:
        return content[0]


# 爬取网页
def getData(url):
    datalist = []  # 用来存储爬取的网页信息
    html = askURL(url)  # 保存获取到的网页源码
    
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all('div', class_="inner"):  # 查找符合要求的字符串
        data = []  # 保存角色的对应信息

        # 通过正则表达式查找
        chara = re.findall(findChara, str(item))[0]  # 作品信息
        charalink = getContent(re.findall(findCharaLink, chara))  # 0.年份
        data.append(reshapeLink(charalink))
        charajapanese = getContent(re.findall(findCharaJapanese, chara))  # 1.排名
        data.append(charajapanese)
        charachinese = getContent(re.findall(findCharaChinese, chara))  # 2.名称
        data.append(charachinese)


        

        # 将信息添加到datalist里去
        datalist.append(data)

    #print(datalist)
    return datalist


# 保存数据到txt
def saveTxt(datalist, savepath):
    print("save txt.......")
    txtfile = open(savepath, 'w', encoding='utf-8')
    
    for i in range(0, len(datalist)):
        txtfile.write(datalist[i][1]+"\n")
        txtfile.write(datalist[i][2]+"\n")
        txtfile.write("排名"+datalist[i][3]+"\n")
        
    txtfile.close()


# main函数
if __name__ == "__main__":
    
    # 1.爬取网页+解析数据
    datalist = getData(url)

    print("爬取完毕！")
     
    # 3.当前目录创建TXT，保存数据
    saveTxt(datalist, gamename+".txt")

    print("输出完毕！")

在 for item in soup.find_all('div', class_="inner"): # 查找符合要求的字符串一处将" "内改为inner后，启动调试显示 IndexError: list index out of range

对python不了解，恳请指点，比较急。感谢！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

CSDN专家-天际的海浪 2021-11-19 23:30

关注

re.findall(findChara, str(item)) 没有匹配到，返回的是空列表[]

print(str(item)) 输出

没有<h3></h3>标签

你题目的解答代码如下：

# -*- codeing = utf-8 -*-
from bs4 import BeautifulSoup           # 网页解析，获取数据
import re                               # 正则表达式，进行文字匹配
import urllib.request, urllib.error     # 制定URL，获取网页数据
import xlwt                             # 进行excel操作
gamename = 'rank'
baseurl = "http://bgm.tv"  # bangumi链接
url = baseurl + "/game/browser?sort=rank"  # 要爬取的网页链接
col = ("年份", "名称", "排名",)

# 创建正则表达式对象
# findChara = re.compile(r'<h3>(.*?)</h3>')  # 作品信息
findCharaLink = re.compile(r'<p class="info tip">\s*(.*?)[年\-]')  # 0.年份
findCharaJapanese1 = re.compile(r'<a .*?>(.*?)</a>')  # 1.名称
findCharaJapanese2 = re.compile(r'<small class="grey">(.*?)</small>')  # 1.名称
findCharaChinese = re.compile(r'Rank </small>(.*?)</span>')  # 2.排名

# 得到指定一个URL的网页内容
def askURL(url):
    head = {
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 80.0.3987.122  Safari / 537.36"
    }
    request = urllib.request.Request(url, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    print("URL内容请求成功")
    return html

# 给链接添加baseurl前缀，如果为空就返回空，否则返回baseurl + content
def reshapeLink(content):
    if content == "":
        return ""
    else:
        return baseurl + content

# 如果正则表达式返回为空列表，则返回""，否则返回第0个元素
def getContent(content):
    if content == []:
        return ""
    else:
        return content[0]

# 爬取网页
def getData(url):
    datalist = []  # 用来存储爬取的网页信息
    html = askURL(url)  # 保存获取到的网页源码
    soup = BeautifulSoup(html, "html.parser")
    browserItemList = soup.find('ul', id="browserItemList")
    for item in browserItemList.find_all('div', class_="inner"):  # 查找符合要求的字符串
        data = []  # 保存角色的对应信息
        # 通过正则表达式查找
        chara = str(item)  # 作品信息
        charalink = getContent(re.findall(findCharaLink, chara))  # 0.年份
        data.append(charalink)
        charajapanese = getContent(re.findall(findCharaJapanese1, chara))+" "+getContent(re.findall(findCharaJapanese2, chara))  # 1.名称
        data.append(charajapanese)
        charachinese = getContent(re.findall(findCharaChinese, chara))  # 2.排名
        data.append(charachinese)

        # 将信息添加到datalist里去
        datalist.append(data)
    #print(datalist)
    return datalist

# 保存数据到txt
def saveTxt(datalist, savepath):
    print("save txt.......")
    txtfile = open(savepath, 'w', encoding='utf-8')
    for i in range(0, len(datalist)):
        txtfile.write(datalist[i][0]+"\n")
        txtfile.write(datalist[i][1]+"\n")
        txtfile.write("排名"+datalist[i][2]+"\n")
    txtfile.close()

# main函数
if __name__ == "__main__":
    # 1.爬取网页+解析数据
    datalist = getData(url)
    print("爬取完毕！")
    # 3.当前目录创建TXT，保存数据
    saveTxt(datalist, gamename+".txt")
    print("输出完毕！")

如有帮助，望采纳！谢谢!

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

报告相同问题？

关注问题

尝试python爬虫时出现错误，求解答！ python 有问必答正则表达式爬虫
2021-11-19 23:19

回答 1 已采纳 re.findall(findChara, str(item)) 没有匹配到，返回的是空列表[] print(str(item)) 输出没有<h3></h3>标签你题目
关于python 爬虫项目多线程的问题！ python 有问必答爬虫
2022-04-09 22:19

回答 2 已采纳用pypy,namba（需重构，加装饰器）,cython（需重构，显式声明类型）用正则表达式更快，但适用性会降低灵活运用异步减少中间值的使用少用for循环控制线程数量，考虑协程、多进程，因为有GIL的
python爬虫代码出现错误 python 爬虫
2022-08-23 16:00

回答 1 已采纳导入了太多没有用的模块，参考我的代码： import requests #发送HTTP请求 from bs4 import BeautifulSoup headers ={ "User-Age
python爬虫数据可视化分析大作业.zip
2020-06-12 15:39

python爬虫，并将数据进行可视化分析，数据可视化包含饼图、柱状图、漏斗图、词云、另附源代码和报告书。
Python爬虫程序出现错误如何修改 python
2022-07-22 11:10

回答 2 已采纳控制台 pip install requests
Python爬虫配合VPN爬取出现报错 python 爬虫
2021-12-22 17:33

回答 1 已采纳你这个是VPN代理问题，你可以将VPN设置成部分代理，不要全部代理你的网络。
python爬虫问题求解 python 爬虫
2022-04-29 11:12

回答 1 已采纳我给你改了一下，你对比看看吧： from bs4 import BeautifulSoup import pandas as pd import requests def crawer_travel
python爬虫20个案例
2018-03-25 07:34

讲诉python爬虫的20个案例。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
python数据爬取求帮助！急！ python 爬虫
2023-04-03 11:12

回答 3 已采纳 from selenium import webdriver from lxml import etree driver = webdriver.Edge() url='https://so.szl
python爬虫 requests模块错误 python 爬虫
2023-03-06 21:55

回答 3 已采纳 curr_url 没有获取到数据，提交了一个None，结果访问的地址就是 http://None了
python爬虫加载js文件错误 python 爬虫
2021-11-20 10:30

回答 1 已采纳你应该把js发出来的把js放到浏览器控制台执行以下看看是否有问题，如果正常运行则说明你本地的环境不符，建议安装nodejs再尝试爬虫逆向社区-爬虫逆向论坛-CSD
Python爬虫详解（一看就懂）
2022-06-21 22:07

练习时长两年半的Programmer的博客爬虫简单的来说就是用程序获取网络上数据这个过程的一种名称。如果要获取网络上数据，我们要给爬虫一个网址（程序中通常叫URL），爬虫发送一个HTTP请求给目标网页的服务器，服务器返回数据给客户端（也就是我们的...
python爬虫时Status code是500怎么解 python
2021-07-20 18:50

回答 4 已采纳在传递json格式数据时（content-type: application/json），使用json参数 import requests headers = { "Content-Type
基于Python网络爬虫毕业论文.doc
2020-05-12 16:17

这是一份同学的爬虫的毕业论文，完整的。需要的赶紧拿走
Python爬虫系列（一）——手把手教你写Python爬虫
2021-10-23 15:47

纸照片的博客这一部分我写在另一篇文章了，Python爬虫批量下载百度图片–点击跳转 5. 后言爬虫还是比较好入门的，这得益于成熟的爬虫工具。爬虫可以满足自己的个性化搜索需求，大家赶快动手试试吧。（如果觉得文章还不错的话...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月19日

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog

尝试python爬虫时出现错误，求解答！

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新