关于#python#的问题，请各位专家解答！


from bs4 import BeautifulSoup  # 网页分析，获取数据
import re  # 正则表达式，进行文字匹配
import urllib.request, urllib.error  # 制定URL,获取网页数据
import xlwt  # 进行excel操作
import sqlite3  # 进行SQLite数据库操作


def main():
    baseurl = "https://movie.douban.com/top250?start="
    # 1.爬取网页
    datalist = getData(baseurl)
    # 2.解析数据

    savepath = ".\\豆瓣电影top250.xls"  # 保存路径
    # 3.保存数据
    # saveData(savepath)

    # askURL("https://movie.douban.com/top250?start=")


# 影片详情链接的规则
findLink = re.compile(r'')  # 创建正则表达式对象，表示规则（字符串的模式）r：忽略特殊符号，如/，//
# 影片图片规则
findImgSrc = re.compile(r'<img.*src="(.*?)"', re.S)
# 影片片名
findTitle = re.compile(r'(.*?)')
# 影片评分
findRating = re.compile(r'(.*)')
# 评价人数
findJudge = re.compile(r'(/d*)人评价')
# 概况
findInq = re.compile(r'(.*)')
# 影片相关内容
findBD = re.compile(r'(.*?)
', re.S)


# 1.爬取网页
def getData(baseurl):
    datalist = []
    for i in range(0, 10):  # 调用获取页面信息的函数，10次
        url = baseurl + str(i * 25)
        html = askURL(url)  # 保存获取的网页源码
        # 2.逐一解析数据
        soup = BeautifulSoup(html, 'html.parser')
        for item in soup.find_all('div', class_="item"):
            # print(item)
            data = []  # 保存一部电影的所有信息
            item = str(item)
            
            # 获取影片详情链接
            link = re.findall(findLink, item)[0]
            data.append(link)
            # print(link)  #测试

            ImgSrc = re.findall(findImgSrc, item)[0]
            data.append(ImgSrc)

            Titles = re.findall(findTitle, item)
            if (len(Titles) == 2):
                ctitle = Titles[0]
                data.append(ctitle)
                otitle = Titles[1].replace('/', '')
                data.append(otitle)@@
            else:
                data.append(Titles[0])
                data.append(' ')

            rating = re.findall(findRating, item)[0]
            data.append(rating)


           ** Judge = re.findall(findJudge, item)[0]**
            data.append(Judge)

            inq = re.findall(findInq, item)
            data.append(inq)
            if len(inq) != 0:
                inq = inq[0].replace('。', '')
                data.append(inq)
            else:
                data.append(' ')

            BD = re.findall(findBD, item)[0]
            BD = re.sub('<br(\s+)?/>(\s+)?', " ", BD)
            BD = re.sub('/', ' ', BD)
            data.append(BD.strip())

错误：

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
allyfireshen 2023-03-01 23:01
关注
应该是Judge = re.findall(findJudge, item)[0]中正则匹配re.findall(findJudge, item)结果是空列表，用[0]读取的时候提示索引越界了。可修改如下：

Judge = re.findall(findJudge, item) if len(Judge) > 0: data.append(Judge[0])
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

关于#python#的问题，请各位专家解答！ python 有问必答
2023-04-17 23:48

回答 3 已采纳把代码复制贴出来，截图怎么调试你的代码。
一万字一篇文20分钟学会C语言和Python，十四年编程经验老鸟传授经验之道
2021-04-14 01:08

1_bit的博客昨天在直播中有粉丝问我如何快速的对编程语言入门，我想这个问题是有必要让大家知道的，相必也有很多新手对于如何快速完成编程语言的入门学习很感兴趣，本篇文将会使用 C 语言以及 Python 为例，做出对比，让大家对...
《Python全栈系列教程》目录
2022-05-12 09:30

孤寒者的博客《Python全栈基础教程》目录导读：一、Python基础部分；二、Python常用模块部分；三、Python实战部分；四、Python习题部分。
2021年十大热门编程语言
2021-05-17 01:27

前端瓶子君的博客点击上方前端瓶子君，关注公众号回复算法，加入前端编程面试算法每日一题群来源：bigo大魔王https://juejin.cn/post/6932278515714752525前言编程已成...
豆瓣工程师为你解答关于 Python3 编程方面的问题
2016-10-12 07:51

weixin_34366546的博客 2019独角兽企业重金招聘Python工程师标准>>> ...
《Python3网络爬虫开发实战（第二版）》上市了！！！！
2021-11-29 12:00

风度78的博客 “阅读本文大概需要 5 分钟。”告诉大家一个好消息：我的好朋友崔庆才老师的《Python3网络爬虫开发实战（第二版）》现在正式上市了！！！！没错，就是这本：就是那个《Python3网络...
Go专栏“改善Go语言编程质量的50个有效实践”上线了
2020-09-09 08:30

Tony Bai的博客断断续续写了一年多的Go专栏：《改善Go语言编程质量的50个有效实践》今天终于正式上线了！- https://www.imooc.com/read/87慕课专栏：《改善Go语言编程质量的...
《Python3网络爬虫开发实战（第二版）》今天正式上市了！！！！
2021-11-26 12:32

VIP_CQCRE的博客 “ 阅读本文大概需要 5 分钟。 ”大家好！我是崔庆才。今天告诉大家一个好消息：《Python3网络爬虫开发实战（第二版）》今天正式上市了！！！！没错，就是这本：2018 年 5 月我的《...
【总结】Go 学习路线（2022）
2022-02-09 08:27

pingan8787的博客 Go 语言的发展越来越好了，很多大厂使用 Go 作为主要开发语言，也有很多人开始学习 Go，准备转 Go 开发。那么，怎么学呢？我发现，在互联网时代，学习的困难不是说没有资料，而是资料太多...
夜天之书 #16 Open Discussion
2021-09-15 21:07

_tison的博客不过需要注意的是，论坛不是一个支持团队，关于 TiDB 使用一类的用户问题解答，社区有专门的用户论坛 AskTUG[12] 来支持。这里列举一些符合 TiDB Internals 论坛调性的主题，欢迎随时发起或加入讨论。 •重构一段...
5本豆瓣高分Python技术书籍
2024-04-23 17:39

七七Seven～的博客分别是：《Python学习手册》，豆瓣8.2分《Python编程，从入门到实践》，豆瓣9.3分《Python Cookbook》，豆瓣9.2分《流畅的Python》，豆瓣9.4分《Python标准库》，豆瓣8.4分这五本书，有三个共同特质，首先都是Python...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 3月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 3月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 3月1日

悬赏问题

¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题
¥15 matlab不知道怎么改，求解答！！
¥15 永磁直线电机的电流环pi调不出来
¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效

关于#python#的问题，请各位专家解答！

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新