phthon爬虫代码问题


# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup  # 网页解析，获取数据
import re  # 正则表达式，进行文字匹配
import urllib.request, urllib.error  # 制定URL，获取网页数据
import xlwt  # 进行excel操作

findLink = re.compile(r'<a href="(.*?)">')  # 创建正则表达式对象，标售规则   影片详情链接的规则
findImgSrc = re.compile(r'<img.*src="(.*?)"', re.S)
findTitle = re.compile(r'<span class="title">(.*)</span>')
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
findJudge = re.compile(r'<span>(\d*)人评价</span>')
findInq = re.compile(r'<span class="inq">(.*)</span>')
findBd = re.compile(r'<p class="">(.*?)</p>', re.S)

def main():
    baseurl = "https://movie.douban.com/top250?start="  # 要爬取的网页链接
    datalist = getData(baseurl)
    savepath = "豆瓣电影Top250.xls"  # 当前目录新建XLS，存储进去
    saveData(datalist, savepath)  # 保存数据

def getData(baseurl):
    datalist = []  # 用来存储爬取的网页信息
    for i in range(0, 10):  # 调用获取页面信息的函数，10次
        url = baseurl + str(i * 25)
        html = askURL(url)  # 保存获取到的网页源码
        soup = BeautifulSoup(html, "html.parser")
        for item in soup.find_all('div', class_="item"):  # 查找符合要求的字符串
            data = []  # 保存一部电影所有信息
            item = str(item)
            link = re.findall(findLink, item)[0]  # 通过正则表达式查找
            data.append(link)
            imgSrc = re.findall(findImgSrc, item)[0]
            data.append(imgSrc)
            titles = re.findall(findTitle, item)
            if len(titles) == 2:
                ctitle = titles[0]
                data.append(ctitle)
                otitle = titles[1].replace("/", "")  # 消除转义字符
                data.append(otitle)
            else:
                data.append(titles[0])
                data.append(' ')
            rating = re.findall(findRating, item)[0]
            data.append(rating)
            judgeNum = re.findall(findJudge, item)[0]
            data.append(judgeNum)
            inq = re.findall(findInq, item)
            if len(inq) != 0:
                inq = inq[0].replace("。", "")
                data.append(inq)
            else:
                data.append(" ")
            bd = re.findall(findBd, item)[0]
            bd = re.sub('<br(\\s+)?/>(\\s+)?', "", bd)
            bd = re.sub('/', "", bd)
            data.append(bd.strip())
            datalist.append(data)
    return datalist

def askURL(url):
    head = {  # 模拟浏览器头部信息，向豆瓣服务器发送消息
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 80.0.3987.122  Safari / 537.36"
    }
    request = urllib.request.Request(url, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html

def saveData(datalist, savepath):
    print("save.......")
    book = xlwt.Workbook(encoding="utf-8", style_compression=0)  # 创建workbook对象
    sheet = book.add_sheet('豆瓣电影Top250', cell_overwrite_ok=True)  # 创建工作表
    col = ("电影详情链接", "图片链接", "影片中文名", "影片外国名", "评分", "评价数", "概况", "相关信息")
    for i in range(0, 8):
        sheet.write(0, i, col[i])  # 列名
    for i in range(len(datalist)):
        data = datalist[i]
        for j in range(0, 8):
            sheet.write(i + 1, j, data[j])  # 数据
    book.save(savepath)  # 保存

if __name__ == "__main__":  # 当程序执行时
    main()
    print("爬取完毕！")

这是我根据您爬取豆瓣前250电影的帖子用kimi修改的代码，但是运行后显示403，生成的xls文件的信息栏空白，恳求怎么解决

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

码农阿豪@新空间新星创作者: 前端开发技术领域 2024-12-30 17:19

关注

让阿豪来帮你解答，本回答参考chatgpt3.5编写提供，如果还有疑问可以评论或留言

()函数实现的功能是什么？请解释该函数的每个参数和返回值，并说明这些参数和返回值的作用。 getData()函数的功能是爬取豆瓣电影Top250的数据，包括电影的链接、海报、中文名、外文名、评分、评价人数、简介和影片详情。getData()函数接收一个参数baseurl，该参数是要爬取的网页链接。getData()函数返回datalist，其中存储了爬取的网页信息。 getData()函数中的参数和返回值说明如下：参数baseurl：要爬取的网页链接，是一个字符串类型的参数。返回值datalist：用来存储爬取的网页信息，是一个列表类型的返回值。以下是getData()函数的代码实例：

def getData(baseurl):
    datalist = []  # 用来存储爬取的网页信息
 
    for i in range(0, 10):  # 调用获取页面信息的函数，10次
        url = baseurl + str(i * 25)
        html = askURL(url)  # 保存获取到的网页源码
        soup = BeautifulSoup(html, "html.parser")
 
        for item in soup.find_all('div', class_='item'):  # 查找符合要求的字符串
            data = []  # 保存一部电影所有信息
            item = str(item)
             
            link = re.findall(findLink, item)[0]  # 通过正则表达式查找
            data.append(link)
             
            imgSrc = re.findall(findImgSrc, item)[0]
            data.append(imgSrc)
             
            titles = re.findall(findTitle, item)
            if len(titles) == 2:
                ctitle = titles[0]
                data.append(ctitle)
                otitle = titles[1].replace('/', '')
                data.append(otitle)
            else:
                data.append(titles[0])
                data.append(' ')
             
            rating = re.findall(findRating, item)[0]
            data.append(rating)
             
            judgeNum = re.findall(findJudge, item)[0]
            data.append(judgeNum)
             
            inq = re.findall(findInq, item)
            if len(inq) != 0:
                inq = inq[0].replace("。", '')
                data.append(inq)
            else:
                data.append(' ')
             
            bd = re.findall(findBd, item)[0]
            bd = re.sub('<br(\s+)?/>(\s+)?', '', bd)
            bd = re.sub('/', '', bd)
            data.append(bd.strip())
             
            datalist.append(data)
 
    return datalist

以上是getData()函数的实现以及参数和返回值的解释。

报告相同问题？

关注问题

携程网动态网页python爬虫代码恩施大峡谷
2022-02-20 13:57

【标题】：“携程网动态网页python爬虫代码恩施大峡谷”指的是使用Python编程语言编写的一段爬虫程序，专门用于抓取携程网关于恩施大峡谷的相关动态网页数据。爬虫是一种自动化工具，能够按照预设规则遍历互联网上的...
Python 万能代码模版：爬虫代码篇
2021-09-14 15:27

AI悦创Python一对一辅导的博客很多同学一听到 Python 或编程语言，可能条件反射就会觉得“很难”。但今天的 Python 课程是个例外，因为今天讲的 **Python 技能，不需要你懂计算机原理，也不需要你理解复杂的编程模式。**即使是非开发人员，只要...
简单的python爬虫，代码完整
2018-06-21 10:24

Python是一种广泛应用于Web开发、数据分析、人工智能等多个领域的高级编程语言，其简洁明了的语法使得初学者也能快速上手。在IT行业中，Python爬虫是获取网络数据的重要工具，尤其对于数据挖掘、网站分析和自动化...
Python 爬虫基础网络爬虫、数据采集、Python编程、数据处理
2023-08-12 18:32

资源描述：这个资源是关于Python爬虫基础的教程，旨在帮助初学者掌握如何使用Python编程语言构建简单的网络爬虫，从网页中抓取数据，并进行基本的数据处理和存储。内容概要：教程涵盖了Python爬虫的基本概念、...
基于python爬虫的中国疫情数据可视化分析
2022-04-24 15:32

**基于Python爬虫的中国疫情数据可视化分析** 在信息技术飞速发展的今天，数据已经成为各行各业决策的重要依据。在公共卫生领域，疫情数据的及时收集、分析和可视化对于防控策略的制定至关重要。本项目通过Python...
python编程：网络爬虫
2025-06-24 20:05

倔强老吕的博客 Python 是编写网络爬虫的流行语言，因为它有丰富的库和框架支持。
Python爬虫实战Python网络爬虫实例详细注释版最新版本
2024-11-30 07:01

其他说明：本资源内容详实，通过代码实例和案例演示让读者更好地理解Python爬虫的使用方法和技巧，同时也有一些注意事项和常见问题的解答，帮助读者更好地掌握Python爬虫实战的技能。 Python实例：详细注释版是一...
Python网络数据爬虫抓取代码
2023-04-13 16:34

Python网络数据抓取代码主要涉及Python爬虫技术，可以用于自动化采集网络上的数据，如网页内容、图片、视频、音频等。这些数据可以用于数据分析、机器学习、自然语言处理等多个领域。适用人群： Python网络数据...
Python编程从入门到实践
2024-03-07 14:01

在Python编程语言的学习过程中，首先需要理解基础语法，包括变量定义、数据类型（如整型、浮点型、字符串、布尔型、列表、元组、字典和集合）、流程控制（如条件语句和循环结构）以及函数的使用。此外，学习Python时...
python语言zyxs爬虫程序代码QZQ.zip
2025-05-07 16:15

根据提供的文件信息，我们可以得知这是一份与Python编程语言相关的爬虫程序代码压缩包。Python语言因其简洁的语法和强大的库支持，在爬虫领域中占有重要地位。爬虫程序是一种自动化获取网页内容的脚本或程序，它能够...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月30日

phthon爬虫代码问题

3条回答 默认 最新

问题事件

3条回答默认最新