俊熙君 2022-08-23 23:23 采纳率: 85.7%

已结题

爬虫失败，中间获取信息的函数没有运行直接跳过了。

问题遇到的现象和发生背景

爬电影信息，真的试了很多方法都没找到问题出来哪里。
现在不知道为什么完全不允许中间的loading_mv函数，直接跳到下一个环节去了。
现在一个大问题……
我把别人写好的源代码复制运行发现还是没有运行函数，但是没有报错

问题相关代码，请勿粘贴截图

from base64 import encode
from dataclasses import replace
from pandas import DataFrame
import requests
from lxml import etree
from bs4 import BeautifulSoup

headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.63"
}

start_num = [i for i in range(0,1,25)]

list_url_mv = []

for start in start_num:
url = "https://movie.douban.com/top250?start={}&filter=%22.format(start)
print("正在处理url:",url)

r = requests.get(url,headers=headers)
soup = BeautifulSoup(r.text,"html.parser")

url_mv_list = soup.select("#content > div > div.article > ol > li > div > div.info > div.hd > a ")

for index_url in range(len(url_mv_list)):
    url_mv = url_mv_list[index_url]["href"]
    list_url_mv.append(url_mv)
    print(url_mv)

def loading_mv(url,number):
list_mv = []
print("-正在处理第{}部电影-".format(number+1))
list_mv.append(number+1)

response_mv = requests.get(url=url,headers=headers)
soup_mv = BeautifulSoup(response_mv.text,"html.parser")

mv_name = soup_mv.find_all('span',attrs={"property":"v:itemreviewed"})
mv_name = mv_name[0].get_text()
list_mv.append(mv_name)

mv_year = soup_mv.select("span.year")
mv_year = mv_year[0].get_text()[1:5]
list_mv.append(mv_year)

list_mv_director = []
mv_director = soup_mv.find_all('a',attrs={'rel':'v:directedBy'})
for director in mv_director:
    list_mv_director.append(director.get_text())
string_director = '/'.join(list_mv_director)

list_mv_star = []
mv_star = soup_mv.find_all("a",attrs={"rel":"v:starring"})
if mv_star == []:
    list_mv.append(None)
else:
    mv_star = mv_star[0].get_text().strip('/')
    mv_first_star = mv_star[0].split(":")
    list_mv_star.append(mv_first_star[-1].strip())
    # del mv_star[0]
    for star in mv_star:
        list_mv_star.append(star.strip())
    string = '/'.join(list_mv_star)
    list_mv.append(string)

list_mv_type = []
mv_type = soup_mv.find_all("a",attrs={"property":"v:genre"})
for type in mv_type:
    list_mv_type.append(type.get_text())
string_type = '/'.join(list_mv_type)
list_mv.append(string_type)

mv_score = soup_mv.select("strong.ll.rating_num")
mv_score = mv_score[0].get_text()
list_mv.append(mv_score)

mv_evaluation = soup_mv.select("a.rating_people")
mv_evaluation = mv_evaluation[0].get_text().strip()
list_mv.append(mv_evaluation)

mv_plot = soup_mv.find_all("span",attrs={"class":"all hidden"})
if mv_plot == []:
    list_mv.append(None)
else:
    string_plot = mv_plot[0].get_text().strip().split()
    new_string_plot = ' '.join(string_plot)
    list_mv.append(new_string_plot)

list_mv.append(url)

return list_mv

list_all_mv = []

dict_mv_info = {}
for number in range(len(list_url_mv)):
mv_info = loading_mv(list_url_mv[number],number)
list_all_mv.append(mv_info)
print("-运行结束-")

pd = DataFrame(list_all_mv,columns=['电影排名','电影名称','电影导演','电影主演','电影类型','电影评分','评价人数','电影简介','电影链接'])
pd.to_excel(r'D:\Python\Python爬虫\豆瓣电影信息爬取\豆瓣电影前Top250.xlsx')

运行结果及报错内容

输出了空的表格

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

亖夕 Python领域新星创作者 2022-08-23 23:52

关注

我看也没跳过loading_mv函数，该函数有运行，帮你改好了

from base64 import encode
from dataclasses import replace
from pandas import DataFrame
import requests
from lxml import etree
from bs4 import BeautifulSoup

headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.5112.102 Safari/537.36 Edg/104.0.1293.63"
}

start_num = [i for i in range(0,1,25)]

list_url_mv = []

for start in start_num:
    url = "https://movie.douban.com/top250?start={}&filter=%22.format(start)"
    print("正在处理url:",url)

    r = requests.get(url,headers=headers)
    soup = BeautifulSoup(r.text,"html.parser")

    url_mv_list = soup.select("#content > div > div.article > ol > li > div > div.info > div.hd > a ")
    # print(url_mv_list)

    for index_url in range(len(url_mv_list)):
        url_mv = url_mv_list[index_url]["href"]
        list_url_mv.append(url_mv)
        print(url_mv)
def loading_mv(url,number):
    list_mv = []
    print("-正在处理第{}部电影-".format(number+1))
    list_mv.append(number+1)

    response_mv = requests.get(url=url,headers=headers)
    soup_mv = BeautifulSoup(response_mv.text,"html.parser")

    mv_name = soup_mv.find_all('span',attrs={"property":"v:itemreviewed"})
    mv_name = mv_name[0].get_text()
    list_mv.append(mv_name)

    mv_year = soup_mv.select("span.year")
    mv_year = mv_year[0].get_text()[1:5]
    list_mv.append(mv_year)

    list_mv_director = []
    mv_director = soup_mv.find_all('a',attrs={'rel':'v:directedBy'})
    for director in mv_director:
        list_mv_director.append(director.get_text())
    string_director = '/'.join(list_mv_director)

    list_mv_star = []
    mv_star = soup_mv.find_all("a",attrs={"rel":"v:starring"})
    if mv_star == []:
        list_mv.append(None)
    else:
        mv_star = mv_star[0].get_text().strip('/')
        mv_first_star = mv_star[0].split(":")
        list_mv_star.append(mv_first_star[-1].strip())
        # del mv_star[0]
        for star in mv_star:
            list_mv_star.append(star.strip())
        string = '/'.join(list_mv_star)
        list_mv.append(string)

    list_mv_type = []
    mv_type = soup_mv.find_all("a",attrs={"property":"v:genre"})
    for type in mv_type:
        list_mv_type.append(type.get_text())
    string_type = '/'.join(list_mv_type)
    list_mv.append(string_type)

    mv_score = soup_mv.select("strong.ll.rating_num")
    mv_score = mv_score[0].get_text()
    list_mv.append(mv_score)

    mv_evaluation = soup_mv.select("a.rating_people")
    mv_evaluation = mv_evaluation[0].get_text().strip()
    list_mv.append(mv_evaluation)

    mv_plot = soup_mv.find_all("span",attrs={"class":"all hidden"})
    if mv_plot == []:
        list_mv.append(None)
    else:
        string_plot = mv_plot[0].get_text().strip().split()
        new_string_plot = ' '.join(string_plot)
        list_mv.append(new_string_plot)

    list_mv.append(url)

    return list_mv


list_all_mv = []

dict_mv_info = {}
for number in range(len(list_url_mv)):
    mv_info = loading_mv(list_url_mv[number],number)
    list_all_mv.append(mv_info)
print("-运行结束-")

pd = DataFrame(list_all_mv,columns=['电影排名','电影名称','电影导演','电影主演','电影类型','电影评分','评价人数','电影简介','电影链接'])
pd.to_excel(r'豆瓣电影前Top250pppppppp.xlsx')

本回答被题主选为最佳回答 , 对您是否有帮助呢?

报告相同问题？

关注问题

爬虫失败，中间获取信息的函数没有运行直接跳过了。 python 数据挖掘爬虫
2022-08-23 23:23

回答 1 已采纳我看也没跳过loading_mv函数，该函数有运行，帮你改好了 from base64 import encode from dataclasses import replace from pand
Python爬虫运行直接进程已结束 python 爬虫
2022-08-29 21:22

回答 1 已采纳 if __name__ == '__main__': main写成mian了
爬虫运行成功但是没有结果 python 爬虫
2023-02-24 12:28

回答 4 已采纳我把你代码运行了一下，抓到的是一些html，里面全是js，没有正文的，你想抓这个站的内容，需要监测xhr信息
【python爬虫】爬虫编程技术的解密与实战
2024-01-26 10:29

SarPro的博客《【Python爬虫】爬虫编程技术的解密与实战》深入剖析了爬虫技术的精髓，并提供了实际应用的实战经验。作者首先解密了Python爬虫编程的关键技术，涵盖了网页解析、数据提取、请求模拟等方面。通过详细而易懂的讲解，...
python爬虫运行没有结果的问题 python 爬虫
2023-02-24 21:28

回答 3 已采纳给你起个头，其它比较容易，一次请求了5000个，多了好像不行，试了9000个都可以，可以分两次 url="http://vip.stock.finance.sina.com.cn/fund_cent
python爬虫运行成功但是数据没有输出 python 爬虫
2023-02-24 11:31

回答 8 已采纳选择a标签的时候错误了，应该是 title_tags = tag.select('a')，这样选择每一个a标签，因为 article_tags = soup.select('.docsum-cont
为什么爬虫运行后什么也没有 python
2021-12-18 20:20

回答 2 已采纳可能list是空的,没有进for
Python爬虫自学清单，没有基础也能学爬虫
2019-09-17 19:58

Python老王的博客 1.刚上手的时候肯定是先过一遍Python最基本的知识，比如说：变量、数据结构、语法等，基础过的很快，基本上1~2周时间就能过完了，我当时是在这儿看的基础：Python 简介 | 菜鸟教程 2.看完基础后，就是做一些小项目...
爬虫获取json失败 json python 有问必答
2021-09-29 09:28

回答 3 已采纳题主少了user-agent，加上就可以了，有帮助麻烦点个采纳【本回答右上角】，谢谢~~ import requests headers={ "User-Agent":"Mozilla/5.
python爬虫，请求不报错也不出现想要获取的信息 python 有问必答爬虫
2021-11-05 23:03

回答 2 已采纳在url_dataList中获取的url有的不是网址的完整形式，只是相对路径，需要进行拼接，类似于base_url+rel_url
爬虫JS逆向，函数被异名函数实现了。 javascript 爬虫
2023-01-22 15:46

回答 5 已采纳谢邀，望采纳，新年快乐🎉 前端实现功能的代码方法，不可能用这种 n，i，abc 的名称，来定义方法名，应该是用了 js 代码混淆和压缩处理，压缩混淆后，是有混淆后的名称形式的。
高中信息技术合格考试Python编程知识点全整理【连载....】
2022-10-27 02:12

Rui-Yang的博客在语言层面上，合格考的要求学习变量命名，赋值，使用认识各种数据类型知道常用的数据组合形式，例如列表使用常用的内置函数或方法会使用math库或运算符进行数据计算会使用顺序结构会使用if-elif-else分支结构会使用...
python爬虫初学，运行不报错但是没有结果？ python 有问必答
2021-04-01 16:51

回答 4 已采纳代码问题：1.request少写了s。 2. fillUnivList(ulist,html)函数没有return。 3.printUnivList(ulist,num)缺少异常处理。 4
Python爬虫学习笔记_DAY_27_Python爬虫之requests库实战_绕过古诗文网登录页面及验证码的破解方法【Python爬虫】
2022-02-16 23:01

跳探戈的小龙虾的博客需求是这样的：首先，我们可以打开古诗文网：接线来点击一下我的选项：此时我们需要登录后，才能看到个人下面的个人信息页：但是我们本次实战的需求是，无需登录(绕过登录)，获取个人页面的源码信息。...
python爬虫教程：编写Python脚本来获取mp3文件tag信息的教程
2020-03-22 21:59

程序员arlly的博客这篇文章主要介绍了编写Python脚本来获取mp3文件tag信息的教程,代码基于Python2.x,文中的注释很详细,需要的朋友可以参考下下面利用一个python的实例程序，来学习python。这个程序的目的就是分析出所有MP3文件的Tag...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 9月1日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 8月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 8月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月23日

悬赏问题

¥30 这是哪个作者做的宝宝起名网站
¥60 版本过低apk如何修改可以兼容新的安卓系统
¥25 由IPR导致的DRIVER_POWER_STATE_FAILURE蓝屏
¥50 有数据，怎么建立模型求影响全要素生产率的因素
¥50 有数据，怎么用matlab求全要素生产率
¥15 TI的insta-spin例程
¥15 完成下列问题完成下列问题
¥15 C#算法问题, 不知道怎么处理这个数据的转换
¥15 YoloV5 第三方库的版本对照问题
¥15 请完成下列相关问题！