豆瓣电影信息获取问题,

AttributeError: 'NoneType' object has no attribute 'text'

这个结构对的啊


import re
import requests
import pandas as pd
from bs4 import BeautifulSoup

headers = {
    'Connection': 'keep-alive',
    'Pragma': 'no-cache',
    'Cache-Control': 'no-cache',
    'Upgrade-Insecure-Requests': '1',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9',
    'Sec-Fetch-Site': 'none',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-User': '?1',
    'Sec-Fetch-Dest': 'document',
    'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8',
    'Cookie': 'bid=oHaXaKMVDtY; _pk_id.100001.4cf6=7fcf7b749a8a2302.1687010568.; __utmz=30149280.1687010568.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmz=223695111.1687010568.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); _pk_ses.100001.4cf6=1; ap_v=0,6.0; __utma=30149280.46899879.1687010568.1687010568.1689418642.2; __utmb=30149280.0.10.1689418642; __utmc=30149280; __utma=223695111.1949229722.1687010568.1687010568.1689418642.2; __utmb=223695111.0.10.1689418642; __utmc=223695111; __yadk_uid=J6ZZOHkGKtng89taYk0m1tllt1OLZNM3; ll="108297"; __gads=ID=1934c56911590f64-220796395ee200a7:T=1689418831:RT=1689418831:S=ALNI_MaVHNkw8Vb74xHmHrw8BKbgu3-48w; __gpi=UID=00000cc28acfb4a6:T=1689418831:RT=1689418831:S=ALNI_MYHRm276jV9_rmxvktjHduLrJdtXA; _vwo_uuid_v2=DD0788C8CBD23E7E324C11971A5ECF412|4057c38db34d5f2733c8ee4dfcd6e8d0',
}

df = pd.DataFrame(columns=['片名',
                           '上映年份',
                           '评分',
                           '评价人数',
                           '导演',
                           '编剧',
                           '主演',
                           '类型',
                           '国家 / 地区',
                           '语言',
                           '时长'])

for i in range(0, 2):
    print(f"正在爬取第{i}页")
    url = 'https://movie.douban.com/top250?start={}&filter='.format(i * 25)
    print(f"第{i}页爬取完成")
    response = requests.get(url=url, headers=headers)
    soup = BeautifulSoup(response.text, "html.parser")
    lists = soup.find_all(attrs={'class': "hd"})
    for list in lists:

        href = list.a['href']
        print(href)
        soup = BeautifulSoup(response.text, "html.parser")
        # 片名
        name = soup.find(attrs={'property': "v:itemreviewed"}).text.split(' ')[0]

        # 上映年份
        year = soup.find(attrs={'class': "year"}).text.replace('() ')
        # 评分
        score = soup.find(attrs={'property': "v:average"}).text
        # 评价人数
        votes = soup.find(attrs={'property': "v:votes"}).text

        infos = soup.find(attrs={'id': "info"}).text.split('n')[1:11]
        # 导演
        director = infos[0].split(': ')[1]
        # 编剧
        screenwriter = infos[1].split(': ')[1]
        # 主演
        actor = infos[2].split(': ')[1]
        # 类型
        filmtype = infos[3].split(': ')[1]
        # 国家/地区
        area = infos[4].split(': ')[1]
        if '.' in area:
            area = infos[5].split(': ')[1].split('/')[0]
            # 语言
            language = infos[6].split(': ')[1].split('/')[0]
        else:
            area = infos[4].split(': ')[1].split('/')[0]
            language = infos[5].split(': ')[1].split('/')[0]
        if '大陆' in area or '香港' in area or '台湾' in area:
            area = '中国'
        if '戛纳' in area:
            area = '法国'
        # 时长
        timeS0 = soup.find(attrs={'property': "v:runtime"}).text
        times = re.findall('\d+', timeS0)[0]
        data = {
            '片名': name,
            '上映年份': year,
            '评分': score,
            '评价人数': votes,
            '导演': director,
            '编剧': screenwriter,
            '主演': actor,
            '类型': filmtype,
            '国家 / 地区': area,
            '语言': language,
            '时长': times
        }
        print(f'{data["片名"]}采集成功')
        df = df.append([data])

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
大师兄6668 Python领域新星创作者 2023-07-16 00:21
关注
直接找标签，别找属性，这样精准一些

本回答被专家选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

前端数据转后端实现动态SQL功能问题 javascript spring boot 后端
2022-09-16 06:52

回答 3 已采纳修改sql语句为： select * from user where id = $key or name = $key or idcard = $key $key是你前端输入的值
云服务器后端获取不到mongo数据库内容 mongodb 后端
2021-09-05 02:34

回答 1 已采纳你可以尝试在mongo 命令行下执行查询看是服务否有问题，若没问题则应为程序问题
python 正则豆瓣电影排行问题 python 正则表达式爬虫
2022-04-28 01:22

回答 2 已采纳使用管道符呢？(&nbsp|\.{3})
后端电影e系列
2021-02-16 15:21

在电影e系列项目中，API可能会提供获取电影详情、搜索电影、添加评论等功能。 2. **RESTful API设计**：REST（Representational State Transfer）是一种常见的API设计风格，它定义了资源的表示方式、状态转移和交互...
使用正则表达式匹配豆瓣电影top250电影信息 python
2021-10-09 17:28

回答 1 已采纳 result 是 nil 啊
豆瓣电影top250数据可视化大屏 python
2022-06-14 01:50

回答 1 已采纳 https://www.bilibili.com/video/BV12E411A7ZQ?spm_id_from=333.1007.top_right_bar_window_custom_collect
多进程爬取豆瓣电影出现异常 python
2021-08-10 16:43

回答 2 已采纳 Process(target = parse_url,args = url) 这里的args 参数需要是一个元组形式，可以写成args=（url，）
影视电影小程序源码修复完整运营版后端是苹果cms
2024-06-02 16:04

在本资源中，我们主要关注的是一个用于创建影视电影小程序的源码，它基于苹果CMS后端系统，并且已经过2021年的更新和修复，成为了一个完整的运营版本。这个小程序包含了多项实用功能，如流量主激励广告、电视投屏...
CURL请求值获取问题 json php 前端
2022-07-15 04:20

回答 4 已采纳其实直接封装一个方法也可以直接获取的,因为出来的是个字符串 function getQueryVariable(variable) { var query = window.locat
高德地图api使用，获取标记信息 javascript 前端
2023-02-22 00:45

回答 2 已采纳以下答案引用自GPT-3大模型,请合理使用： AMap.plugin(["AMap.PlaceSearch"],function(){ //实例化地点搜索类 var placeSearch=
vue前端复选框获取表格中多个ID数据，后端查询这n个ID对应数据 intellij-idea vue.js
2021-06-08 16:21

回答 3 已采纳看上去还可以吧没有那么复杂, 你现在是卡在什么位置了, 无法从数据查询三个ID开头的数据么? 你可以考虑一下 where id like '1001%' or id like '1003%'
python爬虫豆瓣电影TOP250,以及数据化分析
2022-01-20 23:30

在这个项目中，可能用到了如`requests`库来发送HTTP请求获取网页内容，以及`BeautifulSoup`或`lxml`库解析HTML结构，提取我们需要的电影信息，如电影名称、评分、导演、主演等。网络爬虫是程序化地从互联网上抓取...
求助中文信息处理问题中文分词全文检索搜索引擎
2020-11-04 16:08

回答 1 已采纳 word2vec
微信小程序-豆瓣电影
2018-05-30 14:45

1. **数据请求与API集成**：小程序需要与豆瓣API进行交互，获取电影信息。这涉及到网络请求模块（如wx.request），需要处理JSON响应，并将数据绑定到视图层展示。 2. **页面路由管理**：在小程序中，用户可以通过...
豆瓣电影TOP250数据分析应用Python爬虫/Flask框架/Echarts插件/WordCloud等技术实现
2024-06-29 11:42

1. 数据采集：编写Python爬虫，遍历豆瓣电影TOP250页面，收集电影的基本信息和评论数据。 2. 数据预处理：清洗数据，处理异常值，整理成适合分析的格式。 3. 数据分析：使用Python的Pandas库进行数据统计分析，如...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 7月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家已采纳回答 7月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月15日

悬赏问题

¥15 关于#c语言#的问题：求完整代码条件好说
¥100 HALCON DELPHI
¥15 （需要远程，AI不回）VB6二进制文件转换成功，但是C#转换总是失败
¥15 关于#matlab#的问题：有没有什么其他办法能够保证不退出进程（相关搜索：matlab调用）
¥15 依据报错在原代吗格式的基础上解决问题
¥15 在虚拟机中安装flash code
¥15 单片机stm32f10x编写光敏电阻调节3.3伏大功率灯亮度（光强越大灯越暗，白天正常光强灯不亮，使用ADC，PWM等模块）望各位找一下错误或者提供一个可实现功能的代码
¥20 verilog状态机方法流水灯
¥15 pandas代码实现不了意图
¥15 GD32H7 从存储器到外设SPI传输数据无法重复启用DMA

豆瓣电影信息获取问题,

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新