本意是爬取豆瓣top250有关信息，但遇到了两个问题，困惑两天了，求解求解，对各位来说应该非常简单吧

问题已在代码相应位置


import requests
from lxml import  etree
import time
import csv
import codecs
import unicodedata



# 获得每一页的html，一共10页：
def get_source(url):
    headers = {
                'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36"
            }

    respose=requests.get(url,headers=headers)

    # print(respose.text.encode('utf-8'))
    respose.encoding='utf-8'
    # print(respose.text)
    html=etree.HTML(respose.text)
    # print(html)
    return (html)


#  把每一页的需要的电影名 评分  导演 名句等获取，然后形成一个列表里面是字典的形式返回：[{dict1},{dict2}...]
def get_date(html):
    all_li=html.xpath('//*[@id="content"]/div/div[1]/ol/li')
    # print(all_li)
    movielist=[]
    for li in all_li:
        dict={}
        title=li.xpath('div/div[2]/div[1]/a/span/text()')[0]
        # print(title)
        # print(title[0]+'---'+title[1])
        rate_num=li.xpath('div/div[2]/div[2]/div/span[2]/text()')[0]
        # print(rate_num)
        inq=li.xpath('div//span[@class="inq"]/text()')   ####  问题1：为什么这里写了[0]后，就会运行到保存完成第六次后报错？？？？
        # print(inq)
        movieinfo1=li.xpath('div/div[2]/div[2]/p[1]/text()')[0].strip().split("/")[0]
        movieinfo=unicodedata.normalize('NFKC', movieinfo1)
        # print(movieinfo)
        dict['标题']=title
        dict['电影详情']=movieinfo
        dict['评分']=rate_num
        dict['名言']=inq
        # print(dict)
        movielist.append(dict)
    # print(movielist)
    return movielist
    time.sleep(5)
        # return (title,rate_num,inq,mioveinfo)


# 保存每一个返回的列表，存到csv文件里去
def sverfile(movielist):
    with codecs.open('.豆瓣top250信息.csv','w','utf-8') as f:
        filehaed=csv.DictWriter(f,fieldnames=['标题','电影详情','评分','名言'])
        filehaed.writeheader()  ###写入csv表头
        for eval in movielist:
            # print(eval)
            filehaed.writerow(eval)
        print("保存完成")



for i in  range(10):
    movielist1=[]
    url="https://movie.douban.com/top250?start={}&filter=".format(i*25)
    html = get_source(url)
    movielist1=get_date(html)
    print(movielist1)
    sverfile(movielist1)
    time.sleep(5)
# 问题2：为什么保存后打开excle文件后全是乱码，而且只保存了26行

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN专家-HGJ 2021-07-27 00:35

关注

第一个问题。因为inq=li.xpath('div//span[@class="inq"]/text()')这句获取名言，有的节点没有数据，值为None,用索引会报错。用try...except进行异常处理一下即可。
第二个问题，是因为csv是utf-8编码,而excel是默认系统的中文编码，所以出现乱码。解决方法：用记事本打开csv，选取ansi编码格式另存，再用excel打开就能正常显示中文了。或者编码改utf-8为utf-8-sig。
第三个问题，代码中csv写入方式，是w，最后写入会覆盖前面写入的内容，所以只有一页的数据，可将写入方式改成"a"追加方式。最好是在循环前打开文件，用w方式遍历每行写入。修改的代码如下：

import requests
from lxml import etree
import time
import csv
import codecs
import unicodedata

def get_source(url):
    headers = {
        'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36"
    }
    respose = requests.get(url, headers=headers)
    # print(respose.text.encode('utf-8'))
    respose.encoding = 'utf-8'
    # print(respose.text)
    html = etree.HTML(respose.text)
    # print(html)
    return (html)

def get_date(html):
    all_li = html.xpath('//*[@id="content"]/div/div[1]/ol/li')
    # print(all_li)
    movielist = []
    for li in all_li:
        dict = {}
        title = li.xpath('div/div[2]/div[1]/a/span/text()')[0]
        # print(title)
        # print(title[0]+'---'+title[1])
        rate_num = li.xpath('div/div[2]/div[2]/div/span[2]/text()')[0]
        # print(rate_num)
        try:
            inq = li.xpath('div//span[@class="inq"]/text()')[0]
        except:
            inq=''
        # print(inq)
        movieinfo1 = li.xpath(
            'div/div[2]/div[2]/p[1]/text()')[0].strip().split("/")[0]
        movieinfo = unicodedata.normalize('NFKC', movieinfo1)
        # print(movieinfo)
        dict['标题'] = title
        dict['电影详情'] = movieinfo
        dict['评分'] = rate_num
        dict['名言'] = inq
        # print(dict)
        movielist.append(dict)
    # print(movielist)
    return movielist
    time.sleep(5)
    # return (title,rate_num,inq,mioveinfo)
    
def sverfile(movielist):
    for eval in movielist:
        # print(eval)
        filehaed.writerow(eval)
    print("保存完成")

with codecs.open('豆瓣top250信息.csv', 'w', 'utf-8') as f:
    filehaed = csv.DictWriter(f, fieldnames=['标题', '电影详情', '评分', '名言'])
    filehaed.writeheader()  # 写入csv表头
    for i in range(10):
        movielist1 = []
        url = "https://movie.douban.com/top250?start={}&filter=".format(i*25)
        html = get_source(url)
        movielist1 = get_date(html)
        #print(movielist1)
        sverfile(movielist1)
        time.sleep(5)

如有帮助，请采纳。点击我回答右上角【采纳】按钮。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(1条)

报告相同问题？

关注问题

本意是爬取豆瓣top250有关信息，但遇到了两个问题，困惑两天了，求解求解，对各位来说应该非常简单吧 python 有问必答
2021-07-26 23:47

回答 2 已采纳第一个问题。因为inq=li.xpath('div//span[@class="inq"]/text()')这句获取名言，有的节点没有数据，值为None,用索引会报错。用try...except进行异
有关UE4蓝图的问题：“无访问”正在尝试读取程序，是什么意思，应该怎么改？ ue4 开发语言
2022-02-11 15:18

回答 1 已采纳解决方法：点击后面的提示的函数，打开具体位置蓝图然后在函数上需要加一个Self或者这里可以加一个is Valid 等转换有效了再执行，无效就返回一个正常的默认值就行了！
Spyder中遇到exit（）函数，会强制退出运行。而我的本意是中止程序。 python 有问必答
2021-09-16 23:55

回答 2 已采纳封装成方法，如果找到就return结束当前方法。
爬虫入门经典(十四) | 使用selenium尝试爬取豆瓣图书
2020-10-30 10:45

不温卜火的博客大家好，我是不温卜火，是一名计算机学院大数据专业大三的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己...
请问这两个错误怎么解决 c语言
2021-11-07 22:22

回答 1 已采纳翻译一下那两句红色英文就出来了。不过这里我想说的就是，assign函数的第一个参数的作用跟int指针是一样的。因为数组不能当参数传递，会自动转换成指针。所以你调用的时候就是把一个int类型的实参拿去初
给数组赋初值遇到的问题 c++
2023-03-26 10:06

回答 3 已采纳 memset是以字节为单位的，每一个字节都是7，int有4个字节，所以是0x07070707，换算成十进制就是117901063。想全部初始化为7就用循环： for(int i=0;i<6;i+
pygame 飞机大战遇到问题 pygame python 游戏程序
2022-01-28 16:17

回答 3 已采纳你先设置断点，或者print，看看函数到底执行了没有，是因为你写错参数了导致函数根本没有走进去（没有匹配到elif）还是函数执行了，但是因为写错了，导致界面上没有反应写代码不自己调试，全靠猜，那你上哪
爬虫入门经典(十二) | 一文带你快速爬取豆瓣电影
2020-10-28 11:47

不温卜火的博客大家好，我是不温卜火，是一名计算机学院大数据专业大三的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己...
java里两个类调用同一个类，如何传递句柄？ android-studio java
2017-07-06 07:59

回答 8 已采纳写一个类，实现单例模式。 public class Base{ public int Value; } public class MakeBase{ private stat
关于#python#的问题：但不管怎么改代码，decode和encode之类的都试了 python 爬虫
2023-03-07 15:40

回答 3 已采纳获取到数据后自己解码，改成下面的代码page_txt = response.content.decode('utf-8') 有帮助的话，请点采纳该答案~
又一个白丝不得其解的问题 c语言
2022-07-30 15:14

回答 4 已采纳 scanf("%d\n",&a[i]);改成 scanf("%d",&a[i]);输入语句不要加\n
CentOs服务器下安装两个个MySql数据库踩坑日记
2018-10-15 22:39

涛声依旧Cjt的博客其实并非本意非要安装两个服务器，奈何不知道前面项目的数据库密码，并且数据库版本是8.x，另外还有项目在上面运行，前面的人把数据库装到了系统盘，留下了500G的数据盘没用，所以本着折腾的精神，就开始了踩坑之旅...
android开发中使用Spinner控件遇到了一个问题 android
2015-07-04 07:31

回答 1 已采纳别用ArrayAdapter，用继承baseadapter自己写一个。arrayadapter只会显示文本。
运输问题系数矩阵matlab,基于MATLAB的运输问题求解方法.pdf
2021-04-24 16:18

weixin_39582480的博客基于MATLAB的运输问题求解方法年月，２００９４宁波职业技术学院学报Ａｐｒ２００９第卷第期１３２Ｊｏｕ...
【Educoder作业】问题求解——数值表示
2022-05-09 13:01

JZYshuraK的博客【Educoder作业】问题求解——数值表示这节课的讲的原码补码，代码实现倒是次要的，主要是理解为什么会有补码这种东西，为什么通过补码进行加法可以代替减法 T1 原码这个代码实现的巧妙在于用absabsabs和...
爬虫入门经典(十六) | 一文带你爬取斗鱼主播相关信息
2020-11-01 11:04

不温卜火的博客大家好，我是不温卜火，是一名计算机学院大数据专业大三的学生，昵称来源于成语—不温不火，本意是希望自己性情温和。作为一名互联网行业的小白，博主写博客一方面是为了记录自己的学习过程，另一方面是总结自己...
一个爬取沪深两市融资融券标的融资融券交易数据的小爬虫
2017-03-01 20:15

buracag_mc的博客一个爬取沪深两市所有融资融券标的融资融券数据的小爬虫（也可爬取自定义标的）；另外增加了一个简易GUI界面，并将函数中的流映射输入到弹出的GUI窗口中；可支持打包成exe可执行文件。
有人痴狂，有人跑路，开源软件新一年的冰火两重天
2022-02-01 13:53

beyondma的博客最近有关开源软件的话题始终占领着IT界的新闻头条，Log4j开源软件的惊天漏洞，才刚刚出现不久，Fake.js的作者也惊天删库跑路了，CurL的作者怒怼苹果只会白嫖开源却不出力，Linux的祖师爷Linus也不知所云地在Github为...
解决vscode出现两个光标的问题
2020-01-26 23:22

shiming_liu的博客问题概述今天用vscode的vim模式编辑html文件时，发现光标移动时会自动出现两个光标。插入或者删除文字时，会同时修改两处地方。一开始我以为是vscode的新功能，只是我不会用，但是很快发现，真的是没法用。网上搜索...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 8月4日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 7月27日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月26日

悬赏问题

¥15 在若依框架下实现人脸识别
¥15 网络科学导论，网络控制
¥100 安卓tv程序连接SQLSERVER2008问题
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？
¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
¥15 c#逐行读取txt文本，但是每一行里面数据之间空格数量不同

本意是爬取豆瓣top250有关信息，但遇到了两个问题，困惑两天了，求解求解，对各位来说应该非常简单吧

2条回答 默认 最新

问题事件

悬赏问题

2条回答默认最新