保存到文件乱码和没有那么条数据

问题遇到的现象和发生背景

原地址：https://mp.weixin.qq.com/s/54dcJO2KR9aMTQJh5OlSzg
爬取数据控制台没有出问题可是爬取到文件就出问题

问题相关代码，请勿粘贴截图

import requests
import requests
import csv
import time
import json
import requests
from lxml import etree
from pymongo import MongoClient
from bs4 import BeautifulSoup
import pandas as pd

def getOnepage(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36',
        'Cookie': 'bid=NX8M2NI7rfg; douban-fav-remind=1; __yadk_uid=TEJSv3vlFpxrnShgBGXWW51qExiqLCiD; __gads=ID=35ed214a9a0f04f3-229b40ae8cc5003e:T=1609826897:RT=1609826897:S=ALNI_MbjrOjiMxJC6bra_BWqa1z6LwJvFA; ll="118267"; viewed="1007305"; gr_user_id=38f71f7e-49a3-4463-a3e9-dd3f77625dad; _ga=GA1.2.1355032985.1609826898; _vwo_uuid_v2=D6A8A09C6232AC6A436C3775284DBE348|dadd79d0f01552308d196454329600a7; dbcl2="247324733:YcdnDsCblB0"; push_noty_num=0; push_doumail_num=0; __utmv=30149280.24732; ck=MMTN; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1637395735%2C%22https%3A%2F%2Fwww.gameres.com%2F%22%5D; _pk_ses.100001.8cb4=*; __utma=30149280.1355032985.1609826898.1637309781.1637395736.17; __utmc=30149280; __utmz=30149280.1637395736.17.14.utmcsr=gameres.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt=1; _pk_id.100001.8cb4=b87f2f239f7dd7c8.1609826897.15.1637395743.1637309781.; __utmb=30149280.4.10.1637395736'

    }
    # 发送请求,得到响应

    response = requests.get(url, headers=headers)
    return response.json()  # 文本

# 解析一页的数据
def parseOnepage (res):


    col = ['name', 'star', 'rating', 'platforms', 'n_ratings', 'genres', 'content']

    n = len(res['games'])
    list1=[]
    for j in range(n):
        item={}
        item['name'] = res['games'][j]['title']
        item['star'] = res['games'][j]['star']
        item['rating'] = res['games'][j]['rating']
        item['platforms'] = res['games'][j]['platforms']
        item['n_ratings'] = res['games'][j]['n_ratings']
        item['genres'] = res['games'][j]['genres']
        item['content'] = res['games'][j]['review']['content']
        print(item)
        list1.append(item)
    return list1
def savaData(item):
    with open('douban.csv', 'w', newline='', encoding='utf-8')as f:
        fieldnames = ['name', 'star', 'rating', 'platforms', 'n_ratings',
                      'genres','content']
        write = csv.DictWriter(f, fieldnames=fieldnames)
        write.writeheader()
        write.writerows(item)
def main():
    for i in range(1,100):
        url="https://www.douban.com/j/ilmen/game/search?genres=&platforms=&q=&sort=rating&more="+str(i)
        response = getOnepage(url)
        # parseOnepage(response)
        savaData(parseOnepage(response))
if __name__ == '__main__': # 程序的窗口
    main()

运行结果及报错内容

我的解答思路和尝试过的方法

我想要达到的结果

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

辉煌仪奇 2021-11-23 11:21

关注

你这是爬取了多少个页面呀,我跑了好久,记得采纳
修改了你数据提取后的多余回车和乱码现象,还有提取的数据有些字符是异形字符,如果你想要显示,建议换种方法存数据,修改了存文件的函数,具体哪些地方你再看看

import requests


def getOnepage(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36',
        'Cookie': 'bid=NX8M2NI7rfg; douban-fav-remind=1; __yadk_uid=TEJSv3vlFpxrnShgBGXWW51qExiqLCiD; __gads=ID=35ed214a9a0f04f3-229b40ae8cc5003e:T=1609826897:RT=1609826897:S=ALNI_MbjrOjiMxJC6bra_BWqa1z6LwJvFA; ll="118267"; viewed="1007305"; gr_user_id=38f71f7e-49a3-4463-a3e9-dd3f77625dad; _ga=GA1.2.1355032985.1609826898; _vwo_uuid_v2=D6A8A09C6232AC6A436C3775284DBE348|dadd79d0f01552308d196454329600a7; dbcl2="247324733:YcdnDsCblB0"; push_noty_num=0; push_doumail_num=0; __utmv=30149280.24732; ck=MMTN; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1637395735%2C%22https%3A%2F%2Fwww.gameres.com%2F%22%5D; _pk_ses.100001.8cb4=*; __utma=30149280.1355032985.1609826898.1637309781.1637395736.17; __utmc=30149280; __utmz=30149280.1637395736.17.14.utmcsr=gameres.com|utmccn=(referral)|utmcmd=referral|utmcct=/; __utmt=1; _pk_id.100001.8cb4=b87f2f239f7dd7c8.1609826897.15.1637395743.1637309781.; __utmb=30149280.4.10.1637395736'
    }
    # 发送请求,得到响应
    response = requests.get(url, headers=headers)
    return response.json()  # 文本


# 解析一页的数据
def parseOnepage(res):
    col = ['name', 'star', 'rating', 'platforms', 'n_ratings', 'genres', 'content']
    n = len(res['games'])
    list1 = []
    for j in range(n):
        item = {}
        item['name'] = res['games'][j]['title'].replace('\r\n', '')
        item['star'] = res['games'][j]['star'].replace('\r\n', '')
        item['rating'] = res['games'][j]['rating'].replace('\r\n', '')
        item['platforms'] = res['games'][j]['platforms'].replace('\r\n', '')
        item['n_ratings'] = str(res['games'][j]['n_ratings'])
        item['genres'] = res['games'][j]['genres'].replace('\r\n', '')
        item['content'] = res['games'][j]['review']['content'].replace('\r\n', '')
        list1.append(item)
    return list1


def savaData(item):
    import os
    if os.path.exists('douban.csv'):
        with open('douban.csv', 'a+') as f:
            for i in item:
                c = list(i.values())
                b = ','.join(c)
                try:
                    f.writelines(b + '\n')
                except:
                    pass
    else:
        with open('douban.csv', 'w+') as f:
            title = "name, star, rating, platforms, n_ratings,genres, content\n"
            f.writelines(title)
            for i in item:
                c = list(i.values())
                b = ','.join(c)
                try:
                    f.writelines(b + '\n')
                except:
                    pass

        # write = csv.DictWriter(f, fieldnames=fieldnames)
        # write.writeheader()
        # write.writerows(item)


def main():
    for i in range(1, 100):
        url = "https://www.douban.com/j/ilmen/game/search?genres=&platforms=&q=&sort=rating&more=" + str(i)
        response = getOnepage(url)
        # parseOnepage(response)
        savaData(parseOnepage(response))


if __name__ == '__main__':  # 程序的窗口
    main()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

报告相同问题？

关注问题

保存到文件乱码和没有那么条数据 python 爬虫
2021-11-23 10:33

回答 3 已采纳你这是爬取了多少个页面呀,我跑了好久,记得采纳修改了你数据提取后的多余回车和乱码现象,还有提取的数据有些字符是异形字符,如果你想要显示,建议换种方法存数据,修改了存文件的函数,具体哪些地方你再看看 i
PYTHON保存中文到SQLSERVER乱码 python sqlserver
2022-08-22 13:02

回答 5 已采纳 StoreProductCategory = StoreProductCategory.encode("latin-1", errors="ignore").decode("gbk", errors=
Python实现导入文件和数据处理 python 有问必答
2022-06-13 18:21

回答 3 已采纳将原文本数据另存"utf-8"格式，读取时使用编码‘utf-8-sig'，用pandas对数据进行类型转换，参考代码： import numpy as np import pandas as pd #
python爬取数据保存到csv文件显示乱码
2023-06-17 16:16

C__Error的博客 python保存数据到csv显示乱码
python读txt文件中文乱码 python 有问必答
2021-06-02 12:53

回答 5 已采纳把GBK改成UTF-8试一下，还有就是你的txt文档的编码格式不对。
python爬取数据到文本文件：为什么里面写了utf-8还是乱码 python
2021-07-24 11:40

回答 3 已采纳你在你画圆圈的的上一行写一句r.encoding="utf-8"试一试，有用的话点一下采纳
Python写入一维数据到csv文件 python
2021-08-13 16:11

回答 2 已采纳 open('文件'，'a+') 以这种方式打开，是追加写入。以 w 方式打开文件，是覆盖写入，不会保存原有文件内容。关于乱码，你在python脚本开头添加 ```python # -*- codi
python 保存本地乱码,解决python保存数据到csv文件中文乱码的方法
2021-04-26 18:52

徐子贡的博客解决python保存数据到csv文件中文乱码的方法发布时间：2020-07-08 13:49:53来源：亿速云阅读：695作者：清晨小编给大家分享一下解决python保存数据到csv文件中文乱码的方法，希望大家阅读完这篇文章后大所收获，下面...
vscode用code runner运行python文件乱码 python vscode
2021-07-26 15:52

回答 2 已采纳选上这个，在终端运行。
Python解决乱码问题 python
2021-12-14 01:14

回答 2 已采纳这种情况应该用:html=resp.content.decode("gbk")
Python3打开文件乱码的问题 python
2016-12-24 19:19

回答 1 已采纳写文件的时候有没有把utf8字符串转为Unicode在写入，还有就是写文件的时候有没有指导编码格式
Python保存json文件，英文内容出现乱码
2022-10-17 22:34

習澤宇的博客解决python保存json文件是出现乱码的问题（带有特殊符号英文名字出现乱码）
python调用高德api乱码 python
2023-03-03 10:35

回答 2 已采纳添加了一行： res.encoding = 'utf-8' 完整的代码： import requests import json # 输入API问号前固定不变的部分 url = 'https://
解决python保存csv文件Excel打开乱码的问题
2023-06-30 12:37

学习是正确的的博客解决python保存csv文件打开乱码的问题
python保存dat文件_将数据存入文件
2020-11-26 10:27

weixin_39771351的博客要常常喜乐，不住地祷告，凡事谢恩，因为这是神在基督耶稣里向你们所定的旨意。...如果在程序中，有数据要保存到磁盘中，放到某个文件中是一种不错的方法。但是，如果像以前那样存，未免有点凌乱，并且没...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已结题（查看结题原因） 11月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 11月23日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月23日

悬赏问题

¥15 微信会员卡等级和折扣规则
¥15 微信公众平台自制会员卡可以通过收款码收款码收款进行自动积分吗
¥15 随身WiFi网络灯亮但是没有网络，如何解决？
¥15 gdf格式的脑电数据如何处理matlab
¥20 重新写的代码替换了之后运行hbuliderx就这样了
¥100 监控抖音用户作品更新可以微信公众号提醒
¥15 UE5 如何可以不渲染HDRIBackdrop背景
¥70 2048小游戏毕设项目
¥20 mysql架构，按照姓名分表
¥15 MATLAB实现区间[a,b]上的Gauss-Legendre积分