可以运行出来数据，但是爬出来只有一行

爬虫可以运行出来数据，但是结束运行后文件只有一行数据，其他数据没有传到文件中

#!coding=utf-8
import requests
import re
import random
import time
import json
from requests.packages.urllib3.exceptions import InsecureRequestWarning
import pandas as pd

requests.packages.urllib3.disable_warnings(InsecureRequestWarning)  ###禁止提醒SSL警告


###格式化时间戳
def timestamp_to_date(time_stamp, format_string="%Y-%m-%d %H:%M:%S"):
    time_array = time.localtime(int(time_stamp))
    str_date = time.strftime(format_string, time_array)
    return str_date


def de_duplication(lst):  ##去重不改变原数据顺序
    de_du = list(set(lst))
    de_du.sort(key=lst.index)
    return de_du


class xm(object):

    ###  获取分类
    def get_categoryList(self):
        url = 'https://youpin.mi.com/app/shopv3/pipe'
        headers = {
            'Accept': '*/*',
            'Accept-Encoding': 'gzip, deflate, br',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            'Connection': 'keep-alive',
            'Content-Length': '130',
            'Content-Type': 'application/x-www-form-urlencoded',
            'Host': 'youpin.mi.com',
            'Origin': 'https://youpin.mi.com',
            'Referer': 'https://youpin.mi.com/',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.15 Safari/537.36'
        }
        data = {
            'data': '{"result": {"model": "Homepage", "action": "GetGroup2ClassInfo", "parameters": {}}}',
        }
        req = requests.post(url=url, headers=headers, data=data, verify=False).json()
        groups = req['result']['result']['data']['groups']
        df = pd.DataFrame(columns=('一级分类ID', '一级分类', '二级分类ID', '二级分类'))
        x = 0
        for i in groups:
            for j in i:
                class1_name = j['class']['name']  ##一级分类
                ucid1 = j['class']['ucid']  ##一级分类ID
                for k in j['sub_class']:
                    class2_name = k['name']  ##二级分类
                    ucid2 = k['ucid']  # 二级分类ID
                    df.loc[x] = [ucid1, class1_name, ucid2, class2_name]
                    x = x + 1
        # df.to_csv('list.csv',index=False, encoding="GB18030")
        return df

    ##获取商品数据
    def get_items_ID(self):
        s = requests.session()
        df = self.get_categoryList()
        cateList = df['一级分类ID'].values.tolist()
        catename = df['一级分类'].values.tolist()
        cateList = de_duplication(cateList)
        catename = de_duplication(catename)
        df_item = pd.DataFrame(columns=(
        '一级分类ID', '一级分类', '二级分类', '二级分类ID', '商品ID', '商品名称', '商品简介', '商品图片', '上架时间',
        '更新时间', '零售价', '商品URL', '评分', '好评率', '评论数', '评论观点'))
        x = 0
        url = 'https://youpin.mi.com/app/shopv3/pipe'
        headers = {
            'Accept': '*/*',
            'Accept-Encoding': 'gzip, deflate, br',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            'Connection': 'keep-alive',
            'Content-Length': '145',
            'Content-Type': 'application/x-www-form-urlencoded',
            'Cookie': 'youpindistinct_id=1677376dd950-07a9ccd760a322-514b2f1f; UM_distinctid=1677376de97317-013da9709fcd2b-514b2f1f-1fa400-1677376de98e12; Hm_lvt_f60d40663f1e63b337d026672aca065b=1543830429; mjclient=PC; youpin_sessionid=16777d642ba-0b57d1ad5863d-1ee2; CNZZDATA1267968936=1240670798-1543827326-%7C1543899301; Hm_lpvt_f60d40663f1e63b337d026672aca065b=1543903790',
            'Host': 'youpin.mi.com',
            'Origin': 'https://youpin.mi.com',
            'Referer': 'https://youpin.mi.com/',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.15 Safari/537.36'
        }
        s.headers.update(headers)
        for i in range(len(cateList)):  ##一级分类目录商品
            data = {
                'data': '{"uClassList": {"model": "Homepage", "action": "BuildHome", "parameters": {"id": "' + str(
                    cateList[i]) + '"}}}'
            }
            req = s.post(url=url, data=data, verify=False).json()
            itemdata = req['result']['uClassList']['data']
            for j in itemdata:
                if 'content' in j:
                    content_name = j['content']['name']  ##二级分类
                    ucid = j['content']['ucid']  # 二级分类ID
                    for k in j['data']:
                        try:
                            gid = k['gid']  ##商品ID
                            name = k['name']  ##商品名称
                            summary = k['summary']  ##商品简介
                            pic_url = k['pic_url']  ##商品图片
                            ctime = timestamp_to_date(k['ctime'])  ##上架时间
                            utime = timestamp_to_date(k['utime'])  ##更新时间
                            price_min = int(k['price_min']) / 100  ##价格
                            itemurl = k['url']  ##商品链接
                            commentdata = self.get_comment(gid)
                            avg_score = commentdata[0]
                            positive_rate = commentdata[1]
                            count = commentdata[2]
                            comment = commentdata[3]
                            df_item.loc[x] = [cateList[i], catename[i], ucid, content_name, gid, name, summary, pic_url,
                                              ctime, utime, price_min, itemurl, avg_score, positive_rate, count,
                                              comment]
                            print(cateList[i], catename[i], ucid, content_name, gid, name, summary, pic_url, ctime,
                                  utime, price_min, itemurl, avg_score, positive_rate, count, comment)
                            x = x + 1
                        except:
                            print(j)

        df_item.to_csv('df_item.csv', index=False, encoding="GB18030")
        return df_item

    ##获取单个商品ID评论数及评论观点数据
    def get_comment(self, id):
        url = 'https://youpin.mi.com/app/shopv3/pipe'
        UserAgentlist = [
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0',
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36 OPR/56.0.3051.104',
            'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 UBrowser/6.2.4094.1 Safari/537.36',
            'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.79 Safari/537.36 Maxthon/5.2.5.4000',
            'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36 QIHU 360SE',
            'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0',
            'Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36',
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36',

        ]
        ran = random.randint(0, len(UserAgentlist) - 1)
        UserAgen = UserAgentlist[ran]
        headers = {
            'Accept': '*/*',
            'Accept-Encoding': 'gzip, deflate, br',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            'Connection': 'keep-alive',
            'Content-Length': '364',
            'Content-Type': 'application/x-www-form-urlencoded',
            'Host': 'youpin.mi.com',
            'Origin': 'https://youpin.mi.com',
            'Referer': 'https://youpin.mi.com/detail?gid={}'.format(str(id)),
            'User-Agent': UserAgen
        }
        postdata = {
            'data': '{"overView":{"model":"Product","action":"CommentIndexV2","parameters":{"gid":' + str(
                id) + '}},"list":{"model":"Product","action":"CommentListOnly","parameters":{"index_type":0,"gid":' + str(
                id) + ',"pindex":1,"psize":10,"tag_name":null}}}'
        }
        req = requests.post(url=url, data=postdata, headers=headers, verify=False).text
        js = json.loads(req)
        data = js['result']['overView']['data']
        comment = ''
        avg_score = '0'
        positive_rate = '0'
        count = '0'
        if data != []:
            avg_score = data['avg_score']  ##评分
            positive_rate = data['positive_rate']  ####好评率
            count = data['tags'][0]['count']  ##评论数
            for i in data['tags']:
                comment = str(comment) + str(i['name']) + '(' + str(i['count']) + ')'  ##评论观点
        commentdata = [avg_score, positive_rate, count, comment]
        print(commentdata)
        return commentdata


if __name__ == '__main__':
    xm = xm()
    xm.get_items_ID()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
阳光宅男xxb 2023-02-15 22:21
关注
可能写入文件的地方有问题，等我给你调试下：
错误原因是你的getComment方法没有请求到数据，提示'Model Product not exists action CommentIndexV2' ，应该是你的参数中的action的问题。应该是接口参数变了导致的。望采纳！！！

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

拿不出来后端返回数据 ajax vue.js 有问必答
2021-12-13 12:44

回答 5 已采纳圈出来的代码放到then回调里面，console.log打印对象，在控制台看到的值是最后赋值的内容，但是打印时record是没有内容的，就是ajax请求并没有返回，所以下面的的myChart.setO
爬虫爬到的新闻数据怎么让小程序展现出来？ python 后端爬虫
2022-03-27 23:50

回答 3 已采纳两种方案：实时抓取显示：由于你使用的是云开发技术，可以使用nodejs技术实现爬虫，直接将爬取的过程使用nodejs封装成一个云函数放上去运行，这样也可以省去后端服务器，我的一个菜谱小程序就是这样做
用axios模仿后端请求数据，数据渲染不出来 vue.js
2022-05-27 13:24

回答 1 已采纳 weekendList 变量为啥带双引号
Java后端真实面试题大全(有详细答案)--高频/真题
2021-11-24 19:00

IT利刃出鞘的博客本文分享Java后端真实高频面试题，有详细答案，保你稳过面试。题目包括：Java基础、多线程、JVM、数据库、Redis、Shiro、Spring、SpringBoot、MyBatis、MQ、ELK、SpringCloud、设计模式等。本博客包含从简单到困难...
Vue获取后端数据中某一项 vue.js 有问必答
2021-05-30 15:30

回答 4 已采纳你现在是需要将select里选中的值显示在input中是吗？你可以在getLine里面获取到选中的item，然后将item的name在函数内赋值给另一个变量BeLongs_name，然后再将BeL
python后端开发或爬虫怎么系统学习？ python 后端爬虫
2023-04-13 13:18

回答 1 已采纳爬虫严格来讲并不算一个大方向，更偏向于js逆向，python的话推荐走后端方向至于系统学习的话，推荐去blibili找一些路线，然后根据路线去找bilibili上播放量比较高的视频进行系统学习
如何在后端运行Python程序并返回结果 android flask python
2022-05-21 11:27

回答 1 已采纳直接用Python的flask框架写一个后端接口，然后APP调用这个接口就行了啊
震惊！2022 年秋招 Java 后端开发岗竟然一片红海！算法岗都不香了吗？
2021-07-13 11:07

沉默王二的博客据说，2022 年算法岗遇冷，BAT 暑期实习甚至收不到简历，Java 反而爆炸。难道，Java 的春天（映射 Spring 全家桶）又要来了吗？...这里的后，Java 后端敢称第二，没人敢称第一。为什么我敢这么肯定呢？从 4 个方面来说
后端向数据库更改update数据，用postman调试返回Okpacket，但是数据没存进去 node.js 后端
2022-03-25 21:05

回答 1 已采纳本人已解决！参考了其他开源项目之后，在接口的地方function加上async就解决了，具体什么原因再查查。解决方法： /* 修改个人信息*/ router.post('/changeMsg',as
vue怎么获取后端数据 java spring vue.js
2022-06-15 13:13

回答 3 已采纳 this.phone=resp.data.phone;this.codeType=resp.data.code;可以吗
后端返回指定格式数据 java
2022-04-07 18:28

回答 2 已采纳感谢各位的帮助，我这边的确是自己的问题，在做大量数据的拼接时，我是直接采用的字符串的拼接，这样的确很费时间，首先，string是引用类型，存放在堆内存中，有“不可变性”的特性（驻留池机制），但是在做字
后端学习（一）数据库
2022-02-12 15:08

iii_ooo的博客文章目录一、为什么需要数据库？二、关系型数据库三、数据库快速上手1.MySQL数据库结构2.MySQL数据库命令3.事务4.JDBC 一、为什么需要数据库？ 1、数据需要存储，如果存在文本文件内，读写困难，内存消耗大 2、需要...
前端往后端传输数据，后端数据接收 java 后端
2021-10-08 10:10

回答 2 已采纳两种方式：第一种：定义一个类,使用方式：@RequestBody RequestDTO dto。 @Data public class RequestDTO { private Li
vue 项目前端模拟后端接口数据（vue2,vue3）
2022-06-17 16:24

小刘先生很努力的博客项目中或者平常自己创建demo的过程中，往往需要后端配合，但是有时候没有后端，又需要数据，此时就展示了我们前端的强大之处，自己模拟后端接口数据。如果自定义一个模拟后端数据，首先创建一个文件夹放置后端数据...
从零开始创建一个Django后端项目
2022-08-12 21:17

喝水小魚的博客可以看到增加了fish3,12345_3一行数据 postman测试只能知道某个api是否有报错，当报错之后，不知道api中哪里出错了，可以debug运行，或者print大法，依据实际情况检查程序bug，相信大家在程序设计和数据结构课中已经...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月15日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月15日

悬赏问题

¥15 用stata实现聚类的代码
¥15 请问paddlehub能支持移动端开发吗？在Android studio上该如何部署？
¥170 如图所示配置eNSP
¥20 docker里部署springboot项目，访问不到扬声器
¥15 netty整合springboot之后自动重连失效
¥15 悬赏！微信开发者工具报错，求帮改
¥20 wireshark抓不到vlan
¥20 关于#stm32#的问题：需要指导自动酸碱滴定仪的原理图程序代码及仿真
¥20 设计一款异域新娘的视频相亲软件需要哪些技术支持
¥15 stata安慰剂检验作图但是真实值不出现在图上

可以运行出来数据，但是爬出来只有一行

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新