python数据采集与处理相关问题，根据注释写代码！

根据注释写代码

import requests
from lxml import etree
import time
import csv
import re

class Crawl(object):
    def __init__(self):
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36'
        }
        # 新建文件 data.csv 来储存数据。（1分）
        #TODO:
        self.f = open(, , , ,)

    row = "NAME,SCORE,VOTES,RELEASE_DATE,REGIONS,GENRES,PPROTAGONIST,PPROTAGONIST\n"
    self.f.write(row)
    self.page = 0

def parse(self, url):
    response = requests.get(url=url, headers=self.headers)
    parse_html = etree.HTML(response.text)

    # 判断页面是否有数据 （1分）
    #TODO:
    li_list = parse_html.xpath()


    if len(li_list):
        self.parse_next(parse_html)

        # 构建翻页url （1分）
        #TODO:
        self.page =
        url =
      
        time.sleep(1)
        self.parse(url)
    else:
        return

def parse_next(self,parse_html):
    # 解析页面，获取 Title，RatingNum，Number，Info1 （4分）
    #TODO:
    Title = parse_html.xpath()
    RatingNum = parse_html.xpath()
    Number = parse_html.xpath()
    Info1 = parse_html.xpath()
   
    Info = [x.strip() for x in Info1 if x.strip() != '']
    Infos1 = [Info[i] for i in range(0, len(Info), 2)]
    Infos2 = [Info[i] for i in range(1, len(Info)+1, 2)]

    for title,ratingNum, number, info1, info2 in zip(Title, RatingNum, Number, Infos1, Infos2):
        item = {}
        info_all = info2.strip().split('/')
        info_time, info_state = info_all[:2]
        info_type = info_all[-1]
        item['NAME'] = title
        
        # 处理item['SCORE']的数据 （1分）
        #TODO:
        item['SCORE'] = 

        item['VOTES'] = re.findall(r'(\d+)',number)[0]
        item['RELEASE_DATE'] = re.findall(r'(\d+)',info_time)[0]
        item['REGIONS'] = "".join(re.findall(r'([^\d()])',info_state)).strip()
        item['GENRES'] = info_type.strip()
        item['DIRECTOR'] = "".join(re.findall(r'导演:(.*)\xa0', info1)).strip()
        item['PPROTAGONIST'] = "".join(re.findall(r'主演:(.*)', info1))
        self.save_data(item)

def save_data(self, item):
    f = csv.writer(self.f)
    f.writerow(item.values())

def main(self):
    url = "https://movie.douban.com/top250?start={}&filter=".format(self.page)
    self.parse(url)
    self.f.close()
    print("\n=====数据采集完成=====")

if name == "main":
crawl = Crawl()
crawl.main()

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
m0_58995603 2021-08-12 22:55
关注
私聊

解决
无用 1
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Excel通过Python来处理（求代码！！！） python
2021-02-03 02:55

回答 13 已采纳数据发我看看，给我讲一下列名
Python数据分析与可视化实践 python 数据分析
2021-11-02 21:07

回答 1 已采纳 import numpy as np z＝np.ones((9，),dtype="int64") Z=z.reshape(3,3) Z[2][3]＝1 如果报错，可能我的是中文输入的。请改成英文。手
python串口采集传感器数据 python
2022-09-13 14:51

回答 1 已采纳 KeyboardInterrupt 搜了下，是ctrl+c才会触发，可以换其他的键盘监听的方法
基于Python的南京二手房数据采集及可视化分析代码+文档说明+数据集（高分大作）
2024-09-02 06:43

基于Python的南京二手房数据采集及可视化分析代码+文档说明+数据集，含有代码注释，新手也可看懂，个人手打98分项目，导师非常认可的高分项目，毕业设计、期末大作业和课程设计高分必看，下载下来，简单部署，就可以...
python数据处理出现问题 python 有问必答
2022-10-22 18:42

回答 4 已采纳 def boxLine(ser): if ser.count()<2:#只有一条返回空数组，要不下面的那句ser切片会返回空数组调用median返回nan return
Python数据处理小问题 python 有问必答
2022-03-02 14:46

回答 3 已采纳使用pandas中的pivot_table函数去解决： import pandas as pd df=pd.read_excel('t0302.xlsx') dfr=pd.pivot_table(va
python写好代码保存后怎么找到自己写的代码 python
2022-09-25 12:28

回答 2 已采纳保存的代码就在文件abc.py里面呀，打开这个文件就看到了
深度学习作业-基于pytorch框架python实现手写数字识别完整源码+代码注释+文档说明
2024-09-13 17:52

深度学习作业-基于pytorch框架python实现手写数字识别完整源码+代码注释+文档说明，需求说明：系统设计：构建一个高效、准确的CNN手写数字识别系统。高识别率：优化网络结构，提高识别率。界面设计：设计友好...
Python注释问题 python 学习方法
2023-04-18 11:31

回答 2 已采纳在文件的第一行添加： -- coding:utf-8 -- 试试看，可能是因为编码的问题。毕竟你输入了中文。
Python代码注释 python 有问必答
2022-02-16 10:37

回答 3 已采纳题目有问题吧？应该是40。。40，x=10,y=2,n=21022
Python注释删除代码依然报错 python 有问必答
2021-10-28 13:39

回答 3 已采纳 import numpy as np import pandas as pd x=pd.DataFrame([np.random.randint(1,10,4)for i in range(3)]
基于Python的南京二手房数据采集及可视化分析代码+文档说明（高分）
2024-09-02 06:47

基于Python的南京二手房数据采集及可视化分析代码+文档说明（高分），含有代码注释，新手也可看懂，个人手打98分项目，导师非常认可的高分项目，毕业设计、期末大作业和课程设计高分必看，下载下来，简单部署，就...
python数据分析问题求解答 python 数据分析
2021-11-18 22:50

回答 1 已采纳 import matplotlib.pyplot as plt import numpy as np plt.rcParams['font.sans-serif']=['Simhei'] x = np
基于Python的南京二手房数据采集及可视化分析源代码+文档说明+数据集
2024-09-14 20:56

基于Python的南京二手房数据采集及可视化分析+源代码+文档说明+数据集，含有代码注释，新手也可看懂。毕业设计、期末大作业、课程设计、高分必看，下载下来，简单部署，就可以使用。该项目可以作为毕设、课程设计...
基于Python深度学习人脸识别系统设计与实现毕业设计代码+文档说明
2024-09-13 15:55

基于Python深度学习人脸识别系统设计与实现毕业设计代码+文档说明，含有代码注释，新手也可看懂。毕业设计、期末大作业、课程设计、高分必看，下载下来，简单部署，就可以使用。该项目可以作为毕设、课程设计期末大...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 8月12日

悬赏问题

¥15 TeleScan不能修改bar
¥100 请问我基于逐飞库写的这个有关于mp u6050传感器的函数，为什么输出的值是固定的？
¥15 hadoop中启动hive报错如下怎么解决
¥15 如何优化QWebEngineView 加载url的速度
¥15 关于#hadoop#的问题，请各位专家解答！
¥15 如何批量抓取网站信息
¥15 Spring Boot离线人脸识别
¥15 使用Ant Design Pro vue的时候，使用环境变量的时候，构建报错是什么原因
¥15 NRF24L01能发送但是不能接收
¥15 想问一下这种情况怎么解决呢(关键词-file)

python数据采集与处理相关问题，根据注释写代码！

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新