qq_40866353 2021-06-08 18:01 采纳率: 100%
浏览 81
已采纳

爬取豆瓣电影top250最后只保留了一行数据,代码没出错

import requests

from lxml import etree

import time

for a in range(10):

 

    url= "https://movie.douban.com/top250?start={}&filter=".format(a*25)

headers = {

'User-Agent':

    'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3870.400 QQBrowser/10.8.4405.400'

 

}

response= requests.get(url,headers=headers).text

#print(response.text)

#第二步,通过Xpath来获得有效信息

html= etree.HTML(response)

 

lis = html.xpath('/html/body/div[3]/div[1]/div/div[1]/ol/li')

for li in lis :

    title = li.xpath("./div/div[2]/div[1]/a/span[1]/text()")[0]

    rating_num = li.xpath("./div/div[2]/div[2]/div/span[2]/text()")[0]

    pj= li.xpath("./div/div[2]/div[2]/div/span[4]/text()")[0]

    href = li.xpath("./div/div[2]/div[1]/a/@href")[0]

    #print(title,rating_num,pj,href)

    time.sleep(0.5)

#保存数据

with open(r"书单",'a+',encoding="utf-8")as f:

    f.write("{},{},{},{}".format(title,rating_num,pj

,href))

    f.write("\n")

  • 写回答

3条回答 默认 最新

  • CSDN专家-HGJ 2021-06-08 18:42
    关注

    #保存数据

    with open(r"书单",'a+',encoding="utf-8")as f:

        f.write("{},{},{},{}".format(title,rating_num,pj,href))

        f.write("\n")

    这段代码不要写在在循环外,要缩进到for li in lis的循环里。

     

    如有帮助请点击采纳。

     

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

悬赏问题

  • ¥15 metadata提取的PDF元数据,如何转换为一个Excel
  • ¥15 关于arduino编程toCharArray()函数的使用
  • ¥100 vc++混合CEF采用CLR方式编译报错
  • ¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误,如何解决?
  • ¥15 vite+vue3+plyr播放本地public文件夹下视频无法加载
  • ¥15 c#逐行读取txt文本,但是每一行里面数据之间空格数量不同
  • ¥50 如何openEuler 22.03上安装配置drbd
  • ¥20 ING91680C BLE5.3 芯片怎么实现串口收发数据
  • ¥15 无线连接树莓派,无法执行update,如何解决?(相关搜索:软件下载)
  • ¥15 Windows11, backspace, enter, space键失灵