sksksjsssjsnsn 2022-08-08 12:11 采纳率: 22.2%
浏览 143
已结题

运用xpath进行,每次都只能运行出来一个数据

目标网站http://www.piaofang.biz/
爬取页面所有电影名及票房
保存csv
import requests
from lxml import etree
import csv
url = 'http://www.piaofang.biz/'
headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36'}
response = requests.get(url, headers=headers)
response.encoding = 'gb2312'
data = response.text
html = etree.HTML(data)
div_tag = html.xpath('//div[@class="zhuti"]')
lst = []
for div in div_tag:
dic = {}
title = div.xpath('.//td[@class="title"]/a/text()')
piaofang = div.xpath('.//td[@class="piaofang"]/span/text()')
dic['title'] = title[0]
dic['piaofang'] = piaofang[0]
print(dic)
lst.append(dic)

  • 写回答

2条回答 默认 最新

  • qfcy_ 2022-08-08 12:45
    关注

    原因是列表div_tag只有一项, 而变量title, piaofang有很多项。
    改成这样:

    import requests
    from lxml import etree
    import csv
    url = 'http://www.piaofang.biz/'
    headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36'}
    response = requests.get(url, headers=headers)
    response.encoding = 'gb2312'
    data = response.text
    html = etree.HTML(data)
    div_tag = html.xpath('//div[@class="zhuti"]')
    div=div_tag[0] # div_tag只有一项
    lst = []
    dic = {}
    title = div.xpath('.//td[@class="title"]/a/text()')
    piaofang = div.xpath('.//td[@class="piaofang"]/span/text()')
    for t,p in zip(title,piaofang): # zip()作用是同时遍历两个列表
        dic['title'] = t
        dic['piaofang'] = p
        lst.append(dic)
        print(dic)
    

    如果有帮助, 点个「采纳」按钮不谢

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 8月16日
  • 已采纳回答 8月8日
  • 创建了问题 8月8日

悬赏问题

  • ¥60 许可证msc licensing软件报错显示已有相同版本软件,但是下一步显示无法读取日志目录。
  • ¥15 Attention is all you need 的代码运行
  • ¥15 一个服务器已经有一个系统了如果用usb再装一个系统,原来的系统会被覆盖掉吗
  • ¥15 使用esm_msa1_t12_100M_UR50S蛋白质语言模型进行零样本预测时,终端显示出了sequence handled的进度条,但是并不出结果就自动终止回到命令提示行了是怎么回事:
  • ¥15 前置放大电路与功率放大电路相连放大倍数出现问题
  • ¥30 关于<main>标签页面跳转的问题
  • ¥80 部署运行web自动化项目
  • ¥15 腾讯云如何建立同一个项目中物模型之间的联系
  • ¥30 VMware 云桌面水印如何添加
  • ¥15 用ns3仿真出5G核心网网元