目标网站http://www.piaofang.biz/
爬取页面所有电影名及票房
保存csv
import requests
from lxml import etree
import csv
url = 'http://www.piaofang.biz/'
headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36'}
response = requests.get(url, headers=headers)
response.encoding = 'gb2312'
data = response.text
html = etree.HTML(data)
div_tag = html.xpath('//div[@class="zhuti"]')
lst = []
for div in div_tag:
dic = {}
title = div.xpath('.//td[@class="title"]/a/text()')
piaofang = div.xpath('.//td[@class="piaofang"]/span/text()')
dic['title'] = title[0]
dic['piaofang'] = piaofang[0]
print(dic)
lst.append(dic)
运用xpath进行,每次都只能运行出来一个数据
- 写回答
- 好问题 0 提建议
- 追加酬金
- 关注问题
- 邀请回答
-
2条回答 默认 最新
- qfcy_ 2022-08-08 12:45关注
原因是列表
div_tag
只有一项, 而变量title
,piaofang
有很多项。
改成这样:import requests from lxml import etree import csv url = 'http://www.piaofang.biz/' headers = {'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Mobile Safari/537.36'} response = requests.get(url, headers=headers) response.encoding = 'gb2312' data = response.text html = etree.HTML(data) div_tag = html.xpath('//div[@class="zhuti"]') div=div_tag[0] # div_tag只有一项 lst = [] dic = {} title = div.xpath('.//td[@class="title"]/a/text()') piaofang = div.xpath('.//td[@class="piaofang"]/span/text()') for t,p in zip(title,piaofang): # zip()作用是同时遍历两个列表 dic['title'] = t dic['piaofang'] = p lst.append(dic) print(dic)
如果有帮助, 点个「采纳」按钮不谢
本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 3无用
悬赏问题
- ¥15 PointNet++的onnx模型只能使用一次
- ¥20 西南科技大学数字信号处理
- ¥15 有两个非常“自以为是”烦人的问题急期待大家解决!
- ¥30 STM32 INMP441无法读取数据
- ¥15 R语言绘制密度图,一个密度曲线内fill不同颜色如何实现
- ¥100 求汇川机器人IRCB300控制器和示教器同版本升级固件文件升级包
- ¥15 用visualstudio2022创建vue项目后无法启动
- ¥15 x趋于0时tanx-sinx极限可以拆开算吗
- ¥500 把面具戴到人脸上,请大家贡献智慧,别用大模型回答,大模型的答案没啥用
- ¥15 任意一个散点图自己下载其js脚本文件并做成独立的案例页面,不要作在线的,要离线状态。