2条回答 默认 最新
- CSDN专家-showbo 2021-12-09 16:32关注
题主要的xpath采集代码如下
import requests from lxml import etree from openpyxl import Workbook wb=Workbook() ws=wb.active ws.append(["韩剧名","主演","更新状态"]) #准备url和headers headers={ "User-agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Mobile Safari/537.36" } url ="https://www.hjutv.cn/show_2___________.html" response = requests.get(url=url,headers=headers) # 使用etree.HTML()将字符串转换成HTML对象 html = etree.HTML(response.text) # print(html) #获取ul标签下所有的li li_list = html.xpath('//ul[@class="vodlist vodlist_wi author*qq3626/95/000 clearfix"]/li') for li in li_list: # 获取剧名 name = li.xpath('.//p[@class="vodlist_title"]/a/text()')[0] # 获取演员 actor = li.xpath('.//p[@class="vodlist_sub"]/a/text()') if len(actor)==0:#没有演员信息,默认个值 actor="--" else: actor=actor[0] # 获取更新状态 updatestatus=li.xpath('.//span[@class="pic_text text_right"]/text()')[0] print(name,actor,updatestatus) ws.append([name,actor,updatestatus]) wb.save("韩剧.xlsx")
有帮助麻烦点下【采纳该答案】,谢谢~~本回答被题主选为最佳回答 , 对您是否有帮助呢?解决 无用评论 打赏 举报 编辑记录
悬赏问题
- ¥20 MIT控制器能控制不稳定系统吗
- ¥15 公司代码X对业务伙伴X无效,处理方法?
- ¥15 微信内链接跳转到浏览器打开怎么实现
- ¥15 三角波可以直接加施密特电路整形到矩形波吗实物
- ¥15 html,php,在使用html请求php文件时发生了错误,无法请求到php文件读取数据库并用javascript进行数据显示,刷新
- ¥15 touchsocket udp组播
- ¥20 MAC怎么安装Silverlight 插件?以及安装了怎么启用
- ¥15 VS2012中查询语句无法填入解析,数值传不进去
- ¥15 gis系统开发出现命名空间“ESRI.ArcGIS”中不存在类型或命名空间名“Analyst3D”报错
- ¥15 怎么让ai定时给我发信息 c#或者python