海蓝色。 2021-12-09 19:00 采纳率: 89.7%
浏览 52
已结题

抓取一个电影网站多个网页的剧名,主演,年份,现在怎么改才能运行出来

题主要的xpath采集代码如下
import requests
from lxml import etree

from openpyxl import Workbook

wb=Workbook()

ws=wb.active

ws.append(["电影名称","电影分类","所属国家","年份"])

准备url和headers

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"}
url="https://www.kkdsa.com/vodtype/6.html%22
response=requests.get(url=url,headers=headers)

使用etree.HTML()将字符串转换成HTML对象

html=etree.HTML(response.text)

print(html)

div_list=html.xpath('//div[@class="cards video-list"]/div')

print(len(div_list))

for div in div_list:
# 获取剧名
name=div.xpath('.//div[@class="card-heading text-ellipsis"]4/a/text()')[0]
# 电影分类
classify=div.xpath('.//div[@clas="card-content text-ellipsis text-muted"]//a/text()')[0]

print(name,classify)
  • 写回答

2条回答 默认 最新

  • CSDN专家-showbo 2021-12-09 20:48
    关注

    这样?

    img

    import requests
    from lxml import etree
    from openpyxl import Workbook
    wb=Workbook()
    ws=wb.active
    ws.append(["电影名称","电影分类","所属国家","年份"])
    #准备url和headers
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"}
    
    tmpurl="https://www.kkdsa.com/vodtype/6-{}.html"#分页url模板
    
    for i in range(1,2):#############################采集多个分页修改这里的2
        url=tmpurl.format(i)
        response=requests.get(url=url,headers=headers)
        html=etree.HTML(response.text)
        div_list=html.xpath('//div[@class="cards video-list"]/div')
        for div in div_list:
            # 获取剧名
            name=div.xpath('.//div[@class="card-heading text-ellipsis"]/strong/a/text()')[0]
            
            # 分类 国家 年份
            arr=''.join(div.xpath('.//div[@class="card-content text-ellipsis text-muted"]//text()')).split('/')
            classify=arr[0]
            country=arr[1]
            year=arr[2]
            print(name,classify,country,year)
            ws.append([name,classify,country,year])
    wb.save("韩剧.xlsx")
    
    

    有帮助麻烦点下【采纳该答案】,谢谢~~

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(1条)

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 12月11日
  • 已采纳回答 12月9日
  • 创建了问题 12月9日

悬赏问题

  • ¥120 计算机网络的新校区组网设计
  • ¥20 完全没有学习过GAN,看了CSDN的一篇文章,里面有代码但是完全不知道如何操作
  • ¥15 使用ue5插件narrative时如何切换关卡也保存叙事任务记录
  • ¥20 海浪数据 南海地区海况数据,波浪数据
  • ¥20 软件测试决策法疑问求解答
  • ¥15 win11 23H2删除推荐的项目,支持注册表等
  • ¥15 matlab 用yalmip搭建模型,cplex求解,线性化处理的方法
  • ¥15 qt6.6.3 基于百度云的语音识别 不会改
  • ¥15 关于#目标检测#的问题:大概就是类似后台自动检测某下架商品的库存,在他监测到该商品上架并且可以购买的瞬间点击立即购买下单
  • ¥15 神经网络怎么把隐含层变量融合到损失函数中?