抓取一个电影网站多个网页的剧名，主演，年份，现在怎么改才能运行出来

题主要的xpath采集代码如下
import requests
from lxml import etree

from openpyxl import Workbook

wb=Workbook()

ws=wb.active

ws.append(["电影名称","电影分类","所属国家","年份"])

准备url和headers

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"}
url="https://www.kkdsa.com/vodtype/6.html%22
response=requests.get(url=url,headers=headers)

使用etree.HTML()将字符串转换成HTML对象

html=etree.HTML(response.text)

print(html)

div_list=html.xpath('//div[@class="cards video-list"]/div')

print(len(div_list))

for div in div_list:
# 获取剧名
name=div.xpath('.//div[@class="card-heading text-ellipsis"]4/a/text()')[0]
# 电影分类
classify=div.xpath('.//div[@clas="card-content text-ellipsis text-muted"]//a/text()')[0]

print(name,classify)

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN专家-showbo 2021-12-09 20:48

关注

这样？

import requests
from lxml import etree
from openpyxl import Workbook
wb=Workbook()
ws=wb.active
ws.append(["电影名称","电影分类","所属国家","年份"])
#准备url和headers
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"}

tmpurl="https://www.kkdsa.com/vodtype/6-{}.html"#分页url模板

for i in range(1,2):#############################采集多个分页修改这里的2
    url=tmpurl.format(i)
    response=requests.get(url=url,headers=headers)
    html=etree.HTML(response.text)
    div_list=html.xpath('//div[@class="cards video-list"]/div')
    for div in div_list:
        # 获取剧名
        name=div.xpath('.//div[@class="card-heading text-ellipsis"]/strong/a/text()')[0]
        
        # 分类 国家 年份
        arr=''.join(div.xpath('.//div[@class="card-content text-ellipsis text-muted"]//text()')).split('/')
        classify=arr[0]
        country=arr[1]
        year=arr[2]
        print(name,classify,country,year)
        ws.append([name,classify,country,year])
wb.save("韩剧.xlsx")