m0_59993338 2021-12-09 15:43 采纳率: 100%
浏览 112
已结题

抓取一个韩剧网站多个网页的剧名,演员,更新状态,现在怎么改才能运行出来

img

  • 写回答

2条回答 默认 最新

  • CSDN专家-showbo 2021-12-09 16:32
    关注

    题主要的xpath采集代码如下

    img

    import requests
    from lxml import etree
    from openpyxl import Workbook
    
    wb=Workbook()
    ws=wb.active
    ws.append(["韩剧名","主演","更新状态"])
    #准备url和headers
    headers={
      "User-agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Mobile Safari/537.36"
    }
    url ="https://www.hjutv.cn/show_2___________.html"
    response = requests.get(url=url,headers=headers)
    # 使用etree.HTML()将字符串转换成HTML对象     
    html = etree.HTML(response.text)        
    # print(html)
    #获取ul标签下所有的li
    li_list = html.xpath('//ul[@class="vodlist vodlist_wi author*qq3626/95/000 clearfix"]/li')
    for li in li_list: 
        # 获取剧名
        name = li.xpath('.//p[@class="vodlist_title"]/a/text()')[0]
        # 获取演员
        actor = li.xpath('.//p[@class="vodlist_sub"]/a/text()')
        if len(actor)==0:#没有演员信息,默认个值
            actor="--"
        else:
            actor=actor[0]
        # 获取更新状态
        updatestatus=li.xpath('.//span[@class="pic_text text_right"]/text()')[0]
        print(name,actor,updatestatus)
        ws.append([name,actor,updatestatus])
    wb.save("韩剧.xlsx")
    
    

    img


    有帮助麻烦点下【采纳该答案】,谢谢~~

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录
查看更多回答(1条)

报告相同问题?

问题事件

  • 系统已结题 12月17日
  • 已采纳回答 12月9日
  • 修改了问题 12月9日
  • 创建了问题 12月9日

悬赏问题

  • ¥20 MIT控制器能控制不稳定系统吗
  • ¥15 公司代码X对业务伙伴X无效,处理方法?
  • ¥15 微信内链接跳转到浏览器打开怎么实现
  • ¥15 三角波可以直接加施密特电路整形到矩形波吗实物
  • ¥15 html,php,在使用html请求php文件时发生了错误,无法请求到php文件读取数据库并用javascript进行数据显示,刷新
  • ¥15 touchsocket udp组播
  • ¥20 MAC怎么安装Silverlight 插件?以及安装了怎么启用
  • ¥15 VS2012中查询语句无法填入解析,数值传不进去
  • ¥15 gis系统开发出现命名空间“ESRI.ArcGIS”中不存在类型或命名空间名“Analyst3D”报错
  • ¥15 怎么让ai定时给我发信息 c#或者python