海蓝色。 2021-12-10 14:42 采纳率: 89.7%
浏览 101
已结题

抓取一个电影网站图片,图片链接没有规律,该怎么改才能运行

image_url = html.xpath('//div[@class="media-wrapper"]/a/img/@data-original')
# # print(div_image)
# for j in image_url:
# response1 = requests.get(img_url1,headers=headers)
#
# # with open("./data/{}-{}.jpg".format(name_list, j), "wb") as f:
# # f.write(response1.content)

  • 写回答

1条回答 默认 最新

  • CSDN专家-showbo 2021-12-10 15:09
    关注

    不知道是不是题主要的,下载图片的代码题主自加下

    img

    import requests
    from lxml import etree
    from openpyxl import Workbook
    wb=Workbook()
    ws=wb.active
    ws.append(["电影名称","电影分类","所属国家","年份","导演","演员","封面图片"])
    #准备url和headers
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0"}
    
    tmpurl="https://www.kkdsa.com/vodtype/6-{}.html"#分页url模板
    
    for i in range(1,2):#############################采集多个分页修改这里的2
        url=tmpurl.format(i)
        response=requests.get(url=url,headers=headers)
        html=etree.HTML(response.text)
        div_list=html.xpath('//div[@class="cards video-list"]/div')
        for div in div_list:
            name=div.xpath('.//div[@class="card-heading text-ellipsis"]/strong/a/text()')[0]# 剧名
            director=','.join(div.xpath('.//div[@class="caption"]/p[1]/a/text()'))# 导演
            actor =','.join(div.xpath('.//div[@class="caption"]/p[2]/a/text()'))# 演员
            img=div.xpath('.//img[@class="lazy"]/@data-original')[0]
           
            # 分类 国家 年份
            arr=''.join(div.xpath('.//div[@class="card-content text-ellipsis text-muted"]//text()')).split('/')
            classify=arr[0]#分类
            country=arr[1]#国家
            year=arr[2]#年份
            print(name,classify,country,year,director,actor,img)
            ws.append([name,classify,country,year,director,actor,img])
        
    wb.save("天堂电影网.xlsx")
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论 编辑记录

报告相同问题?

问题事件

  • 已结题 (查看结题原因) 12月11日
  • 已采纳回答 12月10日
  • 创建了问题 12月10日

悬赏问题

  • ¥15 wegame打不开英雄联盟
  • ¥15 公司的电脑,win10系统自带远程协助,访问家里个人电脑,提示出现内部错误,各种常规的设置都已经尝试,感觉公司对此功能进行了限制(我们是集团公司)
  • ¥15 救!ENVI5.6深度学习初始化模型报错怎么办?
  • ¥30 eclipse开启服务后,网页无法打开
  • ¥30 雷达辐射源信号参考模型
  • ¥15 html+css+js如何实现这样子的效果?
  • ¥15 STM32单片机自主设计
  • ¥15 如何在node.js中或者java中给wav格式的音频编码成sil格式呢
  • ¥15 不小心不正规的开发公司导致不给我们y码,
  • ¥15 我的代码无法在vc++中运行呀,错误很多