抓取韩剧网站多个网页的韩剧详情页链接，图片，现在怎么改才能运行出来

import requests
from lxml import etree
from openpyxl import Workbook
wb = Workbook()#实例化工作表
ws = wb.active#激活工作表
ws.append(["剧名","演员","更新状态","详情页链接"]) # 添加表头
#准备url和headers
headers={
  "User-agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Mobile Safari/537.36"
}
all_url ="https://www.hjutv.cn/show_2________{}___.html"
base_url="https://www.hjutv.cn/type_2_.html"   #base_url="https://www.hjutv.cn/"
for i in range(1,28):
    url = all_url.format(i)
    response = requests.get(url=url, headers=headers)
    html =etree.HTML (response.text)
    li_list = html.xpath('//ul[@class="vodlist vodlist_wi author*qq3626/95/000 clearfix"]/li')
    print(len(li_list))
    for li in li_list:
         # 1.获取剧名
         name = li.xpath('.//p[@class="vodlist_title"]/a/text()')[0]
         # 2.获取演员
         actor = li.xpath('.//p[@class="vodlist_sub"]//a/text()')

         if len(actor)==0:
            actor="--"
         else:
            actor=','.join(actor)
         # 3.获取更新状态
         updatestatus=li.xpath('.//span[@class="pic_text text_right"]/text()')[0]
         # 4.获取详情页链接
         detaillink=li.xpath('.//li[@class="vodlist_item num_1"]/a/@href')[0]
         href=base_url+detaillink

         print(name,actor,updatestatus,href)

#          ws.append([name,actor,updatestatus])
# wb.save("韩剧数据表.xlsx")

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

CSDN专家-HGJ 2021-12-10 20:09

关注

请求的headers和url都要写正确，添加referer，请求头改为 "user-agent"，原代码中detaillink的xpath不正确，多页请求时添加延时。测试代码如下，可获取数据。

import requests
from lxml import etree
from openpyxl import Workbook
import time
wb = Workbook()#实例化工作表
ws = wb.active#激活工作表
ws.append(["剧名","演员","更新状态","详情页链接"]) # 添加表头
#准备url和headers
headers={
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.55 Safari/537.36 Edg/96.0.1054.43",'referer': 'https://www.hjutv.cn/show_2___________.html', 
}
all_url = "https://www.hjutv.cn/show_2________{}___.html"
base_url="https://www.hjutv.cn/"
for i in range(1,3):
        url = all_url.format(i)
        response = requests.get(url=url, headers=headers)
        html =etree.HTML (response.text)        
        li_list = html.xpath(
            '//ul[@class="vodlist vodlist_wi author*qq3626/95/000 clearfix"]/li')
        #//*[@id="show_page"]/div[2]/div/div[2]/ul[1]/li[1]
        print(len(li_list))
        for li in li_list:
                # 1.获取剧名
                name = li.xpath('.//p[@class="vodlist_title"]/a/text()')[0]
                # 2.获取演员
                actor = li.xpath('.//p[@class="vodlist_sub"]//a/text()')

                if len(actor)==0:
                        actor="--"
                else:
                        actor=','.join(actor)
                # 3.获取更新状态
                updatestatus=li.xpath('.//span[@class="pic_text text_right"]/text()')[0]
                # 4.获取详情页链接
                detaillink=li.xpath('.//a/@href')[0]
                href=base_url+detaillink
                
                print(name,actor,updatestatus,href)
                
                ws.append([name,actor,updatestatus,href])
        time.sleep(1)
wb.save("韩剧数据表.xlsx")

如有帮助，请点采纳。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(1条)

报告相同问题？

关注问题

python爬取ts分段视频，以韩剧TV网站为例
2024-12-03 20:01

重剑无锋1024的博客这是一个python爬取不能下载的视频，.ts的例子。因为自己学了一下爬虫，然后又想试一下如何爬取视频，就自己再找了博客，加上自己的编程，实现了这个案例，后续将会继续学习，更新更多的爬虫知识，欢迎关注。
python使用requests库获取网页的内容
2022-05-10 10:10

MM不要山的博客第一步导入requests库，使用它访问网页获取到源代码内容如下: import requests r = requests.get('https://www.k374.com/index.php') print(r.text) 运行后获取到内容如下： <!DOCTYPE html> <html>...
为什么Python会成为零基础小白的最好选择？_python为什么适合零基础小白
2024-05-06 18:32

2401_84538135的博客如果对Python感兴趣的话，可以试试我的学习方法以及相关的学习资料CSDN大礼包：《python学习路线&全套学习资料》免费分享。
Python爬虫：爬去韩国电视剧信息
2019-03-21 16:45

影雀的博客最近看韩剧想重温一下以前看的韩剧但是就记得剧情到网站上找了太多点的太麻烦，网上问了也回答不了找的几个片名都不对，所以就想写个爬虫爬去某站上所有的韩剧信息，可以方便查找想看的韩剧爬取具体如下： #...
基于京东家电数据分析与价格预测研究【爬虫、Pyecharts、Flask、机器学习】《商品可换》
2024-08-05 15:08

王小王-123的博客 PyECharts作为Python的ECharts可视化库，以其丰富的图表类型和灵活配置成为数据分析利器。本项目首先通过爬虫从京东平台获取家电产品数据，包括品牌、评论、价格等信息。采用模拟登录技术确保数据全面性。经过数据...
python爬虫豆瓣电影按电影类型,豆瓣电影---按分类爬取
2021-04-27 09:19

刘成城的博客由于我偏爱剧情类电影，因此我用Python爬虫来爬取剧情类型的电影。一、单个页面分析及爬取1、页面分析首先选择想要看的分类，如下图所示：通过chrome的“检查”观察发现真实的URL为...
python协程怎么做数据同步_Python 中的进程、线程、协程、同步、异步、回调
2020-11-27 23:04

weixin_40008135的博客进程和线程究竟是什么东西？传统网络服务模型是如何工作的？...通常我们会用调用栈来表示这个状态——栈记载了每个调用层级执行到哪里，还有执行时的环境情况等所有有关的信息。当我们说“上下文切换”的时候，表达...
python线程进程协程面试_Python 中的进程、线程、协程、同步、异步、回调
2020-12-10 09:45

weixin_39989980的博客在刚刚结束的 PyCon2014 上海站，来自七牛云存储的 Python 高级工程师许智翔带来了关于 Python 的分享《Python中的进程、线程、协程、同步、异步、回调》。一、上下文切换技术简述在进一步之前，让我们先回顾一下...
python高级爬虫笔记(3)
2020-02-05 18:55

Acher_zxj的博客根据笔者以往的爬虫经验，大部分的爬虫是在静态网页上完成的，爬虫所要做的只不过是提交请求，然后分析返回的页面即可。当然，api本质上也可以作为静态页面来处理。这意味着只要掌握requests就可以完成60%-80%的爬虫...
Python分析《我们与恶的距离》豆瓣剧评
2021-03-14 00:31

小斌哥ge的博客 Python分析《我们与恶的距离》豆瓣剧评
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 12月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 12月10日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 12月10日
展开全部

抓取韩剧网站多个网页的韩剧详情页链接，图片，现在怎么改才能运行出来

2条回答 默认 最新

问题事件

2条回答默认最新