m0_59859095 2021-12-08 22:01 采纳率: 100%
浏览 73
已结题

想爬多个网页,出不来结果

import requests,re
from openpyxl import Workbook
wb=Workbook()
ws =wb.active
ws.append(["韩剧名","主演"])
headers = {
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36"
}
page_url="https://www.hjutv.cn/show_2________{}___.html"
detail_url="https://www.hjutv.cn/{}.html"
response =requests.get(url=page_url,headers=headers)
for i in range(1,28):
    url = page_url.format(i)
    response = requests.get(url=url, headers=headers)
    html = response.text  
    tvplay_pattern = re.compile(r'<li class="vodlist_item .*?">(.*?)</li>',re.S)
    tvplay_list = tvplay_pattern .findall(html)
    print(len(tvplay_list))
   # 匹配剧名
name_pattern =re.compile(r'<p class="vodlist_title"><a .*?>(.*?)</a></p>',re.S)
   # 匹配演员名
actor_name_pattern =re.compile(r'<p class="vodlist_sub"><a .*?>(.*?)</a></p>',re.S)
        for tvplay in tvplay_list:
        name = name_pattern.findall(tvplay)[0]
        actor_name=actor_name_pattern.findall(tvplay)[0]
        print(name,actor_name)
        ws.append([name,actor_name])
wb.save("./data/韩剧.xlsx")
该怎么写
  • 写回答

1条回答 默认 最新

  • CSDN专家-showbo 2021-12-08 22:07
    关注

    代码重新编辑,用</>格式化下,要不内容不全

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 12月16日
  • 已采纳回答 12月8日
  • 修改了问题 12月8日
  • 修改了问题 12月8日
  • 展开全部

悬赏问题

  • ¥20 关于游戏c++语言代码问题
  • ¥15 如何制作永久二维码,最好是微信也可以扫开的。(相关搜索:管理系统)
  • ¥15 delphi indy cookie 有效期
  • ¥15 labelme打不开怎么办
  • ¥35 按照图片上的两个任务要求,用keil5写出运行代码,并在proteus上仿真成功,🙏
  • ¥15 免费的电脑视频剪辑类软件如何盈利
  • ¥30 MPI读入tif文件并将文件路径分配给各进程时遇到问题
  • ¥15 pycharm中导入模块出错
  • ¥20 Ros2 moveit2 Windows环境配置,有偿,价格可商议。
  • ¥15 有关“完美的代价”问题的代码漏洞