小沐白 2022-12-23 16:10 采纳率: 53.8%
浏览 21

请问python如何在以下网站中自动爬取规定日期范围内带有关键字的公告?

问题遇到的现象和发生背景

Python 网站爬虫

请问怎样在以下网站中自动爬取规定日期范围内【发行结果】版块下面 的带有"发行结果,发行情况" 关键字的公告文件,并将文件名称以超链接的格式复制粘贴到excel中 (并在excel中包含自动去重功能)? 感谢

网站链接:https://www.chinabond.com.cn/Channel/21000

遇到的现象和发生背景,请写出第一个错误信息
用代码块功能插入代码,请勿粘贴截图。 不用代码块回答率下降 50%
运行结果及详细报错内容
我的解答思路和尝试过的方法,不写自己思路的,回答率下降 60%
我想要达到的结果,如果你需要快速回答,请尝试 “付费悬赏”
  • 写回答

1条回答 默认 最新

  • 专注算法的马里奥学长 人工智能领域新星创作者 2022-12-23 21:15
    关注
    
    import requests
    #获取网站的 HTML 内容
    url = "https://www.chinabond.com.cn/Channel/21000"
    response = requests.get(url)
    html = response.text
    #使用 Beautiful Soup 解析 HTML 内容
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(html, "html.parser")
    links = soup.find_all("a", string=re.compile("发行结果|发行情况"))
    #保存
    from openpyxl import Workbook
    workbook = Workbook()
    sheet = workbook.active
    # 在第 1 列中插入文件名称
    for i, link in enumerate(links):
        sheet.cell(row=i+1, column=1).value = link.text
        sheet.cell(row=i+1, column=1).hyperlink = link["href"]
    workbook.save(地址)
    
    评论

报告相同问题?

问题事件

  • 创建了问题 12月23日

悬赏问题

  • ¥15 poi合并多个word成一个新word,原word中横版没了.
  • ¥15 【火车头采集器】搜狐娱乐这种列表页网址,怎么采集?
  • ¥15 求MCSCANX 帮助
  • ¥15 机器学习训练相关模型
  • ¥15 Todesk 远程写代码 anaconda jupyter python3
  • ¥15 我的R语言提示去除连锁不平衡时clump_data报错,图片以下所示,卡了好几天了,苦恼不知道如何解决,有人帮我看看怎么解决吗?
  • ¥15 在获取boss直聘的聊天的时候只能获取到前40条聊天数据
  • ¥20 关于URL获取的参数,无法执行二选一查询
  • ¥15 液位控制,当液位超过高限时常开触点59闭合,直到液位低于低限时,断开
  • ¥15 marlin编译错误,如何解决?