宋国卿 2023-04-13 10:12 采纳率: 78.6%
浏览 15
已结题

用python 获取网站内的所有页面内的所有 连接(包括分页在内)

用python 获取网站内的所有页面内的所有 连接(包括分页在内)

  • 写回答

1条回答 默认 最新

  • threenewbee 2023-04-13 10:20
    关注
    import requests
    from bs4 import BeautifulSoup
    
    def gl(url):
        l = []
        r = requests.get(url)
        s = BeautifulSoup(r.content, 'html.parser')
        for a in s.find_all('a'):
            h = a.get('href')
            if h and (h.startswith('http') or h.startswith('https')):
                l.append(h)
        return l
    
    def gal(bu):
        al = []
        al.append(bu)
        pl = gl(bu)
        al.extend(pl)
        for l in pl:
            fl = gl(l)
            al.extend(fl)
        return al
    
    all_links = gal('https://www.你的网站.com')
    print(all_links)
    
    
    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

问题事件

  • 系统已结题 4月21日
  • 已采纳回答 4月13日
  • 创建了问题 4月13日

悬赏问题

  • ¥15 乌班图ip地址配置及远程SSH
  • ¥15 怎么让点阵屏显示静态爱心,用keiluVision5写出让点阵屏显示静态爱心的代码,越快越好
  • ¥15 PSPICE制作一个加法器
  • ¥15 javaweb项目无法正常跳转
  • ¥15 VMBox虚拟机无法访问
  • ¥15 skd显示找不到头文件
  • ¥15 机器视觉中图片中长度与真实长度的关系
  • ¥15 fastreport table 怎么只让每页的最下面和最顶部有横线
  • ¥15 java 的protected权限 ,问题在注释里
  • ¥15 这个是哪里有问题啊?