新手做了一个随机跳转网站的爬虫，但不知道错误在哪

先贴上代码

def getInlinks(bsobj,inURL):                   #寻找网页的内链
    inURL=urlparse(inURL).scheme+"://"+urlparse(inURL).netloc
    inlinks=[]
    for link in bsobj.findALL("a",href=re.compile("^(/|.*"+inURL+")")):    
        #寻找以/开头或者包含当前URL的链接
        if link.attrs["href"] is not None:
            if link.attrs["href"] not in inlinks:
                if(link.attrs["href"].startswith('/')):
                    inlinks.append(inURL+link.attrs["href"])
                else:
                    inlinks.append(link.attrs['href'])
    return inlinks

def getOutlinks(bsobj,outURL):        #寻找网页中的外链
    outlinks=[]
    for link in bsobj.findALL("a",href=re.compile("^(http|www)((?!"+outURL+").)*$")):   #找到http，www开头的并且不包含当前URL的
        if link.attrs['href'] is not None:
            if link.attrs['href'] not in outlinks:
                outlinks.append(link.attrs['href'])
    return outlinks


def getlink(startURL):
    html=urlopen(startURL)
    bsobj=BeautifulSoup(html,"lxml")
    outlinks=getOutlinks(bsobj,urlparse(startURL).netloc)
    if (len(outlinks)==0):
        print("没有可跳转的外部网站")
        domain=urlparse(startURL).scheme+"://"+urlparse(startURL).netloc
        inlinks=getInlinks(bsobj,domain)
        return getlink(inlinks[random.randint(0,len(inlinks)-1)])
    else:
        return outlinks[random.randint(0,len(outlinks)-1)]

def followlinks(startURL):    #只想让它跳转五次，递归调用
    outlinks=getlink(startURL)
    print("将要跳转的网站是"+outlinks)
    global a
    a=a+1
    if(a<=5):
        followlinks(outlinks)
followlinks("http://www.baidu.com/")

报错的原因是：

Traceback (most recent call last):
File "C:/Users/18022863809/Desktop/python_work/爬虫.py", line 55, in
followlinks("http://www.baidu.com/")
File "C:/Users/18022863809/Desktop/python_work/爬虫.py", line 49, in followlinks
outlinks=getlink(startURL)
File "C:/Users/18022863809/Desktop/python_work/爬虫.py", line 39, in getlink
outlinks=getOut(bsobj,urlparse(startURL).netloc)
File "C:/Users/18022863809/Desktop/python_work/爬虫.py", line 26, in getOut
for
```link in bsobj.findALL("a",href=re.compile("^(http|www)((?!"+outURL+").)*$")):
TypeError: 'NoneType' object is not callable

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
dabocaiqq 2019-02-15 00:10
关注
https://blog.csdn.net/ingiaohi/article/details/72672169

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

新手做了一个随机跳转网站的爬虫，但不知道错误在哪 python
2019-02-14 22:05

回答 1 已采纳 https://blog.csdn.net/ingiaohi/article/details/72672169
python爬虫问题，有的视频按钮没有绑定跳转的url，在哪里才能找到呢？ python 爬虫
2022-02-22 23:58

回答 1 已采纳一般都是视频流，ajax动态加载，f12在network的xhr中抓包，可以找到包含每一段视频流链接的文件，像下面这样的文件 #EXTM3U #EXT-X-STREAM-INF: PROGRAM-ID
python中如何自动跳转到一个网页 python 有问必答
2022-05-11 08:42

回答 3 已采纳 url换成对应地址 import webbrowser url= "http://www.baidu.com" webbrowser.open(url)
python爬虫实战零基础(1)——网站小说
2023-08-11 15:14

黑洞是不黑的博客爬虫爬小说
学习python爬虫的selenium时，百度网页无法跳转出来 python selenium 爬虫
2022-09-07 20:57

回答 2 已采纳 http://chromedriver.storage.googleapis.com/index.html下载谷歌浏览器相应的驱动选择下载与chrome浏览器相匹配的chromedriver版本，解压
python 爬虫 requests.get() 所有网页都打不开 python 爬虫
2022-09-24 23:49

回答 1 已采纳 http协议都没加
想用python设计一个跳转功能的函数 python
2021-05-29 15:35

回答 1 已采纳加个判断不就行了
Python爬虫教程 - 100天从新手到大师（02Day）
2023-09-13 17:00

我望海风的博客浏览器接收到了这个html文件的代码之后它就会发现想呈现(渲染),发现里面有很多的坑坑洼洼一个应该放图片的地方，它放的是图片的url。目标数据：百度首页的response代码(数据)，html格式的数据目标url:...
Python，爬虫 HTML代码不理解 javascript python 爬虫
2022-03-20 16:01

回答 2 已采纳鼠标右击复制xpath路径即可。那下一页的按钮应该是li节点 //*[@id="content-box"]/ul/li[4]
Python爬虫爬取不同网页的相似内容 python 爬虫
2022-03-11 17:52

回答 2 已采纳 re模块，正则表达式，split切分
点击一个链接，随机跳转到其他网址的JS实现方法 html javascript 前端
2023-01-01 23:11

回答 3 已采纳通过href跳转 <html> <head> <script type="text/javascript"> function openL
python爬虫静态网站——图片及保存
2021-11-21 11:35

臭叔叔的博客一个小爬虫，不太成熟，希望新手学习，大神指点，让我也得到进步。
想用ajax做一个功能不跳转不刷新 ajax php
2021-11-26 23:16

回答 2 已采纳看一下代码
网上发现一个钓鱼网站，我用 Python 渗透了该网站所有信息
2021-03-18 19:23

酸菜鱼编程的博客》，但是文章只是简单提到了一个伪造的 LOL 站点，嗯，就是这个【uvu.cc/ixMJ】，这明显是一个经过缩短链接处理的网站，打开后跳转到这个真实网址【http://mfspfgp.top】页面是下面这样的
你都用 Python 来做什么？
2021-12-12 17:04

1_bit的博客在开发中 python 这一个语言就像是小叮当，而 python 的第三方库则是“百宝箱”，你只要想着对某一个方向进行开发，那么这个“百宝箱”就会给你想要的东西。由于我是在开发多年后接触到的 python，对我来说自从接触...
没有解决我的问题, 去提问

悬赏问题

¥15 基于卷积神经网络的声纹识别
¥15 Python中的request，如何使用ssr节点，通过代理requests网页。本人在泰国，需要用大陆ip才能玩网页游戏，合法合规。
¥100 为什么这个恒流源电路不能恒流？
¥15 有偿求跨组件数据流路径图
¥15 写一个方法checkPerson，入参实体类Person，出参布尔值
¥15 我想咨询一下路面纹理三维点云数据处理的一些问题，上传的坐标文件里是怎么对无序点进行编号的，以及xy坐标在处理的时候是进行整体模型分片处理的吗
¥15 CSAPPattacklab
¥15 一直显示正在等待HID—ISP
¥15 Python turtle 画图
¥15 stm32开发clion时遇到的编译问题

新手做了一个随机跳转网站的爬虫，但不知道错误在哪

1条回答 默认 最新

悬赏问题

1条回答默认最新