(标签-Python)爬虫过程中遇到TypeError: object of type 'NoneType' has no len()

Python 使用BeautifulSoup过程中遇到TypeError: object of type 'NoneType' has no len()

需求：获取url_list里每一个url的文件大小、类型和outlink的数量


```python
def getHTML(url, ua_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36', num_retries = 5):
    headers = {'User-Agent': ua_agent}
    request = urllib.request.Request(url=url, headers=headers)
    html = None
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode('utf-8')
    except urllib.error.URLError or urllib.error.HTTPError as e:
        if num_retries > 0:
            if hasattr(e,'code') and 500 <= e.code < 600:
                getHTML(url, ua_agent, num_retries - 1)
    return html

这里打印html返回None，导致BeautifulSoup获取url出错

def get_url_num(html):
    links = []
    soup = BeautifulSoup(html,'html.parser')
    url_list = soup.find_all('a')
    for link in url_list:
        link = link.get('href')
        if link.startswith('http'):
            links.append(link)
    url_num = len(links)
    return url_num


以下为原代码：


import requests
import pandas as pd
import urllib.error
import urllib.request
import ssl
from bs4 import BeautifulSoup

ssl._create_default_https_context = ssl._create_unverified_context


def getHTML(url, ua_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36', num_retries = 5):
    headers = {'User-Agent': ua_agent}
    request = urllib.request.Request(url=url, headers=headers)
    html = None
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode('utf-8')
    except urllib.error.URLError or urllib.error.HTTPError as e:
        if num_retries > 0:
            if hasattr(e,'code') and 500 <= e.code < 600:
                getHTML(url, ua_agent, num_retries - 1)
    return html


def get_url_num(html):
    links = []
    soup = BeautifulSoup(html,'html.parser')
    url_list = soup.find_all('a')
    for link in url_list:
        link = link.get('href')
        if link.startswith('http'):
            links.append(link)
    url_num = len(links)
    return url_num


df = pd.read_csv('fetch_nytimes.csv')

url_list = []
for i in df['URL']:
    url_list.append(i)

print(url_list)

headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'
}

size_list = []
type_list = []
outlinks_list = []

for url in url_list:
    try:
        response = requests.get(url, stream=True, headers=headers)
        # column 2
        file_size = response.headers['Content-Length']
        file_size = int(file_size)/1024/1024
        size_list.append(file_size)
        # column 4
        file_type = response.headers['Content-Type']
        type_list.append(file_type)
        # column 3
        html = getHTML(url)
        outlinks = get_url_num(html)
        outlinks_list.append(outlinks)
    except urllib.error.URLError or urllib.error.HTTPError as e:
        url_list.remove(url)

dict_visit = {}
dict_visit['URL'] = url_list
dict_visit['File_Size'] = size_list
dict_visit['Outlinks'] = outlinks_list
dict_visit['File_Type'] = type_list

df1 = pd.DataFrame(dict_visit)
df1.to_csv('visit_nytimes.csv', index=False)

```

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

17条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
专家-赤兔[在线] 全栈领域优质创作者 2023-12-13 19:30
关注
获得0.60元问题酬金
引自强大而免费的微信小程序：皆我百晓生。

问题分析：
根据提供的代码发现，问题出现在获取HTML内容的函数getHTML中，当出现异常时没有正确处理，导致返回的HTML内容为None。在get_url_num函数中调用了getHTML函数，因此无法获取正确的HTML内容，进而出现了TypeError: object of type 'NoneType' has no len()的错误。

解决方案：
在getHTML函数的异常处理部分，需要对异常进行正确处理，并在发生异常时进行递归调用，以达到最大重试次数。同时，为了避免无限递归，需要在递归调用之前将num_retries减1。

以下是修改后的代码示例：

def getHTML(url, ua_agent='Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36', num_retries=5): headers = {'User-Agent': ua_agent} request = urllib.request.Request(url=url, headers=headers) html = None try: response = urllib.request.urlopen(request) html = response.read().decode('utf-8') except (urllib.error.URLError, urllib.error.HTTPError) as e: # 使用括号将异常类型括起来 if num_retries > 0: if hasattr(e, 'code') and 500 <= e.code < 600: return getHTML(url, ua_agent, num_retries - 1) # 递归调用时将num_retries减1 return html # 修改后的getHTML函数会返回正确的HTML内容，解决了TypeError的问题

希望能够帮助到你！如果有任何疑问，请继续追问。
解决 1
无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python 报错：TypeError: object of type 'MiddleDataset' has no len() python pytorch
2022-04-21 19:26

回答 1 已采纳你调用了len(MiddleDataset)吧，这个是没有len()方法的，你应该找找参数里面哪个是str类型的，用len()包住，而不是MiddleDataset整体
TypeError: object of type 'module' has no len() pycharm python 深度学习
2022-09-20 20:44

回答 1 已采纳 self.data_source 是一个 module 对象，len()方法接收的参数不能是module，可以是一个列表，字符串等可迭代的对象
学习一个爬虫知识遇到TypeError: object of type 'NoneType' has no len()问题，求明白人指点迷津 python 开发语言有问必答爬虫
2022-01-11 22:04

回答 1 已采纳 askURL的return html缩进有问题，放到except外 def askURL(url): head = { #模拟浏览器头部信息，向豆瓣发送消息 "User-
Python爬虫 - TypeError: object of type NoneType has no len() 解决方法
2021-02-02 21:09

萌哒哒的CXY的博客关于解决 python爬虫
图像转动角度识别到一半出现报错TypeError: object of type 'float' has no len() opencv python 图像处理
2022-04-04 11:17

回答 1 已采纳 if type(numinrange[maxnum])<>'float': for i in range(1, len(numinrange[maxnum])):
python纸牌类TypeError: object of type 'FrenchDeck' has no len() python
2019-06-24 16:46

回答 2 已采纳不知道是你贴出来的问题，还是怎么问题，你这应该是缩进不对呀 __len__方法给类FrenchDeck增加了直接len的操作，但是你这缩进错了 ```python import coll
python 的 object of type 'float' has no len()？ python
2018-08-21 09:36

回答 3 已采纳错误原因：在你的for循环里，df对象被覆盖了，所以第二次循环时，df为空，导致出错。解决办法： 1.使用新的变量 2.使用df的groupby方法 ``` #修改 d
Python - TypeError: object of type NoneType has no len() 解决方法
2019-03-28 11:18

Dr. 卷心菜的博客定义的函数没有返回值，加上返回值即可参考：https://stackoverflow.com/questions/48096547/python-typeerror-object-of-type-nonetype-has-no-len
TypeError: argument of type 'NoneType' is not iterable python
2022-08-05 15:40

回答 2 已采纳 var_keep_dic为空，检查一下var_keep_dic的值，这个变量你是赋值的啥？
python 双目标定遇到TypeError: an integer is required (got type NoneType) opencv python 目标检测
2022-06-23 17:16

回答 2 已采纳这个函数传入的某一个参数是None，不是预期的整型值。这里面只有flags应该是int型的，往前查一下flags没有正确赋值
TypeError: 'NoneType' object is not subscriptable这个错误如何解决呀 python 神经网络计算机视觉
2022-04-18 11:51

回答 1 已采纳你把11行的image打印出来看看，这里有问题
TypeError: object of type ‘NoneType‘ has no len()的解决方法
2022-12-08 23:51

胡糊啊的博客 TypeError: object of type 'NoneType' has no len()的解决方法
TypeError: unsupported operand type(s) for -: 'NoneType' and 'int' python pytorch 目标检测
2022-05-06 09:39

回答 2 已采纳提示减无法操作，你这公式里有两个减号，因为d是有默认值的，那么最大的可能性就是k是个空值，要不就是你调用函数没有传k这个参数，要不就是你传了k，但是k是个空值，另外还有可能就是你还传了d，但是d是个空
【Python】成功解决TypeError: object of type ‘NoneType‘ has no len()
2024-04-16 19:00

黑客老六的博客我们学习了如何通过检查对象类型来避免这类错误，并探讨了Python中类型与操作的关系的重要性。同时，我们还通过实践案例展示了如何使用tryexcept块来优雅地处理异常。在实际编程中，我们应该始终注意对象的类型，并...
【Python】成功解决TypeError: object of type ‘float‘ has no len()
2024-04-16 19:30

黑客老六的博客在编程过程中，遇到错误是常有的事情，但如何处理这些错误却是一门艺术。通过理解错误的本质和原因，我们可以写出更加健壮、可靠的代码。同时，我们也要学会举一反三，从一个错误中汲取经验，应用到其他类似的场景中...
求解：pycharm出现错误TypeError: object of type ‘NoneType‘ has no len()怎么解决
2021-03-31 19:42

ck15891514的博客在B站学习python爬虫期间，根据老师写的代码，我放在pycharm编辑器中一直运行不出来，具体源代码是这样的：`import code import xlwt import bs4 import re import urllib.request import sqlite3 def main(): ...
Python(36):调试过程中遇到的问题记录
2024-01-17 16:15

宁宁可可的博客 Python(36):调试过程中遇到的问题记录
报错解决方法：elif len(markup) ＜= 256 and TypeError: object of type ‘NoneType‘ has no len(
2023-01-05 14:36

捂奶长衫罩子龙的博客 url = baseurl + str(i*25) html = askurl(url) #应该有一个返回值的保存 soup = BeautifulSoup(html,"html.parser") for item in soup.find_all('div',class_="item"): print(item) return datalist 当测试爬虫出现...
Python爬虫 - 小错误收集
2021-07-20 16:08

sinat_38345675的博客 TypeError: object of type NoneType has no len() 出现的原因：函数返回值为空，即某个函数没有return() 检查代码发现我的askURL没有return,且return函数缩进错误导致html为空
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 12月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月13日

悬赏问题

¥20 公众号如何实现点击超链接后自动发送文字
¥15 用php隐藏类名和增加类名
¥15 算法设计与分析课程的提问
¥15 用MATLAB汇总拟合图
¥15 智能除草机器人方案设计
¥15 对接wps协作接口实现消息发送
¥15 SQLite 出现“Database is locked” 如何解决？
¥15 已经加了学校的隶属邮箱了，为什么还是进不去github education？😭
¥15 求会做聚类，TCN的朋友有偿线上指导。以下是目前遇到的问题
¥100 无网格伽辽金方法研究裂纹扩展的程序

(标签-Python)爬虫过程中遇到TypeError: object of type 'NoneType' has no len()

17条回答 默认 最新

问题事件

悬赏问题

17条回答默认最新