爬取网页，html代码报错

问题遇到的现象和发生背景：爬取网页（http://www.crazyant.net/%EF%BC%89%EF%BC%8C%E4%BB%A3%E7%A0%81%E6%8A%A5%E9%94%99

?%ra=link

问题相关代码，请勿粘贴截图：第9行代码报错

import requests
from bs4 import BeautifulSoup
import pprint
import json
def download_all_htmls():
    htmls=[]
    for idx in range(40):
        url=f"http://www.crazyant.net/page/{idx+1}"
        print("craw html",url)
        r=requests.get(url)
        if r.status_code!=200:
            raise Exception("error")
        htmls.append(r.text)
    return htmls
def parse_single_html(html):
    soup =BeautifulSoup(html,'html.parser')
    articles=soup.find_all("article")
    datas=[]
    for article in articles:
        title_node=(
            article
            .find("h2",class_="entry-title")
            .find("a")
        )
        title=title_node.get_text()
        link=title_node["herf"]
        tag_nodes=(
            article
            .find("footer",class_="enry-footer")
            .find("span",class_="tages-links")
            .find_all("a")
        )
        tages=[tag_node.get_text()for tage_node in tag_nodes]
        datas.append(
            {"title":title,"link":link,"tags":tags}
        )
    return datas
all_datas=[]
for html in htmls:
    all_datas.extend(parse_single_html(html))
with open("all_article_links.json""w")as fout:
    for data in all_datas:
        fout.write(json.dumps(data,ensure_ascii=False)+"\n")

运行结果及报错内容：

C:\Users\Administrator\Desktop\test\Scripts\python.exe C:/Users/Administrator/Desktop/test/yuyue.py
Traceback (most recent call last):
  File "C:\Users\Administrator\Desktop\test\yuyue.py", line 39, in <module>
    for html in htmls:
NameError: name 'htmls' is not defined

进程已结束,退出代码1

我的解答思路和尝试过的方法：应该是第38行htmls的问题，但是第33行tag_node.get和第35行"tags":tags，也有问题，但是运行正常

我想要达到的结果：希望程序运行正常，成功爬取网页

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Hao_Me 2022-01-11 17:47
关注
htmls是你上面函数download_all_htmls返回值，你需要先调用该函数

建议修改代码如下：

if __name__=='__main__': htmls=download_all_htmls() all_datas = [] for html in htmls: all_datas.extend(parse_single_html(html)) with open("all_article_links.json""w") as fout: for data in all_datas: fout.write(json.dumps(data, ensure_ascii=False) + "\n")
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

爬取网页，html代码报错 html pycharm python
2022-01-11 17:25

回答 2 已采纳 htmls是你上面函数download_all_htmls返回值，你需要先调用该函数建议修改代码如下： if __name__=='__main__': htmls=download_all
图片爬取失败又不报错 python 有问必答爬虫
2022-06-27 10:45

回答 3 已采纳样式区分大小的，注意大小写img=div.select(' .HotList-itemimgContainer img')[0]['src']==>img=div.select(' .HotLi
Pycharn爬取网页报错 pycharm python
2022-01-06 18:52

回答 1 已采纳报错都说了（ImportError: html5lib not found, please install it），所以你先试试终端输入pip install html5lib试试呗
python爬取网页详细教程,python爬取网页的代码
2024-01-26 17:50

chatgpt001的博客 爬取网页数据用正则表达式的话，可以直接从网页源代码文本中匹配，但出错率较高，且熟悉正则表达式的使用也比较难，需要经常翻阅文档。实际爬取数据大多基于 HTML 结构的 Web 页面，网页节点较多，各种层级关系。...
Python 爬虫代码不报错，也不显示爬取内容 python 有问必答
2021-04-22 11:19

回答 4 已采纳代码逻辑问题，main函数里只有计算耗时的部分，没有调用get_html、parse_html等函数。
python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
python爬虫如何垂直爬取网页内容？ python 开发语言爬虫
2021-11-29 19:12

回答 1 已采纳 img = requests.get(url=img_url) # img_url：图片的路径 with open('{}.jpg'.format(n), 'wb') as f: # n：文件名
python中简单爬取网页代码
2021-08-31 22:10

品尚公益团队的博客简单网页制作： <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <title>我要自学网</title> </head> <body> <h1一级标题1>这是一级...
爬取html入mysql插入失败 html5 mysql python
2022-06-02 13:59

回答 2 已采纳你的插入的value值和数据库表的数据格式不一致吧，你的value好像有好几个值，但是插入的数据库对应的只有三个。格式不对，所有插入数据不行
Pandas借助Python爬虫爬取HTML网页表格保存到Excel文件的问题，解答。 python 有问必答
2021-09-20 23:00

回答 2 已采纳没有指定打开方式写为with open("./Gldjc_Pandas.txt","w+") as fin:即可有帮助望采纳~
关于#python#的问题：用Python爬取网页时，直接运行for语句下的代码可正常运行，加入for语句进行循环则报错 python 爬虫
2023-01-04 12:32

回答 3 已采纳 01.html和1.html很显然不是同一个网址，你在错误的网址下当然抓不到东西，是空的改成 target = f"http://paper.people.com.cn/rmrb/html/20{ye
python爬取网页写入文件报错“gbk”的处理
2022-07-24 21:19

haodawei123的博客 python'gbk'报错处理
python爬虫检索超出范围报错 python 爬虫
2022-09-08 16:31

回答 3 已采纳你输出con，输出的con是空列表，说明你节点的定位是有问题的，直接去开发者面板复制定位路径
Python应用开发——爬取网页图片
2022-09-06 19:00

柒壹漆的博客当我们需要从网页上面下载很多图片的时候，一个一个手动保存实在是太累人了。那么有没有批量下载的办法呢？答案是有的，Python爬虫就可以完美的做到这一点，而且作为一个Python的初学者，我可以很负责任的告诉你，...
python爬取网页代码_爬取某网站写的python代码
2020-11-25 23:09

weixin_39563420的博客代码如下：import requestsfrom pyquery import PyQueryimport reimport osimport csvimport datetime"""说明：该代码是专门为爬取http://www.kgtmall.com.cn/商品而设计的。使用方法：1、在本地提前安装好python3的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 1月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 1月12日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 1月11日

悬赏问题

¥15 远程桌面文档内容复制粘贴，格式会变化
¥15 关于#java#的问题：找一份能快速看完mooc视频的代码
¥15 这种微信登录授权谁可以做啊
¥15 请问我该如何添加自己的数据去运行蚁群算法代码
¥20 用HslCommunication 连接欧姆龙 plc有时会连接失败。报异常为“未知错误”
¥15 网络设备配置与管理这个该怎么弄
¥20 机器学习能否像多层线性模型一样处理嵌套数据
¥20 西门子S7-Graph,S7-300，梯形图
¥50 用易语言http 访问不了网页
¥50 safari浏览器fetch提交数据后数据丢失问题

爬取网页，html代码报错

问题遇到的现象和发生背景 ：爬取网页（http://www.crazyant.net/%EF%BC%89%EF%BC%8C%E4%BB%A3%E7%A0%81%E6%8A%A5%E9%94%99

问题相关代码，请勿粘贴截图 ：第9行代码报错

运行结果及报错内容 ：

我的解答思路和尝试过的方法 ：应该是第38行htmls的问题，但是第33行tag_node.get和第35行"tags":tags，也有问题，但是运行正常

我想要达到的结果：希望程序运行正常，成功爬取网页

2条回答 默认 最新

问题事件

悬赏问题

问题遇到的现象和发生背景：爬取网页（http://www.crazyant.net/%EF%BC%89%EF%BC%8C%E4%BB%A3%E7%A0%81%E6%8A%A5%E9%94%99

问题相关代码，请勿粘贴截图：第9行代码报错

运行结果及报错内容：

我的解答思路和尝试过的方法：应该是第38行htmls的问题，但是第33行tag_node.get和第35行"tags":tags，也有问题，但是运行正常

2条回答默认最新