python爬虫多页爬虫遇见乱码数据应该怎么处理怎么重新爬取此页

因为他爬回来有的页数据是方块但重新爬取一下就不是了我想让他重新爬取这个方块数据的页但是为什么except一直在爬这个页出不来了啊应该怎么写怎么办啊
import requests
import parsel
for page in range(1,168):
def get_html():
print("函数开始")

    cars_data=parsel.Selector(response.text)
    lis=cars_data.css('#__next > div.tw-flex > div.new-main.new > div > div > div.jsx-2898915557.wrap > ul > li')
    # return lis

# def get_inf(lis_1):
    for li in lis:
        car_title=li.css(' li > a > dl > dt > p::text').get()
        car_info_1=li.css('li > a > dl >dd:nth-child(2)::text').getall()
        car_info_2=li.css('li > a > dl >dd:nth-child(3)>span::text').getall()
        car_price_1 = li.css('li > a > dl >dd:nth-child(4)::text').get().replace('万','')
        car_price_2=li.css('li > a > dl >dd:nth-child(4)>span::text').get().replace('新车指导价:','').replace('万','')

        car_years=''.join(car_info_1).split('|')[0]
        car_gonli=''.join(car_info_1).split('|')[1].replace('万公里','')
        car_posotion = ''.join(car_info_1).split('|')[2]

        if len(car_info_2)==2:
           car_jianche=car_info_2[0]
           car_guohu=car_info_2[0]
        else:
           car_jianche="无检测报告"
           car_guohu=car_info_2[0]



        for i in car_price_1:
        try:
            int(i)
            print(car_title, car_years, car_gonli, car_posotion, car_jianche, car_guohu, car_price_1,
                  car_price_2)
            break
        except :
            print(i)
            print("错误开始",page)
            print(car_title, car_years, car_gonli, car_posotion, car_jianche, car_guohu, car_price_1,
                  car_price_2)
            get_html()
            # get_inf(lis_5)
            print("错误结束")
            break
        continue
    print("跳出循环")
print("函数结束")

get_html()

get_inf(lis_0)

print('---------------------------------------第', page, '页---------------------------------------')

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-05-16 02:05
关注
帮你找了个相似的问题, 你可以看下: https://ask.csdn.net/questions/7513384
这篇博客也不错, 你可以看下Python图像处理是没有任何一门编程语言能比得上的！为什么这么说呢？看完这篇你就知道了！
同时，你还可以查看手册：python- 旧式字符串格式化方法中的内容
除此之外, 这篇博客: python在字典中创建一键多值的几种方法以及从其他数据结构转为一键多值的字典几种方法中的 其他数据结构转为一键多值的字典几种方法 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
原始数据：

pairs = [('one', 1), ('two', 2), ('three', 3), ('four', 4), ('one', 11)]

转化成一键多值的字典形式：

{'one': [1,11], 'two': [2], 'three': [3], 'four': [4]}

方法一：

一般都使用这个方法，其实看着有点杂乱，以后试着用方法二

pairs = [('one', 1), ('two', 2), ('three', 3), ('four', 4), ('one', 11)] d = {} for key, value in pairs: if key not in d: d[key] = [] d[key].append(value) print(d) # Out：{'one': [1, 11], 'two': [2], 'three': [3], 'four': [4]}

方法二：

这个就看着很舒服了

from collections import defaultdict pairs = [('one', 1), ('two', 2), ('three', 3), ('four', 4), ('one', 11)] d = defaultdict(list) for key, value in pairs: d[key].append(value) # 省去了if判断语句 print(d) # Out:defaultdict(<class 'list'>, {'one': [1, 11], 'two': [2], 'three': [3], 'four': [4]})

您还可以看一下王宁宁老师的Python数据结构与算法视频教程课程中的抽象数据类型和面向对象编程小节, 巩固相关知识点
以下回答由chatgpt基于相关博客总结生成:
针对问题，出现乱码或方块可能是由于页面编码格式不对或者数据加密等原因导致的，可以尝试解决以下几个方面：

确认网页编码格式：可以使用requests.get获取网页，并查看页面编码格式，将其改为正确的编码格式，例如utf-8即可。示例代码如下：

import requests from bs4 import BeautifulSoup url = 'https://example.com' response = requests.get(url) response.encoding = 'utf-8' # 设置编码格式 soup = BeautifulSoup(response.text, 'html.parser')

检查数据是否加密：可以观察页面中网络请求的数据，在浏览器的开发者工具中查看，在跟踪请求时是否出现加密的操作。如果出现加密，则需要解密该数据，才能进行正确的解析和显示。

尝试使用自动化测试工具重新爬取数据：可以使用Selenium等自动化测试工具，模拟浏览器操作，重新爬取数据。示例代码如下：

from selenium import webdriver url = 'https://example.com' browser = webdriver.Chrome() # 需要下载对应的ChromeDriver，放在环境变量中或指定路径 browser.get(url) soup = BeautifulSoup(browser.page_source, 'html.parser') browser.quit()

在处理数据时使用异常处理机制：如果某个页面出现了异常，比如解析数据时出现了错误，则可以使用try-except语句，捕捉异常并重新爬取该页面。示例代码如下：

for page in pages: try: # 解析该页面的数据 # ... except Exception as e: print(e) # 输出错误信息 # 重新爬取该页面 response = requests.get(page) if response.status_code == 200: soup = BeautifulSoup(response.text, 'html.parser')

需要注意的是，多次重新爬取同一页面可能会被网站的反爬虫机制封禁IP，需要适当控制重新爬取的次数和频率。同时，在爬取数据时需要遵守网站的robots.txt协议，不要过度频繁地爬取对方网站的数据。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫爬取网页为什么获得的不是正常网页数据 python 爬虫
2022-05-12 14:48

回答 2 已采纳这代码里面好多错误，你是怎么运行成功的？
Python 爬虫乱码 python 开发语言
2023-01-25 13:07

回答 3 已采纳有点怪，源代码在我的环境里运行后，没有乱码。想了想，有可能是如下原因导致乱码：（1）在用户未知的情况下，环境自动按某种格式编译了内容，然后在反复、不对应的编译格式转换下出现乱码。（2）指定的编码格
python爬虫，账号反爬怎么处理 python 爬虫
2021-09-08 19:39

回答 3 已采纳目前来看，账号反爬没有什么太好的应对措施。一旦你的账号确定被反爬了，就只能更换账号了，或者和网站客服沟通。对于账号反爬网站，一般来说，就是ip代理池和账号随机混用，还需要保证ip的质量，地域差异不要太
Python爬虫进阶之多线程爬取数据并保存到数据库
2020-12-21 21:54

今天刚看完崔大佬的《python3网络爬虫开发实战》，顿时觉得自己有行了，准备用appium登录QQ爬取列表中好友信息，接踵而来的是一步一步的坑，前期配置无数出错，安装之后连接也是好多错误，把这些错误解决之后，找APP...
python爬虫乱码问题怎么解决 python
2022-04-20 16:13

回答 2 已采纳 with open ("mybaidu.html", mode = "w", encoding = "utf-8")这里面填一个encoding就好了
python3爬虫出现文字乱码以及抓取不了全部数据 python
2020-09-18 13:51

回答 2 已采纳导入sys和io，然后 sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030') #改变标准输出的默认编码
一个python requests 爬虫遇到乱码的问题 python 爬虫
2022-01-24 15:24

回答 2 已采纳 jsonData='{"\u6d4b\u8bd5": 12345, "\u5185\u5bb9": ["\u6211\u4e5f\u4e0d\u77e5\u9053\u6211\u8981\u5199
Python爬虫基于lxml解决数据编码乱码问题
2020-09-16 11:06

在Python爬虫开发中，经常会遇到数据编码导致的乱码问题。当爬取网页内容时，如果不正确地处理字符编码，输出的结果可能会显示为奇怪的符号，如"å·²éªè¯ å®å¨ ç¾ç"。这通常是因为网页的...
python爬虫爬取腾讯新闻评论 json python 爬虫
2017-11-23 05:47

回答 3 已采纳需要先把内容的mainComment()去掉，它里面是一个json，然后就可以处理，\u是表示unicode的字符。 ``` In [24]: sess = requests.Session(
python爬取数据到文本文件：为什么里面写了utf-8还是乱码 python
2021-07-24 11:40

回答 3 已采纳你在你画圆圈的的上一行写一句r.encoding="utf-8"试一试，有用的话点一下采纳
python爬虫无有效内容 python 爬虫
2023-02-20 09:04

回答 3 已采纳有用请采纳get()返回的resq你得看看encoding是不是UTF-8的编码，如果不是得重新设置。
Python网络爬虫出现乱码问题的解决方法
2020-12-24 08:10

在实际的Python爬虫开发中，处理汉字编码问题时，可以采取以下步骤： 1. 使用`chardet`检测网页内容的原始编码。 2. 将原始内容解码为Unicode，即`decode()`操作。 3. 将Unicode内容编码为目标编码，如UTF-8，即`...
关于爬虫response出现乱码 python 开发语言有问必答爬虫
2022-11-12 10:11

回答 4 已采纳 session.post(hfUrl, headers=hfHeader, data=hfData, params=hfParam).content.decode('对方网站的编码，比如gbk或者ut
python爬虫时遇到乱码，以及动态显示的数据无法爬取
2024-07-05 11:41

序列02的博客在爬取的时候有很多种乱码，我遇到的是类似ÉÌÆ·ÁÐ±í-Ó¢ÐÛÁªÃËµÀ¾Û³Ç这种的，在查找资料后是以读取gbk导致的，最后解决办法是发送get请求后通过这个代码就可以显示出来，乱码有很多种，其他更...
Python数据爬取超详细讲解（零基础入门，老年人都看的懂）
2020-07-13 11:16

码农BookSea的博客关于Python爬虫的超详细讲解，用例子来给大家一步步分析爬虫的代码原理，由浅入深，老年人来了，我也给你整明白。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月16日

悬赏问题

¥15 有偿找一懂dylib反编译的大拿，是ios越狱dylib动态库，我需要绕过验证。
¥15 构建工单的总账影响在哪里查询或修改
¥15 三个简单项目写完之后有重赏之后联系我
¥15 python报内存不能read错误
¥15 hexo安装这种情况怎么办
¥100 找hCaptcha图形验证码自动识别解决方案
¥15 启动pycharm出错
¥15 Windows Script Host 无法找到脚本文件"C:\ProgramData\Player800\Cotrl.vbs”
¥15 matlab自定义损失函数
¥15 35114 SVAC视频验签的问题

python爬虫 多页爬虫遇见乱码数据应该怎么处理怎么重新爬取此页

get_inf(lis_0)

2条回答 默认 最新

问题事件

悬赏问题

python爬虫多页爬虫遇见乱码数据应该怎么处理怎么重新爬取此页

2条回答默认最新