想要爬取某动漫的图片，在爬取图片的url时，出现了乱码这是怎么回事？如何将这串乱码修改成图片的url？


import requests
from lxml import etree
import json
import os

# 设置Bing搜索URL和请求头
url = 'https://cn.bing.com/images/search?q=%E4%B8%80%E4%BA%BA%E4%B9%8B%E4%B8%8B%E5%9B%BE%E7%89%87&form=IQFRML&first=1&cw=1177&ch=693'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0',
}

# 发送GET请求获取Bing搜索结果页面的HTML内容
response = requests.get(url, headers=headers)
text = response.text
html = etree.HTML(text)

# 使用XPath选择器提取图片链接元素
images = html.xpath('//div[@class="dgControl waterfall"]/ul//a[@class="iusc"]')

# 创建一个列表来存储所有的图片URL
image_list = []

# 遍历图片链接元素，提取图片URL，并添加到列表中
for image in images:
    image_url = image.xpath('.//@href')[0]
    image_list.append(image_url)

# 检查文件是否已存在，如果存在则追加，否则创建新文件
file_path = 'image.json'
if os.path.exists(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        existing_data = json.load(f)
        image_list.extend(existing_data)

# 写入图片URL到JSON文件中，并增加换行和缩进，提高可读性
with open(file_path, 'w', encoding='utf-8') as f:
    json.dump(image_list, f, ensure_ascii=False, indent=4)

if os.path.exists(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        existing_data = json.load(f)
        image_list.extend(existing_data)

# 写入图片URL到JSON文件中，并增加换行和缩进，提高可读性
with open(file_path, 'w', encoding='utf-8') as f:
    json.dump(image_list, f, ensure_ascii=False, indent=4)

为什么保存的数据是乱码，而不是图片所对应的url呢？

在源代码中点击它时：
"/images/search?view=detailV2&ccid=O9QDSB5w&id=85EC8AC1C57E61CEB19D840B7E558C3A5D282DB0&thid=OIP.O9QDSB5wJ79blE2Go8ToQQHaNK&mediaurl=https%3a%2f%2fpic4.zhimg.com%2fv2-2230e311549f7d64e088d7752b375e75_r.jpg&exph=1920&expw=1080&q=%e4%b8%80%e4%ba%ba%e4%b9%8b%e4%b8%8b%e5%9b%be%e7%89%87&simid=608010036547625220&FORM=IRPRST&ck=815E7961C578C60D30E7AE51AED465AC&selectedIndex=0&itb=0"
会直动跳转到照片所对应的图片，当将鼠标反正这串乱码上会出现该图片说对应的网址。

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
檀越@新空间 2024-02-29 12:53
关注
ctrlCV工程师001 中午好🌞🌞🌞
本答案参考通义千问

出现乱码的原因可能是编码格式不匹配导致的。在爬取网页时，如果没有正确指定字符编码，可能会遇到乱码。为了解决这个问题，你可以尝试以下步骤：

检查原始响应的编码：

可以在发送请求时明确设置编码，如response = requests.get(url, headers=headers, encoding='utf-8')。确保与网站实际使用的字符集匹配。

解析HTML时使用正确的编码：

当使用etree库解析HTML时，可以指定编码，例如 etree.HTML(text, encoding='utf-8')。

处理JSON数据时的编码：

在读取和写入JSON文件时，保持一致的编码，比如在打开文件时指定open(file_path, 'r', encoding='utf-8')。

异常处理：

如果不确定编码，可以使用chardet库检测网页的自动编码。首先安装chardet库（pip install chardet），然后在解析文本前尝试检测：

import chardet # 检测原始响应的编码 response_content = response.content encoding_guess = chardet.detect(response_content)['encoding'] print(f"Guessing encoding: {encoding_guess}") # 使用检测到的编码 text = response.text.decode(encoding_guess)

处理URL字符串：
如果URL字符串本身就是乱码，可能需要先解码再使用。假设是UTF-8编码：

decoded_url = url.decode('utf-8') # 然后按正常方式处理这个解码后的字符串

请根据实际情况调整上述步骤，并确保在处理所有字符串操作时都使用统一的编码格式。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

（三）爬取一些网页图片
2022-10-09 11:45

Kkh_8686的博客爬取一些网页图片。
js rsa解密中文乱码_python解析JS爬取漫画网站--动态爬虫
2020-12-19 16:50

weixin_39622178的博客我前两天无聊，鬼灭之刃第一季完结了，我暂时没啥动漫看，就想着看看鬼灭之刃的漫画，找了半天，找一个叫漫画堆的网站鬼灭之刃www.manhuadui.com网页版的还可以，但是我当时拿手机在看，翻一个页就是一个性感XX，...
爬虫爬取图片
2024-04-08 17:21

星许的博客本文介绍了一个基于PyCharm的图片爬取程序，使用requests和BeautifulSoup库从彼岸桌面网站下载4K动漫壁纸。程序主要功能包括：创建保存目录、清理文件名非法字符、解析网页获取图片链接、下载图片等。配置部分可设置...
用Python中BeautifulSoup爬取翻页式网页图片（爬取海贼王漫画）
2021-05-19 22:57

麻辣清汤的博客这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、...
二次元肥宅最喜欢的壁纸图片，这不把它爬取下来对不起自己
2020-12-19 16:27

49.99%的博客本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理本文章来着腾讯云作者：python学习教程注：某憨批朋友发来的一个网址其实这个网站的...
python 爬取豆瓣某一主题书单_Python爬取豆瓣的各分类书单以及近期热门电影和top250的电影...
2020-12-18 03:45

weixin_39915078的博客在与本脚本相同的文件夹下会多出一个, doubanbook.txt的文件里面有所爬书籍，如你把本脚本放在桌面, 文件便会出现在桌面""" print u"结束输入 'O' , 联系作者输入 'A'" end = raw_input('>') if end == 'A': print u...
Python爬虫入门教程：某阁小说爬取
2024-08-22 16:29

LeeXr030的博客 WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36' } response = requests.get(url=url, headers=headers) print(response.text) 请求网页返回的数据中出现了乱码，这就需要我们...
python爬漫画（1）—— 如何爬取简单静态网页的图片
2018-11-24 18:17

RikkaTakanashi的博客之前写了一个python爬虫爬漫画视频的小程序，在此以一个系列的方式对其中用到的技术进行一个记录系列一.简单的静态网页爬取这里取的是kuku漫画网，http://comic.kukudm.com 采用的是requet 访问url，...
爬取漫画网站漫画（爬虫学习）
2021-06-14 21:34

殁星的博客共实现两个网站，漫画栈处于完成品状态，最近没空做了，写个博客记录一下。第一步，导入库： import json import os from time import sleep import requests from lxml import etree import re from ...
Python练习-爬取并下载漫画
2022-01-07 00:18

什巳的博客随着大数据时代的到来，人们已经不能满足于平时的活动，转而去寻求虚拟世界的快感，而漫画就是其中一种，但是在网站上看漫画广告太多且不能下载，十分影响体验，所以我利用python来爬取并下载漫画来方便人们观看。...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月29日

想要爬取某动漫的图片，在爬取图片的url时，出现了乱码这是怎么回事？如何将这串乱码修改成图片的url？

3条回答 默认 最新

问题事件

3条回答默认最新