snowy_v 2022-12-17 13:11 采纳率: 0%
浏览 8

requests.get()网站text中有多余的“\"出现

问题遇到的现象和发生背景

第一次尝试用脚本下载图片
发现获得的text中会有莫名的""符号出现并且影响了后面xpath的识别

import requests
from lxml import etree

index_url = 'https://baike.sogou.com/v64864633.htm'

header = {
    'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) '
                  'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'
}

response = requests.get(index_url, headers=header)

print(response)

response.encodeing = 'utf-8'

print(response.text)
#
selector = etree.HTML(response.text)
#
image_urls = selector.xpath('//a[@class="ed_image_link"]/@title')
#
offset = 0

for image_url in image_urls:
    print(image_url)

遇到的现象和发生背景,请写出第一个错误信息

img

用代码块功能插入代码,请勿粘贴截图。 不用代码块回答率下降 50%
运行结果及详细报错内容
我的解答思路和尝试过的方法,不写自己思路的,回答率下降 60%
我想要达到的结果,如果你需要快速回答,请尝试 “付费悬赏”
  • 写回答

1条回答

报告相同问题?

问题事件

  • 创建了问题 12月17日

悬赏问题

  • ¥20 游戏mod是如何制作的
  • ¥15 关于#hadoop#的问题:按照老师上课讲的步骤写的
  • ¥20 有人会用这个工具箱吗 付fei咨询
  • ¥30 成都市武侯区住宅小区兴趣点
  • ¥15 Windows软实时
  • ¥15 自有服务器搭建网络隧道并且负载均衡
  • ¥15 opencv打开dataloader显示为nonetype
  • ¥15 MacOS 80端口外网无法访问
  • ¥50 js逆转反解密-会的来
  • ¥15 wrodpress如何调取数据库并展示