这很ok 2021-09-08 21:42 采纳率: 0%
浏览 34

可以爬取到页面源代码,但是爬取具体数据时出现了些符号,不是想要的数据


from lxml import etree
import requests
import re
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
url = "https://www.umei.cc/meinvtupian/index.htm"
resp = requests.get(url, headers=header)
lx = etree.HTML(resp.text)
page = lx.xpath('//div[@class="TypeList"]/ul/li/text()')
print(page)

img


我刚学不久的爬虫

  • 写回答

1条回答 默认 最新

  • 关注

    这个页面的编码是"utf-8"
    需要设置
    resp.encoding = "utf-8"
    再获取resp.text

    页面文字是在span
    如果是要获取页面中的文本文字是
    //div[@class="TypeList"]/ul/li/a/span/text()

    from lxml import etree
    import requests
    import re
    header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
    }
    url = "https://www.umei.cc/meinvtupian/index.htm"
    resp = requests.get(url, headers=header)
    resp.encoding = "utf-8"
    lx = etree.HTML(resp.text)
    page = lx.xpath('//div[@class="TypeList"]/ul/li/a/span/text()')
    print(page)
    href = lx.xpath('//div[@class="TypeList"]/ul/li/a/@href')
    print(href)
    img = lx.xpath('//div[@class="TypeList"]/ul/li/a/img/@src')
    print(img)
    

    img

    评论

报告相同问题?

问题事件

  • 创建了问题 9月8日

悬赏问题

  • ¥15 HP P2000存储 硬盘损坏两块如何更换
  • ¥15 c#的richTextBox控件有更好的替代品吗
  • ¥15 ntrip协议发送失败
  • ¥15 关于#c语言#的问题:c语言main函数括弧里为什么有时候加void
  • ¥15 如何利用R语言对语料库之间数据差异性分析
  • ¥20 如何制作支付宝扫码跳转到发红包
  • ¥15 STM32F103C8T6使用标准库stm32f10x.h驱动ws2812
  • ¥20 我是数控机床电气工程师,主要是做840DSL与one,请问如何自学
  • ¥20 显示器休眠后重新唤醒出现蓝屏,蓝屏代码为DRIVER-POWER.STATE-FAILURE
  • ¥20 alt+tab怎么恢复到以前的模式