可以爬取到页面源代码，但是爬取具体数据时出现了些符号，不是想要的数据


from lxml import etree
import requests
import re
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36'
}
url = "https://www.umei.cc/meinvtupian/index.htm"
resp = requests.get(url, headers=header)
lx = etree.HTML(resp.text)
page = lx.xpath('//div[@class="TypeList"]/ul/li/text()')
print(page)

我刚学不久的爬虫

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN专家-天际的海浪 2021-09-08 21:54
关注
这个页面的编码是"utf-8"
需要设置
resp.encoding = "utf-8"
再获取resp.text

页面文字是在span
如果是要获取页面中的文本文字是
//div[@class="TypeList"]/ul/li/a/span/text()

from lxml import etree import requests import re header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.107 Safari/537.36' } url = "https://www.umei.cc/meinvtupian/index.htm" resp = requests.get(url, headers=header) resp.encoding = "utf-8" lx = etree.HTML(resp.text) page = lx.xpath('//div[@class="TypeList"]/ul/li/a/span/text()') print(page) href = lx.xpath('//div[@class="TypeList"]/ul/li/a/@href') print(href) img = lx.xpath('//div[@class="TypeList"]/ul/li/a/img/@src') print(img)
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容