渣渣请教python爬虫xpath问题

各位大神，小弟我最近爬取闲鱼商品的时候出现个问题：
这个是网页源码截图，我想爬取里面这个赞数：
图片说明
网页链接：https://2.taobao.com/item.htm?id=538626368021
下面是我的源码：

 #! /usr/bin/env python
#coding=utf-8

import urllib
from bs4 import BeautifulSoup
import re
from lxml import etree

"""
https://s.2.taobao.com/list/list.htm?\
spm=2007.1000337.0.0.WOjjAq&st_trust=1&page=3&q=%C0%D6%B8%DF&ist=0
"""


def get_html(page=1, q="lego"):
    """获取商品列表页源代码，返回源代码content"""
    params = {
              "spm":"2007.1000337.0.0.WOjjAq",
              "st_trust":"1",
              "page":page,
              "q":q,
              "ist":"0"
     }

    info = urllib.urlencode(params)
    url = "https://s.2.taobao.com/list/list.htm?" + info

    html = urllib.urlopen(url)
    content = html.read()
    html.close()

    return content



def get_url(content):
    """从商品列表页源代码中获取商品页url，返回url的列表"""
    soup = BeautifulSoup(content, "lxml")
    div_box = soup.find_all('div', class_='item-info')

    url_list = []

    for div in div_box:
        url=div.find('h4', class_='item-title').a['href']
        url_c = "https:" + url
        url_list.append(url_c)    

    return url_list



def get_product(url):

    html = urllib.urlopen(url)
    content = html.read()
    html.close()
    content1 = content.decode('gbk').encode('utf-8')

    rempat = re.compile('&')
    content1 = re.sub(rempat,'&amp;',content1)

    root = etree.fromstring(content1)
    zan = root.xpath('.//div[@id="J_AddFav"]/em/text()]')
    return zan

if __name__ == '__main__':

    content = get_html(1,"lego")
    url_list = get_url(content)
    url1 = url_list[1]
    print url1
    print get_product(url1)

问题出现在这里：

 root = etree.fromstring(content1)

图片说明

除了将&替换成&外没有对网页源码进行改动，不知为何源码会报错……

谢谢各位大神了，我是技术渣（我是学化学的……最近工作需要，拿闲鱼来练手，结果卡在这里一天了）

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
oyljerry 2016-09-16 03:46
关注
content1的内容打印看看，好像格式不对

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫xpath解析返回为空有什么解决方法吗 python 爬虫
2021-12-10 11:12

回答 1 已采纳为空的地方xpath主要是为了拿到什么数据，贴一下网页和要拿到的数据，帮你写一下xpath。上面图上的xpath那么长那么绝对路径，大概率拿不到数据的。
Python爬虫 xpath 列表为空 python 有问必答爬虫
2022-03-08 08:32

回答 2 已采纳第二个li的div下少了结束标签导致etree解析出错了少了div结束标签后，etree将建筑类别后的几点全部归类到第二li下了，改下面这样就可以了 import requests from lxm
python爬虫关于xpath提取出来为空列表的问题 python 有问必答爬虫
2021-09-30 17:40

回答 2 已采纳你检查下这个网页中的内容是不是通过js代码读取外部json数据来动态更新的。requests只能获取网页的静态源代码，动态更新的内容取不到。对于动态更新的内容要用selenium 来爬取。或者是通
Python继承和重写、多态、爬虫xpath
2023-04-29 19:35

老树盘根_的博客 Poker(Poker.color, Poker.num) print(P1.puke) # 实例化荷官 H1 = heguan() # 荷官洗牌 H1.shuffle_cards(P1.puke) # 洗牌之后的牌 print(P1.puke) # 实例化4个玩家 play_name = ['李狗蛋', '王二狗', '渣渣辉', '...
有谁能够解答吗 Python爬虫 XPath python 爬虫
2021-11-21 00:19

回答 2 已采纳你需要先确定返回的响应内容中有没有这些分类信息，有的话则是xpath没写对。没有分类信息的话，需要在请求时构造和浏览器相同的请求头信息。爬虫逆向社区-爬虫逆向论坛-
Python爬虫 XPath 爬取的数据为空 python
2021-11-20 15:43

回答 2 已采纳
python爬虫运行问题 python 数据挖掘爬虫
2023-01-06 11:14

回答 1 已采纳 pip install openpyxl 安装下这个openpyxl库。望采纳哦！！！！
python自制英汉词典不用爬虫_python小说全站爬虫，渣渣程序需改进
2020-12-15 11:48

weixin_39574246的博客 [Python] 纯文本查看复制代码import requestsfrom lxml import etreeimport timeimport reimport osimport threading#9.20修改get_url()def get_url():# 全书网每个栏目的urlfor i in range(1,12):url = '...
请教python xpath抓取数据问题 python
2020-11-13 13:54

回答 2 已采纳看了一下，很明显这些数据都是通过js向后台获取的数据接口是http://sia.sseinfo.com/noc.gif?WS=10000042&RD=record&SWS=&SWSID=&SWSP
python爬虫通过xpath无法正常解析欲爬取元素 html python 爬虫
2022-01-04 18:04

回答 2 已采纳我是JAVA的xpath html.xpath("//table[@id='main_table_countries_today']/tbody/tr[@style=' ']").你看着修改下
python爬虫，etree模块有问题 python 爬虫
2022-07-02 00:17

回答 1 已采纳你HtML 中T写成小写了, HTML应该是全大写另外 li 是 Element元素不能与字符串拼接. 需要用li.text获取元素中的文本print(li+'\n')fp.write(li+'\
Python爬虫，pentagram图片及数据采集爬虫
2021-05-22 00:40

二爷记的博客很久没有写爬虫了，随手写了一个爬虫，分享给大家，目标是获取所有图片及数据内容，由于图片存在多张，故简单的采用了多线程来采集下载图片，同时也简单的运用python写入txt构建了一下爬取过程...
Python网络爬虫 XPath 找关键字 python
2021-11-20 14:36

回答 1 已采纳爬虫代码发出来啊，要不别人咋帮你分析
Python爬虫，python台湾金点设计奖数据采集源码
2020-11-19 18:05

二爷记的博客渣渣写的爬虫，也是以前就写过的一个网站，采集官方数据，应用python进行数据采集抓取，同时进行了try.except报错处理，算是可以运行完毕的爬虫，同时将报错相关记录写入到了txt文...
Python爬虫，超简单nendo官网作品图片爬虫demo
2020-12-25 18:04

二爷记的博客一个简单的demo，Python采集下载图片，其中图片下载的时候采用了简单的多线程下载，未涉及到其他知识，比较简单，属于拿来就能使用的demo，供大家参考和学习，如有疑问可以加本渣渣微信...
没有解决我的问题, 去提问

悬赏问题

¥15 js，页面2返回页面1时定位进入的设备
¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥15 绘制多分类任务的roc曲线时只画出了一类的roc，其它的auc显示为nan
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀