爬取网站时，xpath出错了

问题遇到的现象和发生背景

在第26行，xpath表达式不正确

问题相关代码，请勿粘贴截图

from lxml import etree

import requests

if __name__ == '__main__':
    url = 'https://m.58.com/bj/ershoufang/?reform=pcfront'
    # UA伪装
    head = {
        'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Mobile Safari/537.36'
    }
    # universal crawler
    page_text = requests.get(url=url, headers=head).text
    # xpath
    parser = etree.HTMLParser(encoding='utf-8')
    tree = etree.HTML(page_text, parser=parser)
    print(tree)
    li_list = tree.xpath('//ul[@class="list"]/li[@class="item-wrap"]')
    print(li_list)
    with open(r'../gotpages/58secondhand_houses.txt', 'w', encoding='utf-8') as stream:
        for li in li_list:
            house_name = li.xpath('./span[@class="content-title"]/text()]')
            #print(house_name)
            stream.write(house_name)
            print(house_name)

运行结果及报错内容

F:\pythonfiles\PycharmProjects\CRAWLER\venv\Scripts\python.exe "F:/pythonfiles/PycharmProjects/CRAWLER/focused crawler-Data analysis/crawler_58com realization in xpath.py"
Traceback (most recent call last):
  File "F:\pythonfiles\PycharmProjects\CRAWLER\focused crawler-Data analysis\crawler_58com realization in xpath.py", line 26, in <module>
    house_name = li.xpath('./span[@class="content-title"]/text()]')
  File "src\lxml\etree.pyx", line 1597, in lxml.etree._Element.xpath
  File "src\lxml\xpath.pxi", line 305, in lxml.etree.XPathElementEvaluator.__call__
  File "src\lxml\xpath.pxi", line 225, in lxml.etree._XPathEvaluatorBase._handle_result
lxml.etree.XPathEvalError: Invalid expression

Process finished with exit code 1

我的解答思路和尝试过的方法

我想要达到的结果

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

4条回答默认最新

CSDN专家-showbo 2021-12-29 21:04

关注

多了个右中括号]，删除，xpath也有问题

改下面这样就可以了，house_name = li.xpath('.//span[@class="content-title"]/text()')[0]

import requests
from lxml import etree
if __name__ == '__main__':
    url = 'https://m.58.com/bj/ershoufang/?reform=pcfront'
    # UA伪装
    head = {
        'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Mobile Safari/537.36'
    }
    # universal crawler
    page_text = requests.get(url=url, headers=head).text
    # xpath
    parser = etree.HTMLParser(encoding='utf-8')
    tree = etree.HTML(page_text, parser=parser)
    print(tree)
    li_list = tree.xpath('//ul[@class="list"]/li[@class="item-wrap"]')
    print(li_list)
    with open(r'gotpages/58secondhand_houses.txt', 'w', encoding='utf-8') as stream:
        for li in li_list:
            house_name = li.xpath('.//span[@class="content-title"]/text()')[0]
            #print(house_name)
            stream.write(house_name)
            print(house_name)

有帮助或启发麻烦点下【采纳该答案】

本回答被题主选为最佳回答 , 对您是否有帮助呢?

编辑记录

查看更多回答(3条)

报告相同问题？

关注问题

用python爬取数据出错 python selenium 有问必答爬虫
2022-01-06 18:29

回答 2 已采纳那不很明显吗, 底层少包, 用pip安装 openpyxl
python爬虫通过xpath无法正常解析欲爬取元素 html python 爬虫
2022-01-04 18:04

回答 1 已采纳我是JAVA的xpath html.xpath("//table[@id='main_table_countries_today']/tbody/tr[@style=' ']").你看着修改下
爬取数据时出错，chromedriver安装不起， python 有问必答爬虫
2022-01-07 09:11

回答 3 已采纳安装与chrome浏览器对应的chromedriver.exe版本到python的Scripts文件夹下，该路径在系统环境变量中，在代码就不需要指定路径，直接写driver = webdriver.C
python爬取新闻网站内容_Python爬虫爬取新闻资讯案例详解
2020-11-23 22:27

weixin_39592315的博客一个简单的Python资讯采集案例，列表页到详情页，到数据保存，保存为txt文档，网站网页结构算是比较规整，简单清晰明了，资讯新闻内容的采集和保存！应用到的库requests，time，re，UserAgent，etreeimport requests...
xpath表达式，爬虫无法爬取 python
2023-02-20 09:01

回答 5 已采纳 import requests import pandas as pd from lxml import etree from bs4 import BeautifulSoup headers =
python爬虫爬小说时，爬了一百多张就会报错，从新启动后爬取速度变慢了 python 有问必答爬虫
2022-08-17 20:13

回答 5 已采纳可能是访问次数频繁，被禁止访问，解决方法：使用代理 python 关于Max retries exceeded with url 的错误_Lucas__liu的博客-C
Xpath使用出错了 python 爬虫
2022-07-15 16:27

回答 1 已采纳该页面数据是动态加载的,不是静态页面,所以是获取不到数据的
python爬虫系列：xpath爬取图片讲解（零基础向）
2021-06-23 18:33

西门林一的博客例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入...
scrapy下爬虫爬取子页面详细信息部分代码出错 python 爬虫
2021-12-07 21:42

回答 1 已采纳流程通了细节没改 import copy from scrapy import Request from scrapy.spiders import Spider class AniRank(S
爬取豆瓣电影top250最后只保留了一行数据，代码没出错 python 有问必答
2021-06-08 18:01

回答 3 已采纳 #保存数据 with open(r"书单",'a+',encoding="utf-8")as f: f.write("{},{},{},{}".format(title,rating_nu
python创建代理IP池，检测可用ip出错，求大神解惑 python 开发语言
2021-02-12 22:18

回答 3 已采纳哥们，你搞错try,except,finally的用法了。 1、当执行try...except之间的语句序列没有发生异常时，则忽略异常处理部分(except)的语句。 2、Except括起来的语句
python爬取网站的小说代码
2020-07-26 14:37

Atonement*的博客 ======================分割线==========================================================================注：如果遇到爬到一半突然报错的情况，可以重新运行然后更改从出错的章节开始运行即可。谷歌浏览器为例...
为什么python报错但是能运行出一部分正确结果呢？ python
2021-07-27 17:34

回答 1 已采纳 import requests from lxml import etree if __name__ == '__main__': url='http://www.netbian.com/
python能爬取网站后台数据_如何利用Python爬取网站数据？
2020-12-03 02:45

weixin_39719018的博客 1.基本方法其实用python爬取网页很简单，只有简单的几句话这样就可以获得到页面的内容。接下来再用正则匹配去匹配所需要的内容就行了。但是，真正要做起来，就会有各种各样的细节问题。2.登录这是一个需要登录认证的...
python爬取aspx数据_如何利用Python爬取网站数据？
2021-02-04 05:41

那些年灬的羁绊的博客 1.基本方法其实用python爬取网页很简单，只有简单的几句话这样就可以获得到页面的内容。接下来再用正则匹配去匹配所需要的内容就行了。但是，真正要做起来，就会有各种各样的细节问题。2.登录这是一个需要登录认证的...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月14日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月6日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 12月29日

悬赏问题

¥20 js怎么实现跨域问题
¥15 C++dll二次开发，C#调用
¥18 c语言期中复习题（求解）
¥15 请教，如何使用C#加载本地摄像头进行逐帧推流
¥15 Python easyocr无法顺利执行，如何解决？
¥15 求一个十多年前的国产符号计算软件（MMP）+用户手册
¥15 为什么会突然npm err！啊
¥15 java服务连接es读取列表数据，服务连接本地es获取数据时的速度很快，但是换成远端的es就会非常慢，这是为什么呢
¥15 vxworks交叉编译gcc报错error: missing binary operator before token "("
¥15 JSzip压缩文件时如何设置解压缩密码