raise etree.ParserError( lxml.etree.ParserError: Document is empty

原始代码

import requests 
import lxml.html 
import csv 

doubanUrl = 'https://movie.douban.com/top250?start={}&filter='

def getSource(url):
    response = requests.get(url)
    response.encoding = 'utf-8'
    return response.content 
def getEveryItem(source):
    selector = lxml.html.document_fromstring(source)
    movieitemlist = selector.Xpath('//div[@class="info"]')
    movieList = []
    
    for eachMovie in movieitemlist:
        movieDict = {}
        title = eachMovie.Xpath('div[@class="hd"/a/span[@class="title"]/text()')
        otherTitle = eachMovie.Xpath('div[@class="hd"/a/span[@class="other"]/text()')
        link = eachMovie.Xpath('div[@class="hd"/a/@href')
        star = eachMovie.Xpath('div[@class="bd"/div[@class="star"]/span[@class="rating_num"]/text()')
        quote = eachMovie.Xpath('div[@class="bd"/p[@class="quote"]/span/text()')

        movieDict['title'] = ''.join(title+otherTitle)
        movieDict['url'] = link
        movieDict['star'] = star
        movieDict['quote'] = quote
        print(movieDict)
        movieList.append(movieDict)
    return movieList

def writeData(movieList):
    with open('MovieDouban.csv','w',encoding='UTF-8') as f:
        writer = csv.DictWriter(f,fieldnames=['title','star','quote','url']) 
        writer.writeheader() 
        for each in movieList:
            write.writerow(each)

if __name__=='__main__': 
    movieList = []
    for i in range(10):

        pageLink = doubanUrl.format(i * 25)
        print(pageLink)
        source = getSource(pageLink) 
        movieList += getEveryItem(source)
        #movieList = movieList + getEveryItem(source)
    print(movieList[:10])

    writeData(movieList)

报错如下

C:\Users\abc\AppData\Local\Programs\Python\Python38-32\python.exe C:/Users/abc/.PyCharmCE2019.3/config/scratches/scratch_1.py
https://movie.douban.com/top250?start=0&filter=
Traceback (most recent call last):
  File "C:/Users/abc/.PyCharmCE2019.3/config/scratches/scratch_1.py", line 63, in <module>
    movieList += getEveryItem(source)
  File "C:/Users/abc/.PyCharmCE2019.3/config/scratches/scratch_1.py", line 18, in getEveryItem
    selector = lxml.html.document_fromstring(source)
  File "C:\Users\abc\AppData\Local\Programs\Python\Python38-32\lib\site-packages\lxml\html\__init__.py", line 763, in document_fromstring
    raise etree.ParserError(
lxml.etree.ParserError: Document is empty


Process finished with exit code 1

系统报错该怎么解决？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
恋人十二划 2020-10-09 17:36
关注
其实你这个是网址设置了反爬，你可以试一下这个代码
import requests
url = 'https://movie.douban.com/top250?start=0&filter='
response = requests.get(url)
print(response)
返回值是 Response [418]，说明你请求失败了
你的第一个函数getSource的返回值格式不管是responsr.text还是response.content，其结果都为空，既然getSource的返回值为空，那么后面第二个函数getEveryItem中selector的赋值自然就会报错，因为在 lxml.html.document_fromstring()的源代码中说了（）里不能为空。
所以解决的方法就是设置请求头header

解决 9

无用 6
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python报错：lxml.etree.XPathEvalError: Invalid expression，如何解决？ python 有问必答
2022-03-30 23:22

回答 2 已采纳 Bigtit_list = html.xpath('//<div[@class="book-mid-info"]/h2/a/text()') div前面的<去掉改成 Bigtit_li
python xpath解析报错，etree.HTML python 有问必答
2021-05-17 19:37

回答 3 已采纳经测试在vscode终端代码运行正常，尝试升级lxml版本，代码中还有个小问题，在img_name=li.xpath('./a/img/@alt')[0]+'jpg'的jpg前面要加个点，即.jpg，
想请教一下，为啥使用lxml.etree.HTML()，解析出来的是个空[ ],, python
2022-05-27 09:44

回答 2 已采纳先打印网页文本，看看有没有这个数据，没有就是反爬了！
爬去网页时出现raise etree.ParserError(lxml.etree.ParserError: Document is empty问题，想知道哪里出现了错误源代码如下
2023-11-17 08:28

SWDYSQBL的博客 response = requests.get(url) response.encoding = 'utf-8' return response.content def getEveryItem(source): selector = lxml.html.document_fromstring(source) movieItemList = selector.xpath('//div[@class...
lxml 解析的时候：lxml.etree.XMLSyntaxError: Start tag expected, '<' not found, line 1, col python xml
2022-08-31 12:09

回答 2 已采纳 lxml.etree.XMLSyntaxError: Start tag expected, '<' not found, line 1, column 1有特殊字符，需要转义处理一下，具体可以
etree.HTML报错 python
2022-02-22 11:28

回答 1 已采纳代码发一下
新版本lxml用不了etree.HTML怎么办 python
2022-09-08 15:27

回答 2 已采纳是这样用的呀： from lxml import etree html = etree.HTML(response.text) ret_list = html.xpath("xpath字符串")
parsererror是什么意思中文翻译python-Python etree.ParserError方法代码示例
2020-11-11 15:01

weixin_39921689的博客本文整理汇总了Python中lxml.etree.ParserError方法的典型用法代码示例。如果您正苦于以下问题：Python etree.ParserError方法的具体用法？Python etree.ParserError怎么用？Python etree.ParserError使用的例子？...
PYTHON etree无法获得数据 python 爬虫
2021-08-27 14:40

回答 2 已采纳代码书写没问题，是你ps = tree.xpath('//head/text()')匹配的原因。
Python无法使用xpath解析带命名空间的html标签 html python 爬虫
2022-04-13 10:57

回答 1 已采纳 xml.etree.ElementTree --- ElementTree XML API基本库了解一下解析带有命名空间的 XML 如果 XML 输入带有命名空间，则具有前缀的 prefix:s
python的xpath问题 python 有问必答
2022-04-06 14:17

回答 4 已采纳 import requests from lxml import etree url = "http://finance.sina.com.cn/zl/china/2022-04-06/zl-im
python etree.parse参数,使用Python解析大型xml文件-etree.parse错误
2021-02-19 12:05

Pellegrini的博客 Trying to parse the following Python file using the lxml.etree.iterparse function."sampleoutput.xml"Item 1Description 1Item 2Description 2before the etree.iterparse(MYFILE) call I did MYFILE = open("/...
lxml.etree有个getchildren()的方法被废弃了，那该用什么来替代？ python
2019-03-29 23:11

回答 2 已采纳没想到最后还是要靠自力更生啊。。。等了2天只有楼上刷了个莫名其妙问东答西的答案，可能是我问的比较没水平吧不过这个问题我是彻底弄明白了，写出来给后面的有缘人首先，我之前自己没有我完全搞懂xpat
xpath修复html错误,【python】xpath解析html文件报错：lxml.etree.XPathEvalError: Invalid expression...
2021-06-23 06:09

Fay li的博客使用xpath解析一个简单的html文件，想获取href属性的值：html = etree.parse('test.html',etree.HTMLParser())print(html.xpath('//li/a@href'))运行后报错：lxml.etree.XPathEvalError: Invalid ...
【python爬虫】parse加载本地HTML文件：lxml.etree.XMLSyntaxError报错的分析和解决方案
2023-02-14 20:12

奕雨.的博客 lxml.etree.XMLSyntaxError报错的分析和解决方案
lxml.etree.XMLSyntaxError解决方法
2020-12-18 13:48

sjyOvO的博客 lxml.etree.XMLSyntaxError解决方法在练习lxml数据解析的时候，用parse方法加载本地的html文件时出现如下错误： lxml.etree.XMLSyntaxError: EntityRef: expecting ‘;’, line 2, column 286 原因： html代码书写...
python中的网页解析器_Python 爬虫网页，解析工具lxml.html（一）
2020-11-26 05:26

weixin_39813200的博客 packages/lxml/html/__init__.py in fragment_fromstring(html, create_parent, base_url, parser, **kw) 850 raise etree.ParserError( 851 “Multiple elements found (%s)” --> 852 % ‘, ‘.join([_element_...
lxml.etree.XMLSyntaxError问题的解决方法
2019-10-18 16:18

Kwoky的博客 lxml.etree.XMLSyntaxError: xmlParseEntityRef: no name, line 18, column 258 原因： html代码书写不规范，不符合xml解析器的使用规范解决的办法：使用parse方法的parser参数： parser = etree.HTMLParser(e....
etree.html 报错 AttributeError:‘function’ object has no attribut ‘HTML’
2022-04-14 23:43

舒寒拽少的博客 python 3.5以上版本lxml中没有了etree, 要换另外一种方式引入： from lxml import html etree = html.etree() 2.报错：AttributeError:‘function’ object has no attribut ‘HTML’ 以上换了还是解决不
fatal error: Python.h: No such file or directory
2020-05-26 16:12

FreyFan的博客在ubuntu16.04 下安装python的 netifaces包时遇到fatal error: Python.h: No such file or directory问题首先查看/user/include/python2.x目录，是否包含Python.h，如果有的话可能是python版本不对如果没有的话，...
没有解决我的问题, 去提问

悬赏问题

¥15 素材场景中光线烘焙后灯光失效
¥15 请教一下各位，为什么我这个没有实现模拟点击
¥15 执行 virtuoso 命令后，界面没有，cadence 启动不起来
¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
¥20 有关区间dp的问题求解
¥15 多电路系统共用电源的串扰问题
¥15 slam rangenet++配置
¥15 有没有研究水声通信方面的帮我改俩matlab代码
¥15 ubuntu子系统密码忘记
¥15 保护模式-系统加载-段寄存器

raise etree.ParserError( lxml.etree.ParserError: Document is empty

2条回答 默认 最新

悬赏问题

2条回答默认最新