Python爬虫只解析了一部分网页？

本想写个爬虫，把电影天堂搜索到的“名侦探柯南”的剧场版爬下来
结果遇到了这样的问题：

import requests
from lxml import etree

url = 'http://s.ygdy8.com/plus/s01.php?keyword=%C3%FB%D5%EC%CC%BD%BF%C2%C4%CF&searchtype=titlekeyword&channeltype=0&orderby=&kwtype=0&pagesize=10&typeid=1&TotalResult=24&PageNo={}'
url = url.format(1)

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53',
           'Referer':'http://s.ygdy8.com/plus/s01.php?typeid=1&keyword=%BF%C2%C4%CF'}
page_text = requests.get(url,headers=headers).content
html = etree.HTML(page_text)

发现html.xpath('//div[@class="co_content8"]/ul')
有一个元素，这是正常的：[<Element ul at 0x1f76b179900>]
但是html.xpath('//div[@class="co_content8"]/ul/table')
就没有了：[]
利用html.xpath('//text()')查看爬取的内容
只截至到了第一个电影的标题：

['\r\n', '\r\n', '\r\n', '电影天堂-迅雷电影下载 - 名侦探柯南 - 搜索结果', '\r\n', '\r\n ', 'kstatus(); function kstatus(){self.status="喜欢本站使用 Ctrl+D 进行添加收藏,记得分享给您的朋友哦，TA会感谢您，谢谢支持！"; setTimeout("kstatus()",0);} function a() {   alert("亲,请使用 Ctrl+D 进行添加收藏!");}', '\r\n', '\r\n\t\t\t\t', '\r\n                      ', '\r\n\t\t\t\t\t', '\r\n\t\t\t\t\t\r\n\t\t\t', '\r\n\t\t\r\n\t\t', '\r\n\t\t\t\t\t', '\r\n', '最新影片', '\r\n', '经典影片', '\r\n', '国内电影', '\r\n', '欧美电影', '\r\n', '日韩电影', '\r\n', '华语电视', '\r\n', '日韩电视', '\r\n', '欧美电视', '\r\n', '最新综艺', '\r\n', '旧版综艺', '\r\n', '动漫资源', '\r\n', '游戏下载', '\r\n', '高分经典', '\r\n', '收藏本站', '\r\n\t\t', '\r\n\t\t \r\n ', '\r\n\r\n\r\n', '\r\n', '\r\n', '\r\n \r\n', '\r\n \r\n', '\r\n \r\n', '\r\n', '\r\n', '\r\n \r\n\r\n', '\r\n', '当前位置：下载页面  返回', '电影下载首页', '\xa0 \xa0 \xa0 \xa0\xa0\xa0', ' ', '第二下载地址点击进入', '\xa0\xa0\xa0\xa0\xa0', ' ', '手机访问请下载本站app,点击进入！', '\xa0\xa0  \xa0 ', '  ', '\r\n', '\r\n\r\n', '\r\n', '\r\n', '\r\n\r\n\r\n', '\r\n', '\r\n', '手机访问请扫码下载本站app', '\r\n', '\r\n', '\r\n', ' ', '\r\n', '\r\n', '\r\n', '\r\n\r\n', '\r\n', '赞助位置', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n\r\n', '\r\n', '\r\n \r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '搜索:', '\r\n', '\r\n', '\r\n', '电影', '\r\n', '电视剧', '\r\n', '综艺', '\r\n', '旧综艺', '\r\n', '游戏', '\r\n', '动漫', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', ' ', '\xa0\xa0', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '\r\n', '电影天堂-迅雷电影下载 >> 搜索 “名侦探柯南” 结果：', '\r\n\r\n', '\r\n', '\r\n', ' \r\n', '\r\n\t', '\r\n', ' \r\n', '\r\n', '2018年悬疑《', '名侦探柯南', '：零的执行人》BD国日双语中字', '\r\n \r\n', '\r\n', ' \r\n', ' \u3000\u3000[', '名侦探柯南', '：零的执行人][BD-mkv.720p.国日双语中字][2018年悬疑] ◎译 名 ', '名侦探柯南', '：零的执行人/', '名侦探柯南', '：零之执行人/', '名侦探柯南', '2018/', '名侦探柯南', '剧场版2018 ◎片 名 名探']

我尝试：

with open('what.txt','wb') as f:
    f.write(page_text)

结果中出现了除《零的执行人》外的其他电影：

<div class="co_content8">
<ul>
<tr> 
<td height="346" valign="top">
    <table border='0' width='100%'>
<tr height='24'> 
<td width='6%' align="center"><img src="/img/file.gif" width="18" height="17"></td>
<td width='55%'><b><a href='/html/gndy/dyzz/20181110/57771.html'>2018年悬疑《<font color='red'>名侦探柯南</font>：零的执行人》BD国日双语中字</a></b></td>
 
</tr>
<tr> 
<td height="56" colspan='3'> 　　[<font color='red'>名侦探柯南</font>：零的执行人][BD-mkv.720p.国日双语中字][2018年悬疑] ◎译 名 <font color='red'>名侦探柯南</font>：零的执行人/<font color='red'>名侦探柯南</font>：零之执行人/<font color='red'>名侦探柯南</font>2018/<font color='red'>名侦探柯南</font>剧场版2018 ◎片 名 名探偵コナン ゼロの執行人 / Detective Conan: Zero the Enforcer / Meitantei Conan: Zero n<font color='#8F8C89'>(2018-11-10)</font> 
</td>
</tr>
<tr> 
<td height='2' colspan='4' background='/img/writerbg.gif'></td>
</tr>
</table><table border='0' width='100%'>
<tr height='24'> 
<td width='6%' align="center"><img src="/img/file.gif" width="18" height="17"></td>
<td width='55%'><b><a href='/html/gndy/dyzz/20191005/59203.html'>2019年悬疑动画《<font color='red'>名侦探柯南</font>：绀青之拳》BD国日双语中字</a></b></td>
 
</tr>
<tr> 
<td height="56" colspan='3'> 　　<font color='red'>名侦探柯南</font>：绀青之拳 1080p BD国日双语中字 2019年悬疑动画 ◎译 名 <font color='red'>名侦探柯南</font>：绀青之拳 / Detective Conan: The Fist of Blue Sapphire / <font color='red'>名侦探柯南</font>2019 / <font color='red'>名侦探柯南</font>：深蓝之拳 ◎片 名 名探偵コナン 紺青の拳 ◎年 代 2019 ◎产 地 日本 ◎类 别 动画/悬疑 ◎语<font color='#8F8C89'>(2019-10-05)</font> 
</td>
</tr>
<tr> 
<td height='2' colspan='4' background='/img/writerbg.gif'></td>
</tr>
</table><table border='0' width='100%'>
<tr height='24'> 
<td width='6%' align="center"><img src="/img/file.gif" width="18" height="17"></td>

好像我的xpath语法也没错，为什么会出现这样的情况呢

另外电影天堂page_text = requests.get(url,headers=headers).content.decode()
用utf-8和gbk解码都有不能识别的内容，咋办啊

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Syb呀呀 2021-11-19 15:49
关注
第一个问题，你用html.xpath('//div[@class="co_content8"]/ul/table')找不到，是因为在table那一类，有很多分支标签，所以定位不到具体的元素。
第二个问题跟上一个同理，你用//text()取标题，可能直接复制网页的xpath？
综上，链接和标题提取，都可以直接以table为起始，xpath语法为 //table/tbody/tr/td/b/a/@href (链接) //table/tbody/tr/td/b/a/text() （标题）
第三个编码问题，这个网站源码已经写了charset=gb2312，所以编码是gb2312
部分代码：

import requests from lxml import etree headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53'} url='http://s.ygdy8.com/plus/s01.php?keyword=%C3%FB%D5%EC%CC%BD%BF%C2%C4%CF&searchtype=titlekeyword&channeltype=0&orderby=&kwtype=0&pagesize=10&typeid=1&TotalResult=24&PageNo=1' res=requests.get(url,headers=headers,timeout=5) res.encoding='gb2312' dom=etree.HTML(res.text) xp_href=dom.xpath("//table/tbody/tr/td/b/a/@href") xp_title=dom.xpath('//table/tbody/tr/td/b/a/text()')
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

【Python编程】基于Python的网络爬虫技术详解：爬虫架构与BeautifulSoup解析库的应用
2025-07-12 20:51

文档阐述了Python爬虫的五大组成部分：调度器、URL管理器、网页下载器、网页解析器和应用程序。其中，调度器负责协调各组件工作；URL管理器避免重复抓取；网页下载器使用urllib2或requests库下载网页；网页解析器...
Python 爬虫入门的教程之Beautiful Soup解析
2023-11-21 11:18

本教程主要讲解 Python 爬虫入门知识，通过 Beautiful Soup 解析网页，抓取中国旅游网首页信息，了解网页结构，使用 requests 库抓取网站数据，并进行数据清洗和组织。一、了解网页结构网页结构主要由三部分组成...
Python爬虫实战：抓取与解析网站文本内容
2024-11-18 00:55

内容概要：本文介绍了一个用 Python 实现的爬虫实例，主要分为环境准备、编写基本爬虫代码、高级爬虫（如模拟登录）三个部分。文章详细讲解了如何利用 requests 和 BeautifulSoup4 库进行网页请求与HTML解析，提取所...
python爬虫详解.pdf
2023-03-03 09:35

3. Python爬虫的组成部分 - 调度器：负责协调URL管理器、下载器、解析器之间的工作，确保爬虫的流程有序进行。 - URL管理器：维护待爬取和已爬取的URL列表，防止重复和无限循环。 - 网页下载器：接收URL，下载网页...
基于python爬虫的中国疫情数据可视化分析
2022-04-24 15:32

Python爬虫是一种自动化程序，用于从互联网上抓取大量数据。在这个项目中，我们将使用Python的requests库来发送HTTP请求，获取网页内容；BeautifulSoup库解析HTML或XML文档，提取所需的数据；以及可能用到的Selenium...
解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫全套教学资料
2021-10-25 19:26

本套教学资料深入解析了Python爬虫的核心技术、Scrapy框架以及分布式爬虫的实现，旨在帮助学习者掌握这一领域的核心技能。一、Python爬虫核心技术 Python语言因其简洁明了的语法和丰富的第三方库而成为网络爬虫...
Python爬虫详解（一看就懂）
2022-06-21 22:07

练习时长两年半的Programmer的博客比如我要获取豆瓣电影 Top250 榜单，如果不用爬虫，我们要先在浏览器上输入豆瓣电影的 URL ，客户端（浏览器）通过解析查到豆瓣电影网页的服务器的 IP 地址，然后与它建立连接，浏览器再创造一个 HTTP 请求发送给...
穿越动态迷雾：Python 爬虫捕获网页动态元素全攻略
2024-07-07 03:55

Python 爬虫，通常被称为 Python Spider 或 Python Web Scraper，是一种使用 Python 编程语言编写的自动化脚本或程序，用于从互联网上的网站提取信息。这种程序可以访问网页，解析页面内容，并从中提取出有用的数据...
Python爬虫系列（一）——手把手教你写Python爬虫
2021-10-23 15:47

纸照片的博客这一部分我写在另一篇文章了，Python爬虫批量下载百度图片–点击跳转 5. 后言爬虫还是比较好入门的，这得益于成熟的爬虫工具。爬虫可以满足自己的个性化搜索需求，大家赶快动手试试吧。（如果觉得文章还不错的话...
python爬虫数据可视化分析大作业.zip
2020-06-12 15:39

在本项目中，"python爬虫数据可视化分析大作业.zip" 是一个综合性的学习资源，主要涉及了Python编程中的两个重要领域：网络爬虫（Web Scraping）和数据可视化（Data Visualization）。通过这个作业，我们可以深入...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月29日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月21日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月19日

Python爬虫只解析了一部分网页？

1条回答 默认 最新

问题事件

1条回答默认最新