爬取百度网页标题时，无法提取出完整的一条文字

百度搜索手机壁纸，一般有10个标题，我想把这些标题都提取出来

然后用xpath提取的，用F12调出页面尝试提取可以完整取出，但是在pychram中运行时，提取出来的结果是
['手机壁纸', ' - 百度图片', '【', '手机壁纸', '】高清', '手机壁纸',]
同一个标题下em标签加强的文字和其他文字都被隔断了

代码如下：
tree=etree.HTML(html)
titles=tree.xpath('//div[@id="content_left"]//h3/a//text()')
print(titles)

希望能完整的提取出标题，不知道是哪里出问题了，求指点

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
-Undefined_ 2021-11-19 12:37
关注
完整的代码贴一下

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

爬取百度网页标题时，无法提取出完整的一条文字爬虫
2021-11-19 12:33

回答 1 已采纳完整的代码贴一下
爬取的网页代码一堆无规则英文字母 python 爬虫
2022-07-17 20:04

回答 2 已采纳这不是乱码，其实这一串字符串是，img标签中的图片使用base64编码的结果
python爬取百度手机号网页 python 有问必答
2021-09-24 13:08

回答 2 已采纳可以用requests.post获取，需要将参数正确传递。代码可以这么写： import requests import time num=input('input cellphone number:
08. Springboot集成webmagic实现网页爬虫
2024-01-21 19:46

有一只柴犬的博客如果将现有网络上的海量数据使用爬虫工具将数据爬取保存下来，并进行分析，就可以挖掘出一些潜在的价值。而现在市面上也出现了很多爬虫工具以及爬虫框架，今天将介绍下Java体系下一款简单使用的爬虫框架WebMagic，并...
用爬虫爬取网页，表格第一行内容无法获得 python 爬虫
2021-12-14 09:11

回答 1 已采纳如果是想要获得标题，表头用的是th，不是td。和表格正文内容不是一样的。
爬取网页需要完整代码用两种方法 python 有问必答
2021-10-25 15:47

回答 2 已采纳页面数据接口这个，修改下page参数获取指定页的数据即可，不过接口返回的是html代码，具体内容需要用BeautifulSoup解析下 https://www.maigoo.com/brand/sea
在网络爬取百度图片时遇到的问题 python 有问必答
2021-12-11 15:28

回答 1 已采纳 download改下面这样就行了，保存的文件路径有问题，而且正则也搞错了，objURL，不是ObjURL，搞得没取出路径调试了下，发现大小写写错了，-_-||。。 def download(List
【python教程入门学习】用python3教你任意Html主内容提取
2021-10-12 14:27

燕山588的博客工欲善其事必先利其器，爬取语料的根基便是基于python。我们基于python3进行开发，主要使用以下几个模块：requests、lxml、json。简单介绍一个各模块的功能 01｜requests requests是一个Python第三方库，处理URL...
selenium爬虫爬取网页信息时出现用户登陆怎么解决？ python 有问必答
2022-08-25 16:21

回答 5 已采纳 emmm，你可以先打开浏览器进行登录，再让selenium接管浏览器：https://blog.csdn.net/qq254271304/article/details/103493969或者你再程序
爬取类似快看漫画网页无法获取到完整的元素 python 有问必答
2021-05-17 16:12

回答 3 已采纳这个是简单的反爬虫机制，数据没有直接渲染在html元素上，而是在js中，然后再用js脚本去把数据渲染在html元素中，页面我看了在最下面的页面script标签里面有漫画的url地址，你可以用正则去
python爬取房源，可以运行，但是每次只爬出一条是什么原因？ python
2022-09-22 19:36

回答 3 已采纳已修改，爬到不止一页，就是你信息提取包括了一些其他符号，自己再处理一下就好了 from lxml import etree import requests import csv import tim
有哪些网站用爬虫爬取能得到很有价值的数据？
2019-05-05 17:47

BC_COM的博客 1、微信好友的爬虫，了解一下你的好友全国分布，男女比例，听起来似乎是一个不错的想法，当然你还可以识别一下你的好友有多少人是用自己照片作为头像的，详细的内容可以点击这里：Python对微信好友进行简单统计分析 ...
python 爬取网页时出现多种错误 python selenium 有问必答
2021-10-26 22:34

回答 2 已采纳代码中anal.xpath（//*[@id= Pating 一 app-profile-ratings"]/div[2]/div/div/span[1]/meta[2])可能获取到为空列表，不能用[0
《开端》为什么这么火？Python 爬取了3w+评论数据，终于发现了其中的秘密
2022-01-26 10:02

Python数据挖掘的博客大家好，本文是对腾讯热播剧《开端》的一次爬虫与数据分析，耗时一个小时，总爬取条数3W条评论，很适合新人练手，值得注意的一点是评论的情绪文本分析处理，这是第一次接触的知识。喜欢记得收藏、点赞、关注。代码文...
Python爬虫——爬取博物馆新闻 + 情感倾向分析 + 导入数据库
2021-05-12 21:12

JohnShouie的博客首先，要找一个教程，B站上有很多，不要看书或者看博客，因为视频能展示更多信息，很多会踩的坑是很难用文字一一表述出来的，那样会使文章显得臃肿，而在视频里可能就是半分钟的debug，而且视频能帮你快速建立对新...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 11月28日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 11月20日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 11月19日

悬赏问题

¥15 关于#目标检测#的问题：大概就是类似后台自动检测某下架商品的库存，在他监测到该商品上架并且可以购买的瞬间点击立即购买下单
¥15 神经网络怎么把隐含层变量融合到损失函数中？
¥30 自适应 LMS 算法实现 FIR 最佳维纳滤波器matlab方案
¥15 lingo18勾选global solver求解使用的算法
¥15 全部备份安卓app数据包括密码，可以复制到另一手机上运行
¥20 测距传感器数据手册i2c
¥15 RPA正常跑，cmd输入cookies跑不出来
¥15 求帮我调试一下freefem代码
¥15 matlab代码解决，怎么运行
¥15 R语言Rstudio突然无法启动

爬取百度网页标题时，无法提取出完整的一条文字

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新