Python Beautifulsoup find()通过设查找text关键字返回空值,是不是编码问题,还是其他问题?

Beautifulsoup find(text=xx)查找关键字返回空值,是不是编码问题,还是其他问题?

有网友说是编码问题的帖子:https://blog.csdn.net/sc_lilei/article/details/78764360 但是没有成功。

代码如下:

headers = {
           'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36",
           'Cookie': ""
           }

t = requests.get(url='http://www.piao88.com/ticket/3059.html', headers=headers).text
t.encoding = 'utf-8'

soup = BeautifulSoup(t, "lxml")
u = '周杰伦'
f = soup.find_all(text=u)
print(f)

3个回答

原来是确实搜不到内容

soup.find_all(text=re.compile(u))

不需要encoding

u = '周杰伦' 改为u = u'周杰伦' 试试。因为t.encoding = 'utf-8',已经转化为utf8编码,而搜索字符却没改。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Python+OpenCV计算机视觉

Python+OpenCV计算机视觉

python beautifulsoup find/find_all取内容

![图片说明](https://img-ask.csdn.net/upload/201605/16/1463408231_521270.jpg) ![图片说明](https://img-ask.csdn.net/upload/201605/16/1463408263_317108.jpg) 用beautifulsoup 怎么分别取出来这三个文字?

Python BeautifulSoup find_all 问题

用python爬下一个网页,将其弄成BeautifulSoup Object之后, 1. ptint bsObj 可以输出中文内容 2. print bsObj.find__all之后,输出的是unicode编码的内容,请问该怎么处理呢?_

python beautifulsoup find_all方法返回空列表

网页代码如下: ![图片说明](https://img-ask.csdn.net/upload/201710/12/1507790902_64154.png) 我的python代码: cards2 = soup.find_all('div',class_='product ') class的属性值我是复制粘贴过来的,find其他的div上没有问题,可是就是这个总是给我返回空列表 ![图片说明](https://img-ask.csdn.net/upload/201710/12/1507790921_470557.png) 网址为:https://list.tmall.com/search_product.htm?q=%CA%D6%BB%FA 请大神们帮忙看看是怎么回事

python beautifulsoup find函数连用出错

import urllib2 from bs4 import BeautifulSoup from urllib import urlretrieve url="https://www.pythonscraping.com" c=urllib2.urlopen(url) soup=BeautifulSoup(c,'html.parser') link=soup.find('a',{'id':'logo'}).find("img") 显示 Traceback (most recent call last): File "G:/helloworld/test.py", line 9, in <module> link=soup.find('a',{'id':'logo'}).find("img") AttributeError: 'NoneType' object has no attribute 'find' 不明白为什么,上网也没有找到答案,望大家帮助

python3中beautifulsoup的find函数的返回值的类型?

![![图片说明](https://img-ask.csdn.net/upload/201708/07/1502076565_904477.png)图片说明](https://img-ask.csdn.net/upload/201708/07/1502076553_327598.png)

Python BeautifulSoup获取属性值怎么?

代码如下: html=''' <img src = "//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png"alt = "hah"class ="poster-default"/> <img data-src = "https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c"alt = "abc" class ="board-img"/>''' from bs4 import BeautifulSoup soup=BeautifulSoup(html,"lxml") print(soup.prettify()) print(soup.findAll(attrs='data-src')) ``` 输出的list为空 [] ``` 我想用beautifulsoup 来获取data-src这个属性的值,也就是这个 "https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" 各位大神,**如果 不用 beautifulsoup 的 CSS 选择器**,怎么获取?

Python用BeautifulSoup里的get_text(),为什么不能输出"女间谍"

*才学python爬虫(python3.4),如何输出里面的"女间谍"呢?求教* ```python htmll ='''<a class="nbg" href="http://movie.douban.com/subject/25752261/" title="女间谍"> <img alt="女间谍" class="" src="http://img4.douban.com/view/movie_poster_cover/ipst/public/p2254455238.jpg"/> </a>''' from bs4 import BeautifulSoup soup = BeautifulSoup(htmll) print(soup.a.img.get_text()) #输出结果为空 ```

Python 3 如何用BeautifulSoup抓取配套的超链接?

目标是在这个天猫搜索页面上抓取与产品名配套的产品页超链接 ``` <p class="productTitle"> <p class="productPrice"> <em title="99.00"><b>¥</b>99.00</em> </p><a href="//detail.tmall.com/item.htm?id=538491424201&amp;skuId=3921901643206&amp;user_id=826813153&amp;cat_id=55778004&amp;is_b=1&amp;rn=fe7996c620a7e58ef91046c7b2ef0d24" target="_blank" title="TATA木门 简约卧室门实木复合门卫生间门定制室内厨房门特权订金" data-p="1-11" atpanel="1-11,538491424201,50022358,,spu,1,spu,826813153,,,"> TATA<span class="H">木门</span> 简约卧室门实木复合门卫生间门定制室内厨房门特权订金 </a> </p> ``` 我写的抓取 产品名 和 价格的爬虫代码如下 ``` import requests import bs4 import re import pandas as pd url='https://list.tmall.com/search_product.htm?spm=a220m.1000858.1000724.1.171973e4CgRths&cat=55778004&q=%C4%BE%C3%C5&sort=s&style=g&from=.detail.pc_1_searchbutton&industryCatId=55778004#J_Filter' response = requests.get(url).text soup = bs4.BeautifulSoup(response,'html.parser') name=[i.text.strip() for i in soup.findAll(name='p',attrs = {'class':'productTitle'})] sale_price = [float(i.text[2:-1]) for i in soup.findAll(name='p',attrs = {'class':'productPrice'})] jiaju = pd.DataFrame({'商品名':name,'卖价':sale_price,' jiaju ``` 如何用soup抓取和商品名和卖价配套的产品页超链接?

python BeautifulSoup 使用里面的html.string时候有什么要求吗?

![图片说明](https://img-ask.csdn.net/upload/201901/11/1547182714_482588.png) 像是这段html 。我用html.tbody.string 运行显示None。为什么?是因为tbody标签里面还有其他标签的原因吗?

python 使用BeautifulSoup 出错

``` import requests, bs4 res= requests.get(r'http://www.baidu.com') nostarchsoup=bs4.BeautifulStoneSoup(res.text) type(nostarchsoup) ``` 结果显示: UserWarning: The BeautifulStoneSoup class is deprecated. Instead of using it, pass features="xml" into the BeautifulSoup constructor. 'The BeautifulStoneSoup class is deprecated. Instead of using ' <class 'bs4.BeautifulStoneSoup'> 这是怎么回事呀?

Python中BeautifulSoup获取微博源代码不完整怎么办?

各位大神: 小弟是初学者,用Python3.7.0爬取微博中的“转发、评论和赞”的数据时,发现BeautifulSoup获取的内容与源代码不一致,请问是怎么回事? 源代码: ![图片说明](https://img-ask.csdn.net/upload/201902/27/1551230996_514571.png) 爬取结果: ![图片说明](https://img-ask.csdn.net/upload/201902/27/1551231276_765544.png)

Python里beautifulsoup提取出来的tag类型变量怎么操作?

有一个<class 'bs4.element.Tag'>类型的变量叫url,里面内容是img标签<img class="img_pic_layer" onload="window.speed.loadmark();" src="http://img0.bdstatic.com/img/image/shouye/xiaoxiao/PPT83.jpg"/>,我想提取其中的链接,请问要怎么操作?或者有没有其他用beautifulsoup的简单的从网站上爬取图片的方法吗?

python BeautifulSoup模块解码

在IDLE中执行下面的代码出现警告 代码: soup = BeautifulSoup(html.read().decode('utf-8','ignore'), "html") 警告是: WARNING:root:Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER. 官方解释是: In rare cases (usually when a UTF-8 document contains text written in a completely different encoding), the only way to get Unicode may be to replace some characters with the special Unicode character “REPLACEMENT CHARACTER” (U+FFFD, �). If Unicode, Dammit needs to do this, it will set the .contains_replacement_characters attribute to True on the UnicodeDammit or BeautifulSoup object. This lets you know that the Unicode representation is not an exact representation of the original–some data was lost. If a document contains �, but .contains_replacement_characters is False, you’ll know that the � was there originally (as it is in this paragraph) and doesn’t stand in for missing data. 我该怎么办呢?

Python 爬虫 find_all 发现多条数据,如何批量提取其中的数据,tag.text不可以提取列表

import requests from bs4 import BeautifulSoup res=requests.get('https://wordpress-edu-3autumn.localprod.oc.forchange.cn/all-about-the-future_04/comment-page-1/#comments') html=res.text items=BeautifulSoup(html,'html.parser') items1=items.find_all(id="comments") for item in items1: head=item.find_all(class_="comments-title") name=item.find_all(class_="fn") say=item.find_all(class_="says") date=item.find_all('time') content=item.find_all('p') print(head.text,'\n') print(name.text,'\n') print(say.text,'\n') print(date.text,'\n') print(content.text,'\n')

python中的BeautifulSoup用.contents获取子标签

.contents说明文档中解释是list,我用soup.thead.tr.contents获取后的值为: l = [<th>时间</th>,<th>指标名称</th>] 当我读取它时好像执行的是pop操作这是为什么 rst = BeautifulSoup() rst.append(l[1]) print(len(l)) 输出为1,少了一个

关于python2使用beautifulsoup定位元素的问题

![图片说明](https://img-ask.csdn.net/upload/201708/07/1502091057_104856.png) 详细图片![图片说明](https://img-ask.csdn.net/upload/201708/07/1502091430_831817.png) 小弟刚学习爬虫,公司有个相关的记录需要我爬取一下,请问各位大神我怎么样能够定位到图中蓝色的部分 页面已经爬取放在了soup中,我自己的方法是 res_node=soup.find('span',class_='text') 但是死活不出数据,请问问题是出在哪里?先谢谢各位了

[python]BeautifulSoup4爬虫解析网页中data-*标签的问题

![图片说明](https://img-ask.csdn.net/upload/201705/17/1495004162_275999.png) 我想要解析出图中的链接,通过先识别 li 定位。可是查看soup的文本,所有data-\* 都没有解析出来 代码如下 ``` keywords = input('输入关键词PLZ') res = requests.get('https://www.bing.com/search?q='+str(keywords)+'&qs=n&form=QBLH&scope=web&sp=-1&pq=abc&sc=8-5&sk=&cvid=3FE7B447AE744DD1AF25B5919EE1B675') try: res.raise_for_status() except Exception as ecp: print('There is an Exception:',ecp) soup = bs4.BeautifulSoup(res.text,'html.parser') ol = soup.find('ol',id='b_results') linkElement = soup.find_all(attrs={'data-bm':'7'}) ``` 结果linkElement为空

为什么用BeautifulSoup获取标签内容是None

soup里的内容 ![图片说明](https://img-ask.csdn.net/upload/201603/21/1458544141_888334.png) 我的代码 ``` for i in soup: print i.string ``` 为什么我获取的标签内容是None

爬虫BeautifulSoup的find().find_all()可以连起来用吗?

``` soup = bs(text, 'lxml') job_list = soup.find(name='div', class_='job-list').find_all(name='li') ``` 报错 AttributeError: 'NoneType' object has no attribute 'find_all' 网上下载了一份代码 运行这儿报错 应该怎么改正?

2019 Python开发者日-培训

2019 Python开发者日-培训

150讲轻松搞定Python网络爬虫

150讲轻松搞定Python网络爬虫

设计模式(JAVA语言实现)--20种设计模式附带源码

设计模式(JAVA语言实现)--20种设计模式附带源码

YOLOv3目标检测实战:训练自己的数据集

YOLOv3目标检测实战:训练自己的数据集

java后台+微信小程序 实现完整的点餐系统

java后台+微信小程序 实现完整的点餐系统

三个项目玩转深度学习(附1G源码)

三个项目玩转深度学习(附1G源码)

初级玩转Linux+Ubuntu(嵌入式开发基础课程)

初级玩转Linux+Ubuntu(嵌入式开发基础课程)

2019 AI开发者大会

2019 AI开发者大会

玩转Linux:常用命令实例指南

玩转Linux:常用命令实例指南

一学即懂的计算机视觉(第一季)

一学即懂的计算机视觉(第一季)

4小时玩转微信小程序——基础入门与微信支付实战

4小时玩转微信小程序——基础入门与微信支付实战

Git 实用技巧

Git 实用技巧

Python数据清洗实战入门

Python数据清洗实战入门

使用TensorFlow+keras快速构建图像分类模型

使用TensorFlow+keras快速构建图像分类模型

实用主义学Python(小白也容易上手的Python实用案例)

实用主义学Python(小白也容易上手的Python实用案例)

程序员的算法通关课:知己知彼(第一季)

程序员的算法通关课:知己知彼(第一季)

MySQL数据库从入门到实战应用

MySQL数据库从入门到实战应用

机器学习初学者必会的案例精讲

机器学习初学者必会的案例精讲

手把手实现Java图书管理系统(附源码)

手把手实现Java图书管理系统(附源码)

极简JAVA学习营第四期(报名以后加助教微信:eduxy-1)

极简JAVA学习营第四期(报名以后加助教微信:eduxy-1)

.net core快速开发框架

.net core快速开发框架

玩转Python-Python3基础入门

玩转Python-Python3基础入门

Python数据挖掘简易入门

Python数据挖掘简易入门

微信公众平台开发入门

微信公众平台开发入门

程序员的兼职技能课

程序员的兼职技能课

Windows版YOLOv4目标检测实战:训练自己的数据集

Windows版YOLOv4目标检测实战:训练自己的数据集

HoloLens2开发入门教程

HoloLens2开发入门教程

微信小程序开发实战

微信小程序开发实战

Java8零基础入门视频教程

Java8零基础入门视频教程

相关热词 c# 按行txt c#怎么扫条形码 c#打包html c# 实现刷新数据 c# 两个自定义控件重叠 c#浮点类型计算 c#.net 中文乱码 c# 时间排序 c# 必备书籍 c#异步网络通信
立即提问