2 u014148140 u014148140 于 2015.07.26 09:25 提问

Python用BeautifulSoup里的get_text(),为什么不能输出"女间谍"

才学python爬虫(python3.4),如何输出里面的"女间谍"呢?求教

htmll ='''<a class="nbg" href="http://movie.douban.com/subject/25752261/" title="女间谍">
<img alt="女间谍" class="" src="http://img4.douban.com/view/movie_poster_cover/ipst/public/p2254455238.jpg"/>
</a>'''

from bs4 import BeautifulSoup
soup = BeautifulSoup(htmll)
print(soup.a.img.get_text())   #输出结果为空


2个回答

u012374229
u012374229   2015.07.26 11:00
已采纳

img是个非封闭标签,哪里有text?改成 soup.a.img['alt']才行, 还有html1的赋值, 应该是三引号吧,复制代码时不要弄错了

u014148140
u014148140 谢谢,会了。问下为什么非封闭标签没有text
接近 3 年之前 回复
oyljerry
oyljerry   Ds   Rxr 2015.07.26 14:12

你找到img标签后,需要去获取属性alt的值才能拿到对应的字符串。
用.attrs,然后字典中指定alt的key。

u014148140
u014148140 thanks
接近 3 年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
Beatifulsoup 中soup的get_text()方法
baseurl = 'http://www.qiushibaike.com/hot/page/2?s=4837277' headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'} req = urllib2.Request(
Learn Beautiful Soup(7) —— BeautifulSoup的输出
BeautifulSoup不仅仅只是可以查找,定位和修改文档内容,同样也可以
BeautifulSoup中的.text方法和get_text()方法的区别
转自https://www.crifan.com/python_beautifulsoup_string_vs_text/ 【背景】 是别人问我的: BeautifulSoup 4中,soup.string和soup.text何有区别。 【折腾过程】 1.去beautifulsoup的官网: bs3: http://www.crummy.com/software/Beautifu
基于Beautiful Soup 4.2.0文档的学习记录(3)——get_text()、get()
aaa
To remove HTML markup, use BeautifulSoup's get_text() function解决方案
在学习python自然语言处理第三章处理html一节中,按照书上所示代码raw = nltk.clean_html(html) tokens = nltk.word_tokenize(raw)会产生错误,NotImplementedError: To remove HTML markup, use BeautifulSoup’s get_text() function,原因是nltk在Beauti
python爬虫(爬取糗事百科段子)_get_text() , 文件写入
__author__ = 'AllenMinD' import requests,codecs from bs4 import BeautifulSoup url = 'http://www.qiushibaike.com/textnew/page/3/?s=4865261' header={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) Ap
《python自然语言处理》笔记---chap3加工原料文本
chap3中关于,NLP中的关键概念,包括分词和词干提取。字符串、文件、正则表达式、去除HTML标签 以下所有程序,默认导入包 import nltk,re,pprint #即,nltk包,正则表达式re包,输出pprint包 3.1 从网络和硬盘访问文本 电子书 http://www.gutenberg.org/files/2554/2554.txt,古腾堡项目编号2554的文
BeautifulSoup解析文档只有部分内容
首先建议参考:    http://m.blog.csdn.net/blog/muzixiaozi/39960219    我的错误跟他十分相似,同样python2.7的环境,调用BeautifulSoup解析网页源代码,发现解析后的结果丢掉后了小半部分,只保留前半部分的内容。    BeautifulSoup4.4的官方文档,给出了一个代码诊断的功能: from bs4.diagnos
(学习笔记)Python BeautifulSoup4 取值部分
取值与赋值从网页获取了需要的标签后,要做的就是从标签中获得需要的值了。BS4的取值主要通过以下方法。标签名#获取标签名 tag.name #对应的该变标签名为 tag.name = "你想要的标签"属性#获取属性 #获取属性列表 tag.attrs #输出为一个dict键为属性,值为属性值 #例如{"class":"abc", "id":"link1"}#获取指定属性 tag['class'] #或
BeautifulSoup使用find_all方法乱码问题
   request = urllib2.Request(url,headers = headers)    response = urllib2.urlopen(request)    content = response.read()    soup = BeautifulSoup(content,'html.parser',from_encoding='utf-8')    node = s...