关于Python中BeautifulSoup的解析网页元素。

如图,如何实用BeautifulSoup才能把链接爬出来呢?
附图源码:

谢谢,不胜感激。图片

1个回答

你可以看下这篇:http://cuiqingcai.com/1319.html

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python beautifulsoup解析wap网页
之前用beautifulsoup解析wap页面很溜的,今天突然不行了,求教这是咋回事。 #!/usr/bin/python #-*-coding:utf-8-*- import urllib2 from bs4 import BeautifulSoup url1 = 'http://www.baidu.com/' url2 = 'http://wap.baidu.com' html = urllib2.urlopen(url).read() c1 = BeautifulSoup(html,from_encoding='utf8') c2 = c1.title print c2 #运行url1的时候能解析出Title #运行url2的时候结果是none 请问这个该咋处理,另外我昨天安装了html5lib,会不会是这个导致的?
[python]BeautifulSoup4爬虫解析网页中data-*标签的问题
![图片说明](https://img-ask.csdn.net/upload/201705/17/1495004162_275999.png) 我想要解析出图中的链接,通过先识别 li 定位。可是查看soup的文本,所有data-\* 都没有解析出来 代码如下 ``` keywords = input('输入关键词PLZ') res = requests.get('https://www.bing.com/search?q='+str(keywords)+'&qs=n&form=QBLH&scope=web&sp=-1&pq=abc&sc=8-5&sk=&cvid=3FE7B447AE744DD1AF25B5919EE1B675') try: res.raise_for_status() except Exception as ecp: print('There is an Exception:',ecp) soup = bs4.BeautifulSoup(res.text,'html.parser') ol = soup.find('ol',id='b_results') linkElement = soup.find_all(attrs={'data-bm':'7'}) ``` 结果linkElement为空
python 使用BeautifulSoup 出错
``` import requests, bs4 res= requests.get(r'http://www.baidu.com') nostarchsoup=bs4.BeautifulStoneSoup(res.text) type(nostarchsoup) ``` 结果显示: UserWarning: The BeautifulStoneSoup class is deprecated. Instead of using it, pass features="xml" into the BeautifulSoup constructor. 'The BeautifulStoneSoup class is deprecated. Instead of using ' <class 'bs4.BeautifulStoneSoup'> 这是怎么回事呀?
关于python2使用beautifulsoup定位元素的问题
![图片说明](https://img-ask.csdn.net/upload/201708/07/1502091057_104856.png) 详细图片![图片说明](https://img-ask.csdn.net/upload/201708/07/1502091430_831817.png) 小弟刚学习爬虫,公司有个相关的记录需要我爬取一下,请问各位大神我怎么样能够定位到图中蓝色的部分 页面已经爬取放在了soup中,我自己的方法是 res_node=soup.find('span',class_='text') 但是死活不出数据,请问问题是出在哪里?先谢谢各位了
python3 Lxml和BeautifulSoup解析网页出问题输出有问题, 求指教!
各位大神好: 下面这几句代码输出网页解析的结果为什么结果很难看: ``` import lxml.html broken_html = '<ul class=country><li>area<li>population</ul>' tree = lxml.html.fromstring(broken_html) cc = lxml.html.tostring(tree, pretty_print=True, method='html').decode() print(cc) ``` 下面是输出结果: ``` <ul class="country"> <li>area</li> <li>population</li> </ul> ``` 尽管闭合了标签,但是完全看不出嵌套关系了。上面的decode()是为了将前面的输出bytes类型转换成str类型。 而使用BeautifulSoup同样出错 ``` from bs4 import BeautifulSoup soup = BeautifulSoup(broken_html, 'html.parser') ccc = soup.prettify() print(ccc) ``` 结果,标签都补错了: ``` ”<ul class="country"> <li> area <li> population </li> </li> </ul>” ``` 第一次发帖,求各位大神给我解释下,多谢!
Python中BeautifulSoup获取微博源代码不完整怎么办?
各位大神: 小弟是初学者,用Python3.7.0爬取微博中的“转发、评论和赞”的数据时,发现BeautifulSoup获取的内容与源代码不一致,请问是怎么回事? 源代码: ![图片说明](https://img-ask.csdn.net/upload/201902/27/1551230996_514571.png) 爬取结果: ![图片说明](https://img-ask.csdn.net/upload/201902/27/1551231276_765544.png)
python 中,使用 beautifulSoup 获得的网页文本与在浏览器上看到的,格式不一样?
比如有一段 html 源码: html='''<span id='sp1'>span1</span> <span id='sp2'>span2</span>''' 注意如上 html 源码中,sp1 与 sp2 之间有个换行,并且 sp2 之前还有几个空格. 保存最 htm 文件,使用浏览器(ie firefox chrome)渲染后,得到的网页文本是: span1 span2 #注意 span1 与 span2 之间有一个空格. 如果使用 beautifulSoup 获取网页文本,代码如下: from bs4 import BeautifulSoup as bs s=bs(html,'html5lib') web_text=s.get_text() print web_text 结果显示如下: span1 span2 或者:print s.get_text(strip=True),则结果显示如下: span1span2 #注意 span1 与 span2 之间没有空格 由此可见,使用 beautifulsoup 获取到网页文本与浏览器渲染后的网页文本,其格式是不一样的. 那么,要想使用 beautifulsoup 获取到和浏览器渲染后的网页文本的格式一样,该怎么操作呢? 希望方法具有普遍性,不仅仅是针对如上例子中的 htm 源码. 多谢!
python爬虫 BeautifulSoup
from urllib.request import urlopen from bs4 import BeautifulSoup import re import random import datetime random.seed(datetime.datetime.now()) def getLinks(articleUrl): html=urlopen("http://en.wikipedia.org" + articleUrl).read() bsobj=BeautifulSoup(html,"html.parser") return bsobj.find("div",{id:"bodyContent"}). find("a",{"href", re.compile("^(/wiki/)((?!:).)*$")}) links=getLinks("/wiki/kevin_Bacon") while len(links)>0: newArticle=links[random.randint(0,len(links)-1)].attrs["href"] print(newArticle) links=getLinks(newArticle) ![图片说明](https://img-ask.csdn.net/upload/201709/07/1504755426_435935.png)
python3中beautifulsoup的find函数的返回值的类型?
![![图片说明](https://img-ask.csdn.net/upload/201708/07/1502076565_904477.png)图片说明](https://img-ask.csdn.net/upload/201708/07/1502076553_327598.png)
python中的BeautifulSoup
s=BeautifulSoup('<tr></tr>') print(s) >>><html><body><tr></tr></body></html> 怎么只生成<tr></tr>Tag
Python BeautifulSoup获取属性值怎么?
代码如下: html=''' <img src = "//s3plus.meituan.net/v1/mss_e2821d7f0cfe4ac1bf9202ecf9590e67/cdn-prod/file:5788b470/image/loading_2.e3d934bf.png"alt = "hah"class ="poster-default"/> <img data-src = "https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c"alt = "abc" class ="board-img"/>''' from bs4 import BeautifulSoup soup=BeautifulSoup(html,"lxml") print(soup.prettify()) print(soup.findAll(attrs='data-src')) ``` 输出的list为空 [] ``` 我想用beautifulsoup 来获取data-src这个属性的值,也就是这个 "https://p1.meituan.net/movie/20803f59291c47e1e116c11963ce019e68711.jpg@160w_220h_1e_1c" 各位大神,**如果 不用 beautifulsoup 的 CSS 选择器**,怎么获取?
python使用BeautifulSoup遇到的问题
请问这是为什么呀![图片说明](https://img-ask.csdn.net/upload/201803/21/1521624176_184189.png)
Python用BeautifulSoup里的get_text(),为什么不能输出"女间谍"
*才学python爬虫(python3.4),如何输出里面的"女间谍"呢?求教* ```python htmll ='''<a class="nbg" href="http://movie.douban.com/subject/25752261/" title="女间谍"> <img alt="女间谍" class="" src="http://img4.douban.com/view/movie_poster_cover/ipst/public/p2254455238.jpg"/> </a>''' from bs4 import BeautifulSoup soup = BeautifulSoup(htmll) print(soup.a.img.get_text()) #输出结果为空 ```
Python里beautifulsoup提取出来的tag类型变量怎么操作?
有一个<class 'bs4.element.Tag'>类型的变量叫url,里面内容是img标签<img class="img_pic_layer" onload="window.speed.loadmark();" src="http://img0.bdstatic.com/img/image/shouye/xiaoxiao/PPT83.jpg"/>,我想提取其中的链接,请问要怎么操作?或者有没有其他用beautifulsoup的简单的从网站上爬取图片的方法吗?
Python BeautifulSoup find_all 问题
用python爬下一个网页,将其弄成BeautifulSoup Object之后, 1. ptint bsObj 可以输出中文内容 2. print bsObj.find__all之后,输出的是unicode编码的内容,请问该怎么处理呢?_
用beautifulsoup解析网页时获取的网页源码很多标签都未展开?
源码 #coding= gbk import requests import urllib.request from bs4 import BeautifulSoup num = 0 url = 'https://www.zhihu.com/lives' page = urllib.request.urlopen(url) soup = BeautifulSoup(page, 'html.parser') print(soup) 想爬取关于知乎live的一些内容,但是返回的网页源码div标签都未展开,也就无法搜索到文本内容,求教大佬!另外还问一下对于知乎这种要向下滑动才能显示更多的网页,要如何改写代码,读取更多的内容? ![图片说明](https://img-ask.csdn.net/upload/201809/20/1537434727_879340.jpg) ![图片说明](https://img-ask.csdn.net/upload/201809/20/1537434759_703066.jpg)
python BeautifulSoup模块解码
在IDLE中执行下面的代码出现警告 代码: soup = BeautifulSoup(html.read().decode('utf-8','ignore'), "html") 警告是: WARNING:root:Some characters could not be decoded, and were replaced with REPLACEMENT CHARACTER. 官方解释是: In rare cases (usually when a UTF-8 document contains text written in a completely different encoding), the only way to get Unicode may be to replace some characters with the special Unicode character “REPLACEMENT CHARACTER” (U+FFFD, �). If Unicode, Dammit needs to do this, it will set the .contains_replacement_characters attribute to True on the UnicodeDammit or BeautifulSoup object. This lets you know that the Unicode representation is not an exact representation of the original–some data was lost. If a document contains �, but .contains_replacement_characters is False, you’ll know that the � was there originally (as it is in this paragraph) and doesn’t stand in for missing data. 我该怎么办呢?
用BeautifulSoup4 解析html的内容
``` <div class="houseInfo"><a data-el="region" data-log_index="30" href="https://bj027381998/" target="_blank">怡然家园6号院 </a><span class="divide">/</span>2室1厅<span class="divide">/</span>95.73平米<span class="divide">/</span>南 北<span class="divide">/</span>精装<span class="divide">/</span>无电梯</div> ``` subtitle = tag.contents[0].string+tag.contents[2]=》解析只能得出:怡然家园6号院 2室1厅 后面的内容无法获取,求大神帮忙
python中的BeautifulSoup用.contents获取子标签
.contents说明文档中解释是list,我用soup.thead.tr.contents获取后的值为: l = [<th>时间</th>,<th>指标名称</th>] 当我读取它时好像执行的是pop操作这是为什么 rst = BeautifulSoup() rst.append(l[1]) print(len(l)) 输出为1,少了一个
Java学习的正确打开方式
在博主认为,对于入门级学习java的最佳学习方法莫过于视频+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现学习的最好方式就是阅读参考官方文档其次就是国内的书籍,博客次之,这又是一个层次了,这里暂时不提后面再谈。博主将为各位入门java保驾护航,各位只管冲鸭!!!上天是公平的,只要不辜负时间,时间自然不会辜负你。 何谓学习?博主所理解的学习,它是一个过程,是一个不断累积、不断沉淀、不断总结、善于传达自己的个人见解以及乐于分享的过程。
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过...
大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了
大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...
linux系列之常用运维命令整理笔录
本博客记录工作中需要的linux运维命令,大学时候开始接触linux,会一些基本操作,可是都没有整理起来,加上是做开发,不做运维,有些命令忘记了,所以现在整理成博客,当然vi,文件操作等就不介绍了,慢慢积累一些其它拓展的命令,博客不定时更新 free -m 其中:m表示兆,也可以用g,注意都要小写 Men:表示物理内存统计 total:表示物理内存总数(total=used+free) use...
比特币原理详解
一、什么是比特币 比特币是一种电子货币,是一种基于密码学的货币,在2008年11月1日由中本聪发表比特币白皮书,文中提出了一种去中心化的电子记账系统,我们平时的电子现金是银行来记账,因为银行的背后是国家信用。去中心化电子记账系统是参与者共同记账。比特币可以防止主权危机、信用风险。其好处不多做赘述,这一层面介绍的文章很多,本文主要从更深层的技术原理角度进行介绍。 二、问题引入 假设现有4个人...
程序员接私活怎样防止做完了不给钱?
首先跟大家说明一点,我们做 IT 类的外包开发,是非标品开发,所以很有可能在开发过程中会有这样那样的需求修改,而这种需求修改很容易造成扯皮,进而影响到费用支付,甚至出现做完了项目收不到钱的情况。 那么,怎么保证自己的薪酬安全呢? 我们在开工前,一定要做好一些证据方面的准备(也就是“讨薪”的理论依据),这其中最重要的就是需求文档和验收标准。一定要让需求方提供这两个文档资料作为开发的基础。之后开发...
网页实现一个简单的音乐播放器(大佬别看。(⊙﹏⊙))
今天闲着无事,就想写点东西。然后听了下歌,就打算写个播放器。 于是乎用h5 audio的加上js简单的播放器完工了。 演示地点演示 html代码如下` music 这个年纪 七月的风 音乐 ` 然后就是css`*{ margin: 0; padding: 0; text-decoration: none; list-...
Python十大装B语法
Python 是一种代表简单思想的语言,其语法相对简单,很容易上手。不过,如果就此小视 Python 语法的精妙和深邃,那就大错特错了。本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。
数据库优化 - SQL优化
以实际SQL入手,带你一步一步走上SQL优化之路!
通俗易懂地给女朋友讲:线程池的内部原理
餐盘在灯光的照耀下格外晶莹洁白,女朋友拿起红酒杯轻轻地抿了一小口,对我说:“经常听你说线程池,到底线程池到底是个什么原理?”
经典算法(5)杨辉三角
杨辉三角 是经典算法,这篇博客对它的算法思想进行了讲解,并有完整的代码实现。
使用 Docker 部署 Spring Boot 项目
Docker 技术发展为微服务落地提供了更加便利的环境,使用 Docker 部署 Spring Boot 其实非常简单,这篇文章我们就来简单学习下。首先构建一个简单的 S...
英特尔不为人知的 B 面
从 PC 时代至今,众人只知在 CPU、GPU、XPU、制程、工艺等战场中,英特尔在与同行硬件芯片制造商们的竞争中杀出重围,且在不断的成长进化中,成为全球知名的半导体公司。殊不知,在「刚硬」的背后,英特尔「柔性」的软件早已经做到了全方位的支持与支撑,并持续发挥独特的生态价值,推动产业合作共赢。 而对于这一不知人知的 B 面,很多人将其称之为英特尔隐形的翅膀,虽低调,但是影响力却不容小觑。 那么,在...
面试官:你连RESTful都不知道我怎么敢要你?
干货,2019 RESTful最贱实践
刷了几千道算法题,这些我私藏的刷题网站都在这里了!
遥想当年,机缘巧合入了 ACM 的坑,周边巨擘林立,从此过上了"天天被虐似死狗"的生活… 然而我是谁,我可是死狗中的战斗鸡,智力不够那刷题来凑,开始了夜以继日哼哧哼哧刷题的日子,从此"读题与提交齐飞, AC 与 WA 一色 ",我惊喜的发现被题虐既刺激又有快感,那一刻我泪流满面。这么好的事儿作为一个正直的人绝不能自己独享,经过激烈的颅内斗争,我决定把我私藏的十几个 T 的,阿不,十几个刷题网...
白话阿里巴巴Java开发手册高级篇
不久前,阿里巴巴发布了《阿里巴巴Java开发手册》,总结了阿里巴巴内部实际项目开发过程中开发人员应该遵守的研发流程规范,这些流程规范在一定程度上能够保证最终的项目交付质量,通过在时间中总结模式,并推广给广大开发人员,来避免研发人员在实践中容易犯的错误,确保最终在大规模协作的项目中达成既定目标。 无独有偶,笔者去年在公司里负责升级和制定研发流程、设计模板、设计标准、代码标准等规范,并在实际工作中进行...
SQL-小白最佳入门sql查询一
不要偷偷的查询我的个人资料,即使你再喜欢我,也不要这样,真的不好;
redis分布式锁,面试官请随便问,我都会
文章有点长并且绕,先来个图片缓冲下! 前言 现在的业务场景越来越复杂,使用的架构也就越来越复杂,分布式、高并发已经是业务要求的常态。像腾讯系的不少服务,还有CDN优化、异地多备份等处理。 说到分布式,就必然涉及到分布式锁的概念,如何保证不同机器不同线程的分布式锁同步呢? 实现要点 互斥性,同一时刻,智能有一个客户端持有锁。 防止死锁发生,如果持有锁的客户端崩溃没有主动释放锁,也要保证锁可以正常释...
项目中的if else太多了,该怎么重构?
介绍 最近跟着公司的大佬开发了一款IM系统,类似QQ和微信哈,就是聊天软件。我们有一部分业务逻辑是这样的 if (msgType = "文本") { // dosomething } else if(msgType = "图片") { // doshomething } else if(msgType = "视频") { // doshomething } else { // doshom...
Nginx 原理和架构
Nginx 是一个免费的,开源的,高性能的 HTTP 服务器和反向代理,以及 IMAP / POP3 代理服务器。Nginx 以其高性能,稳定性,丰富的功能,简单的配置和低资源消耗而闻名。 Nginx 的整体架构 Nginx 里有一个 master 进程和多个 worker 进程。master 进程并不处理网络请求,主要负责调度工作进程:加载配置、启动工作进程及非停升级。worker 进程负责处...
“狗屁不通文章生成器”登顶GitHub热榜,分分钟写出万字形式主义大作
一、垃圾文字生成器介绍 最近在浏览GitHub的时候,发现了这样一个骨骼清奇的雷人项目,而且热度还特别高。 项目中文名:狗屁不通文章生成器 项目英文名:BullshitGenerator 根据作者的介绍,他是偶尔需要一些中文文字用于GUI开发时测试文本渲染,因此开发了这个废话生成器。但由于生成的废话实在是太过富于哲理,所以最近已经被小伙伴们给玩坏了。 他的文风可能是这样的: 你发现,...
程序员:我终于知道post和get的区别
是一个老生常谈的话题,然而随着不断的学习,对于以前的认识有很多误区,所以还是需要不断地总结的,学而时习之,不亦说乎
《程序人生》系列-这个程序员只用了20行代码就拿了冠军
你知道的越多,你不知道的越多 点赞再看,养成习惯GitHub上已经开源https://github.com/JavaFamily,有一线大厂面试点脑图,欢迎Star和完善 前言 这一期不算《吊打面试官》系列的,所有没前言我直接开始。 絮叨 本来应该是没有这期的,看过我上期的小伙伴应该是知道的嘛,双十一比较忙嘛,要值班又要去帮忙拍摄年会的视频素材,还得搞个程序员一天的Vlog,还要写BU...
加快推动区块链技术和产业创新发展,2019可信区块链峰会在京召开
11月8日,由中国信息通信研究院、中国通信标准化协会、中国互联网协会、可信区块链推进计划联合主办,科技行者协办的2019可信区块链峰会将在北京悠唐皇冠假日酒店开幕。   区块链技术被认为是继蒸汽机、电力、互联网之后,下一代颠覆性的核心技术。如果说蒸汽机释放了人类的生产力,电力解决了人类基本的生活需求,互联网彻底改变了信息传递的方式,区块链作为构造信任的技术有重要的价值。   1...
Java世界最常用的工具类库
Apache Commons Apache Commons有很多子项目 Google Guava 参考博客
程序员把地府后台管理系统做出来了,还有3.0版本!12月7号最新消息:已在开发中有github地址
第一幕:缘起 听说阎王爷要做个生死簿后台管理系统,我们派去了一个程序员…… 996程序员做的梦: 第一场:团队招募 为了应对地府管理危机,阎王打算找“人”开发一套地府后台管理系统,于是就在地府总经办群中发了项目需求。 话说还是中国电信的信号好,地府都是满格,哈哈!!! 经常会有外行朋友问:看某网站做的不错,功能也简单,你帮忙做一下? 而这次,面对这样的需求,这个程序员...
网易云6亿用户音乐推荐算法
网易云音乐是音乐爱好者的集聚地,云音乐推荐系统致力于通过 AI 算法的落地,实现用户千人千面的个性化推荐,为用户带来不一样的听歌体验。 本次分享重点介绍 AI 算法在音乐推荐中的应用实践,以及在算法落地过程中遇到的挑战和解决方案。 将从如下两个部分展开: AI算法在音乐推荐中的应用 音乐场景下的 AI 思考 从 2013 年 4 月正式上线至今,网易云音乐平台持续提供着:乐屏社区、UGC...
【技巧总结】位运算装逼指南
位算法的效率有多快我就不说,不信你可以去用 10 亿个数据模拟一下,今天给大家讲一讲位运算的一些经典例子。不过,最重要的不是看懂了这些例子就好,而是要在以后多去运用位运算这些技巧,当然,采用位运算,也是可以装逼的,不信,你往下看。我会从最简单的讲起,一道比一道难度递增,不过居然是讲技巧,那么也不会太难,相信你分分钟看懂。 判断奇偶数 判断一个数是基于还是偶数,相信很多人都做过,一般的做法的代码如下...
为什么要学数据结构?
一、前言 在可视化化程序设计的今天,借助于集成开发环境可以很快地生成程序,程序设计不再是计算机专业人员的专利。很多人认为,只要掌握几种开发工具就可以成为编程高手,其实,这是一种误解。要想成为一个专业的开发人员,至少需要以下三个条件: 1) 能够熟练地选择和设计各种数据结构和算法 2) 至少要能够熟练地掌握一门程序设计语言 3) 熟知所涉及的相关应用领域的知识 其中,后两个条件比较容易实现,而第一个...
Android 9.0 init 启动流程
阅读五分钟,每日十点,和您一起终身学习,这里是程序员Android本篇文章主要介绍Android开发中的部分知识点,通过阅读本篇文章,您将收获以下内容:一、启动流程概述一、 启动流程概述Android启动流程跟Linux启动类似,大致分为如下五个阶段。1.开机上电,加载固化的ROM。2.加载BootLoader,拉起Android OS。3.加载Uboot,初始外设,引导Kernel启动等。...
相关热词 c# 图片上传 c# gdi 占用内存 c#中遍历字典 c#控制台模拟dos c# 斜率 最小二乘法 c#进程延迟 c# mysql完整项目 c# grid 总行数 c# web浏览器插件 c# xml 生成xsd
立即提问