2 poxiaozy poxiaozy 于 2016.04.12 19:09 提问

python爬取LOL盒子数据,如何爬取审查元素?

闲来无事,想爬取LOL战绩的队友ID,但是,用beautifulsoup不会抓取URL。
审查元素里面的内容,用urllib2无法抓取出来,正则表达式不太会。刚刚入门,希望得到指导,先谢谢大家了。

3个回答

CSDNXIAOD
CSDNXIAOD   2016.04.12 19:12

Python爬取韩寒全部新浪博客
----------------------biu~biu~biu~~~在下问答机器人小D,这是我依靠自己的聪明才智给出的答案,如果不正确,你来咬我啊!

u012155923
u012155923   2016.04.12 23:55

http直接通过url,然后学一下正则吧,很方便就能从页面中得到你想要的东西

oyljerry
oyljerry   Ds   Rxr 2016.04.13 23:12

urllib2中返回值中有对应数据的话 就是解析xml元素 或者正则字符串查找

poxiaozy
poxiaozy 就是里面没有返回数据,要在网页上审查元素才能看到
2 年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
准确详细的回答,更有利于被提问者采纳,从而获得C币。复制、灌水、广告等回答会被删除,是时候展现真正的技术了!
其他相关推荐
python爬虫爬取简单的动态数据-异步加载问题
使用谷歌或者火狐浏览器。 第一步: 打开要爬取的网页,右键检查或者审查元素 第二步: 在左边或者右边的网页加载信息中找到Network中的XHR 第三步: 下拉网页使它加载出更多内容,XHR中就会出现如下信息,对比打开的网页: 第四步: 编写程序,利用for循环拼接网页地
Python3爬虫---抓取英雄联盟的所有英雄皮肤
#!/usr/bin/env python# -*- coding:utf-8 -*-#@author:Chris iven#Python version 3.6#1.分析LOL官网行为!#发现这个网页的所有数据都是经过js生成的!意思就是说 他的数据全部不在该网页里面,而是在一个JS文件里面!#所以我们只需要获取JS数据."""抓取步骤及思路:1.获取英雄的js数据,访问并且下载.然后转换为JS...
利用爬虫爬出17173.com的lol英雄数据
自己本身很喜欢影响联盟这款游戏,虽然自己不经常打。最近做了一个小小的爬虫,爬取了一下英雄的数据信息。感觉蛮有意思的。其中包含英雄的名字、性别、攻击方式、被动技能、价格、背景故事。如果你喜欢的话,可以给我留言,我尽量会帮你查找你想要的数据。 17173地址:http://cha.17173.com/lol/ XiaoTommy的github地址:https://github.com/XiaoTo
教你用Python爬取由JavaScript产生的动态网页(以英雄联盟所有英雄的皮肤海报为例)
常规开头:有一段时间没有写博客了,今天终于有时间来写一篇关于Python爬虫的博客。接触Python我也是边学边写,如若有不对的地方也请大牛在下方留言赐教。来自神秘的作者的温馨提示:此篇文章适合一些有爬虫基础的人哦,不过没有基础也没关系,那就可能要多花点时间。那就废话不多说开始吧!先说说什么是动态网页,动态网页就是它有一部分内容是由一些脚本语言产生的,不是直接在HTML文件里的。常用的脚本语言有J...
java网页爬虫,解析审查元素扣取网页数据的jar包
java网页爬虫,扣取网页审查元素的jar包。具体使用可参考网页http://blog.csdn.net/a289973483/article/details/78447926
[python爬虫] BeautifulSoup和Selenium简单爬取知网信息测试
作者最近在研究复杂网络和知识图谱内容,准备爬取知网论文相关信息进行分析,包括标题、摘要、出版社、年份、下载数和被引用数、作者信息等。但是在爬取知网论文时,遇到问题如下: 1.爬取内容总为空,其原因是采用动态加载的数据,无法定位,然后作者重新选取了CNKI3.0知网进行了爬取; 2.但却不含作者信息,需要定位到详情页面,再依次获取作者信息,但是又遇到了新的问题。
高手实战!Python爬取历年高考分数线,预测2018年高考分数线
粉丝独白高考已经结束了,相信绝大部分同学都在放松自己了,毕竟压抑了这么久。现在虽然距离高考放榜还有一段时间,可能有一些同学已经迫不及待地想知道自己考的怎样。因此,现在就来爬取高考网上的近几年高考分数线,看一下近几年分数线的变化趋势,从而心里面有个底,这样才能够更加放松的去嗨皮。使用的工具库beautifulsoupmongodbecharts1.总体思路在高考网上,可以查看各省的分数线,其中文理科...
Python爬虫如何获取动态内容-上
首先这里说一下我标题动态内容指的就是一个网页,每天你去浏览它的时候有些内容是更新的,所以这些是在源代码里面没有的。例子为B站每天的轮播和静态推荐内容都是不断更新的。 因此,如果想要爬取这些信息,一直用之前的爬取方式:requests.get(URL) ,是找不到这些的。用的是和get相呼应的:requests.post(URL) 。 关键一,就是如何正确得到这些动态更新内容的URL:
python 爬取 某平台 LOL主播姓名+加人气,然后进行排序
import re from urllib import request class Spider(): #主播姓名+观看人数 #主播姓名 #1704 url = 'https://www.panda.tv/cate/lol' root_pattern = '([\s\S]*?)' name_pattern = '([\s\S]*?)' number_pattern
【爬虫学习3】Python爬取动态页面思路(一)
之前在爬取知乎timeline内容时,因为动态加载只爬取到了少量内容,于是研究了下对动态加载页面的爬取。 这篇文章主要是对非加密的ajax异步加载内容的爬取,顺便加入了一些json的知识。 然鹅很不幸知乎是加密的,所以这个办法并不能解决问题。 计划试试selenium+PhantomJS来解决知乎的问题,这个就看下一篇文章了。 全部代码见于我的GitHub页面