velomitkk
2016-04-18 06:08python爬虫如何抓取包含JavaScript的网页中的信息
这里本科生一枚。。做本研要求抓取一些数据碰到了一些问题求指教> <
我想要抓取汽车之家上关于供应商的一些数据,然后在车型详情页里找到了关于供应商的框架源代码如下(只截取有用部分):
<br>
//属性<br>
document.domain = "autohome.com.cn";<br>
var page=1;<br>
var parameters = {<br>
isPage:0,<br>
pageCount:0,<br>
kindId:-1,<br>
vId:23867,<br>
pId: 110000,<br>
cId: 110100,<br>
sId: 0,<br>
cityUrl: '/frame/cms/GetProvinceCityList?SpecId=23867&SeriesId=0&roid1=2',<br>
url: "/frame/spec/{vId}/{pId}/{cId}/{sId}/{orderType}/{pageIndex}/{pageSize}?isPage={isPage}&seriesId={seriesId}&source={source}&kindId={kindId}" ,<br>
kindUrl:"/frame/cms/GetKindBySpec?specId={vId}&provinceId={pId}&cityId={cId}&countyId={sId}",<br>
panel:"#dealer-box",<br>
pageSize:5,<br>
pageIndex: 1,<br>
orderType :0,<br>
seriesId:66,<br>
source:"defalut"<br>
};</p>
<pre><code> $("[name='orderBy']").click(function() {
parameters.orderType = $(this).attr('data-order');
$("#orderCan .current").attr("class", "linkname");
$(this).attr("class", "linkname current");
//parameters.pageIndex = 1;
var firstPage = $("#dealerListPager a[data=1]").eq(0);
if (firstPage.length == 1) {
firstPage.click();
} else {
load();
}
return false;
});
seajs.config({version:"1460100712877"});
var $$;
seajs.use(['jquery','pop'], function ($) { $$=$; });
$(function(){
jQuery("#orderCan a").each(function(){
if($(this).attr("data-order")==parameters.orderType)
{
$("#orderCan .current").attr("class","linkname");
$(this).attr("class","linkname current");
}
})
})
</script>
<script type="text/javascript" src="http://x.autoimg.cn/dealer/bbs/js/DealerArea20160413.js?t=2016041421"></script>
</code></pre>
<p>里面包含的信息应该怎么抓取呢?我是通过selenium来进入网页的框架,这些js应该怎么解析?我尝试着用前面的那些parameter凑出来URL,但是输入到浏览器中就会跳转到汽这个网站的首页,用urllib2打开的话会报错Error 10060,但是网什么的也都没有问题,是我的IP被封了还是需要一个什么特殊的代理??</p>
<p>本科期间只学过python的两门课,对java没什么了解,求帮助呀QAQ谢谢大家啦</p>
- 点赞
- 回答
- 收藏
- 复制链接分享
1条回答
为你推荐
- 关于python爬取获取标签内的值
- python
- 1个回答
- python 爬取表格 获取不到数据
- python
- 4个回答
- 请教大神,一个爬虫问题
- python
- 3个回答
- python 爬虫运行之后显示这个,这是什么意思?
- python
- 1个回答
- 爬取网站上数据,爬下内容不全
- html5
- javascript
- css
- 数据挖掘
- python
- 3个回答