请教一下,我最近想在政府房管部门网站爬取房产备案信息,地址:http://www.dyyscx.com/newhouse/house_table.aspx?id=828279
每个楼盘表下有个“查看”链接,点击后就会在原页面生成新的备案内容。
这一部分内容使用元素检查是可以看见的,但查看源代码却看不见。
使用network查看XHR发现有个文件“GetBuildTableByAjax.ashx”,这里面的preview中就有相关信息。
截取片段是这样的:
物业类别:住宅 销售状态:抵预 建筑面积:117.260平米 总价:71.65万元' class='border-333333'>3单元 3-25-1</td><td width='95' height='30' style='cursor:hand;cursor:point;' bgcolor='#FDDFAB' Title='物业类别:住宅 销售状态:抵预 建筑面积:89.730平米 总价:53.89万元' class='border-333333'>3单元 3-25-2</td><td width='95' height='30' style='cursor:hand;cursor:point;' bgcolor='#FDDFAB' Title='物业类别:住宅 销售状态:抵预 建筑面积:120.870平米 总价:70.87万元' class='border-333333'>3单元
我看了下,原网页head里面有一段Scirpt,内容是这样的:
<script type="text/javascript">
function GetData(item, bulid) {
var heightobj = document.body.scrollHeight;
var widthobj = document.body.scrollWidth;
$("div.overdiv").css("width", widthobj).css("height", heightobj).css("left", "0").css("top", "0").show();
//获得显示的位置
var height = document.body.scrollTop + document.documentElement.scrollTop;
widthobj = (document.body.clientWidth - 199) / 2;
heightobj = (document.documentElement.clientHeight - 60) / 2 + height;
//显示该div
$("div.select").css("left", widthobj).css("top", heightobj).show();
$.post("GetBuildTableByAjax.ashx", { itemRecord: item, houseCode: bulid }, function (data) {
document.getElementById("BuildTable").innerHTML = data;
$("div.select").hide();
$("div.overdiv").hide();
});
}
</script>'
因为是小白,所以猜想是js隐藏了新内容的标签,导致不在原网页的源代码中显示,所以爬不到内容。
请教一下我猜想的是否正确,以及我要怎么才能获得备案信息的内容。
ps:最好是能贴个完整的方法,谢谢!!!!!!!!!