小白请教高手，python爬取数据遇到js隐藏div怎么办

请教一下，我最近想在政府房管部门网站爬取房产备案信息，地址：http://www.dyyscx.com/newhouse/house_table.aspx?id=828279

每个楼盘表下有个“查看”链接，点击后就会在原页面生成新的备案内容。

这一部分内容使用元素检查是可以看见的，但查看源代码却看不见。

使用network查看XHR发现有个文件“GetBuildTableByAjax.ashx”，这里面的preview中就有相关信息。

截取片段是这样的：

 物业类别：住宅  销售状态：抵预  建筑面积：117.260平米  总价：71.65万元' class='border-333333'>3单元&nbsp;3-25-1</td><td width='95' height='30' style='cursor:hand;cursor:point;' bgcolor='#FDDFAB' Title='物业类别：住宅  销售状态：抵预  建筑面积：89.730平米  总价：53.89万元' class='border-333333'>3单元&nbsp;3-25-2</td><td width='95' height='30' style='cursor:hand;cursor:point;' bgcolor='#FDDFAB' Title='物业类别：住宅  销售状态：抵预  建筑面积：120.870平米  总价：70.87万元' class='border-333333'>3单元

我看了下，原网页head里面有一段Scirpt，内容是这样的：

 <script type="text/javascript">
        function GetData(item, bulid) {
            var heightobj = document.body.scrollHeight;
            var widthobj = document.body.scrollWidth;
            $("div.overdiv").css("width", widthobj).css("height", heightobj).css("left", "0").css("top", "0").show();
            //获得显示的位置
            var height = document.body.scrollTop + document.documentElement.scrollTop;
            widthobj = (document.body.clientWidth - 199) / 2;
            heightobj = (document.documentElement.clientHeight - 60) / 2 + height;
            //显示该div
            $("div.select").css("left", widthobj).css("top", heightobj).show();
            $.post("GetBuildTableByAjax.ashx", { itemRecord: item, houseCode: bulid }, function (data) {

                document.getElementById("BuildTable").innerHTML = data;
                $("div.select").hide();
                $("div.overdiv").hide();
            });
        }
    </script>'

因为是小白，所以猜想是js隐藏了新内容的标签，导致不在原网页的源代码中显示，所以爬不到内容。

请教一下我猜想的是否正确，以及我要怎么才能获得备案信息的内容。

ps:最好是能贴个完整的方法，谢谢！！！！！！！！！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

lyhsdy 2018-10-11 19:34

关注

以下是获取点击查看返回内容，测试可以完成爬取


import requests
def test():
    s=requests.session()
    headers={
        'Accept':'*/*',
        'Accept-Encoding':'gzip, deflate',
        'Accept-Language':'zh-CN,zh;q=0.9',
        'Connection':'keep-alive',
        'Content-Length':'43',
        'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
        'Host':'www.dyyscx.com',
        'Origin':'http://www.dyyscx.com',
        'Referer':'http://www.dyyscx.com/newhouse/house_table.aspx?id=828279',
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.15 Safari/537.36',
        'X-Requested-With':'XMLHttpRequest'
    }
    s.headers.update(headers)
    data={
        'itemRecord':'828279',
        'houseCode':'201506250000907',
    }
    url='http://www.dyyscx.com/newhouse/GetBuildTableByAjax.ashx'
    req=s.post(url=url,data=data).text
    print(req)

test()

本回答被题主选为最佳回答 , 对您是否有帮助呢?

查看更多回答(2条)

编辑

预览

报告相同问题？

关注问题

python爬取数据遇到的一些问题 python
2021-11-23 23:07

回答 5 已采纳 import requests url = r'https://hugovk.github.io/top-pypi-packages/top-pypi-packages-30-days.min.js
python 爬取数据数据缺失 python
2022-11-25 12:06

回答 2 已采纳它这个做了一点点反扒，你需要把标签里面的5取出来，和你的0.9拼在一起。试试下面这个看行不 Moive_score1 = li.xpath('./i/b/text()') Moive_score2 =
python 爬虫，如何爬取相关数据 python 有问必答爬虫
2021-11-11 03:15

回答 1 已采纳先确定需要爬取的网站，然后分析网站的数据来源，是后端生成数据还是ajax生成数据，确定数据来源方式就根据HTTP请求编写代码，这个涉及一些请求参数的加密、转换等等处理，然后清洗数据和数据入库
python爬取js_小白请教高手，python爬取数据遇到js隐藏div怎么办
2020-11-23 15:25

weixin_39952074的博客住宅销售状态：抵预建筑面积：120.870平米总价：70.87万元' class='border-333333'>3单元我看了下，原网页head里面有一段Scirpt，内容是这样的： ' 因为是小白，所以猜想是js隐藏了新内容的标签，导致不在原网页...
python 爬取表格获取不到数据 python
2020-02-17 14:52

回答 4 已采纳爬取需要在请求头里面添加Host，要不然爬取不到任何信息，另外源码是不规则的html代码，所以需要指定html解析器 ``` # -*- coding：utf-8 -*- import os
怎么样用Python爬取数据 python
2022-10-12 02:57

回答 2 已采纳爬取代码如下，如有帮助请点击一下采纳谢谢： import requests headers = { "authority": "pythonscraping.com", "acc
python爬取相同div中的内容 python 有问必答
2022-10-19 13:14

回答 2 已采纳 from pyquery import PyQuery as pq import requests import csv url='https://item.kongfz.com/Cxiaosh
Python小白的网络爬虫入门-第一课
2024-11-15 13:08

weixin_44602767的博客新手小白友好，建立python学习的信心~
python爬取数据结果是一个空列表 python 爬虫
2022-11-23 02:22

回答 4 已采纳 import requests from lxml import etree url = 'https://nba.hupu.com/stats/players' headers = {'User
如何使用python爬取canvas中的内容呢？ css javascript python
2022-04-29 02:30

回答 1 已采纳需要在浏览器上临时显示后端实时处理的图像，需要将图像数据转成json字符串传输给js绘图。后端python处理： import cv2 as cvfrom encodings import base
python爬取码市导入excel中导入结果只导入最后一条的问题 python 数据分析爬虫
2021-08-15 11:24

回答 3 已采纳修改了一下程序，有帮助的话，望采纳！ #!/usr/bin/python # -*- coding: UTF-8 -*- """ @author: Roc-xb """ import requ
Python 基础（一）：入门必备知识
2019-11-03 08:26

Nero_czh的博客原创 Python 基础（一）：入门必备知识 ...
Python自动化完成tb喵币任务
2019-11-03 08:27

Nero_czh的博客原创 Python自动化完成tb喵币任务置顶 ...
用Python分析《工作细胞》的一万多条评论后，非漫迷也要入番了！
2019-02-27 09:02

Python大本营的博客作者 |量化小白一枚，上财研究生在读，专注于数据分析与量化投资来源 |量化小白上分记（公众号 id：quanthzp）责编 | Jane【导语】动漫《工作细胞》最终话...
gulp压缩整合css和js文件
2020-01-10 01:50

qq_45379295的博客 gulp压缩整合css和js文件原创 ...
没有解决我的问题, 去提问