html 中的#document后面的内容为什么爬不下来

我想爬http://skyserver.sdss.org/dr7/en/tools/explore/obj.asp?id=588848900446814264这个网页中的数据
但是我用urllib.request.urlopen打开之后里面的#document里面的东西却没有,不知有没有什么方法爬?

0

2个回答

你爬这个页面吧。

 http://skyserver.sdss.org/dr7/en/tools/explore/summary.asp?id=0x082c02f481830038&spec=0x011ac9ca7b800000

step1: 获取 HTML 源代码

 http://skyserver.sdss.org/dr7/en/tools/explore/obj.asp?id=588848900446814264

step2: 获取到 frame 的 src 属性,得到新页面链接

  http://skyserver.sdss.org/dr7/en/tools/explore/OETOC.asp?id=588848900446814264

图片说明

step3: 获取

 <tr><td align="left"><a  href href属性,最后得到完整的路劲
 http://skyserver.sdss.org/dr7/en/tools/explore/summary.asp?id=0x082c02f481830038&spec=0x011ac9ca7b800000

0
qq_39196400
K beasts 回复icecream2017: 其实是可以直接获取的,obj.asp?id=588848900446814264 , OETOC.asp?id=588848900446814264 ,这两个页面id是一致的
10 个月之前 回复
qq_39196400
K beasts 回复icecream2017: 最后就可以得到完整的地址:http://skyserver.sdss.org/dr7/en/tools/explore/summary.asp?id=0x082c02f481830038&spec=0x011ac9ca7b800000
10 个月之前 回复
qq_39196400
K beasts 回复qq_39196400: 区别就在于loadSummary括号内容分号; —— 以get请求要转换成&,是可以直接获取到summary.asp?拼接get参数的
10 个月之前 回复
qq_39196400
K beasts 也可以直接找到,<tr><td align="left"><a class="med" target="OMAIN" href='summary.asp?id=0x082c02f481830038&spec=0x011ac9ca7b800000' ONMOUSEOVER="this.T_ABOVE=true;this.T_OFFSETY='-60';this.T_WIDTH='140';return escape('The main Explore summary page.')"> Summary</a><br></td></tr>
10 个月之前 回复
qq_39196400
K beasts <body onLoad="loadSummary('0x082c02f481830038&amp;spec=0x011ac9ca7b800000')" leftmargin="8" topmargin="8">
10 个月之前 回复
qq_39196400
K beasts 回复icecream2017: <frame name="OETOC" src="OETOC.asp?id=588848900446814264" scrolling="auto"> src属性,可以进一步获取
10 个月之前 回复
icecream2017
icecream2017 这个确实可以爬但是我只有id在呢么想着样生成不同的url呢?
10 个月之前 回复

因为这些内容是异步加载的,你可以用chrome浏览器按照我下面的方法抓包分析:
图片说明

1
icecream2017
icecream2017 那这种网页是不是很难爬呢?
10 个月之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
HTML Document HTML Document HTML Document
HTML Document HTML DocumentHTML DocumentHTML Document
新手学习python写了个爬虫,为什么爬不下来数据
#-*-coding:utf8-*-rnrnimport rernimport requestsrnrnf = open('source.txt','r')rnhtml = f.read()rnf.close()rnrnpic_url = re.findall('a href="(.*?)" class ="link"',html,re.S)rni = 0rnfor each in pic_url:rn print 'now dowloading:'+eachrn pic = requests.get(each)rn fp = open('pic\\' + str(i) + '.jpg','wb')rn fp.write(pic.content)rn fp.close()rn i += 1rnrn想爬取图片,然后按照教程,这样写了个。可是我在运行的时候在i=0处设置了断点,发现pic_url = re.findall('a href="(.*?)" class ="link"',html,re.S)这段代码根本没有把图片的链接存储到pic_url这个列表中,是我哪里出了问题? 是因为正则表达式没写正确?
html document
他和 html document from w3c
为什么变量保存不下来?
一个webform,加了一个string abcrn然后举个例子,设了两个dropdownlist,都设了autopostbackrn在第一个select change事件里,设置abc="haha"rn在第二个select change事件读出abc,发现是空值rn现在搞不明白,这是怎么回事啊?
为什么问号后面的内容get不到?
我使用php接收问号传过来的内容。rnhttp://127.0.0.1/test.php?test=xrntest.php中的代码如下rn[code=PHP]rnrnrn okrn rn rnrn[/code]rnrn为什么接收不到test的内容?谢谢
为什么空格后面的内容显示不出来
如果记录中含有空格 比如记录为999 666 777 用<%=rs(此字段)%> 显示 显示出来的结果为999 后面都没有了 字段类型为nverchar 到底是什么原因呢
HTML中document对象的用法
document.insertScript = function ()rn if (document.createIFrame==null) //这里不明白rn createIFrame = function (frameID)rn rn var bodyID = document.getElementsByTagName(\"body\")[0];rn var newDiv = document.createElement('div');rn newDiv.id = frameID;rn newDiv.style.position ='absolute';rn newDiv.style.backgroundColor = 'transparent';rn newDiv.style.border = '0px';rn newDiv.style.visibility = 'hidden';rn bodyID.appendChild(newDiv);rn rn rnrnrn上面代码关于document的使用这里,document对象没有createIFrame属性和方法啊?这里为什么可以这样用呢?并且获得的是什么呢?
获取后面的内容
var str = "aaaa.bb";rnrn怎么获取 . 后面的内容,谢谢
人人网爬去 登录》登录后内容
from tuozhan_all import session import json # url url = 'http://www.renren.com/ajaxLogin/login?1=1&amp;amp;uniqueTimestamp=2018721441132' # form form = { 'email': '18510556963', 'icode': '', ...
c#中document对象如何存储网页(html)内容?
我的网页需要将部分网页内容保存在一个document对象中,可是我只会用下面的代码,结果只能保存文本信息,一些htm的样式(如粗体,链接,颜色等)则无法正常保存,请教诸位,怎么办?rnDocument document = new Document(iTextSharp.text.PageSize.A4, 25, 25, 25, 25);
链接HTML外面的内容
引入css样式 插入fontsome网页的小图标(icon) 顶部图标
html爬坑系列
问题:在向button里面添加内容的时候,添加内容不居中,怎么设置都没用。 解决:用div包括两者,这样就可以轻易实现居中了 代码: &lt;div&gt; &lt;Button class="chooseBackBtn"&gt; &lt;Icon class="addIcon" type="ios-add" size=80&gt;&lt;/Icon&gt; ...
为什么我的cookie保存不下来
我定义了cookie在IE运行时能够取出值,当关闭IE再打开时此COOKIE并没有rn保存下来,取值时为空,不存在rn Private Sub Page_Load(ByVal sender As System.Object, ByVal e As System.EventArgs) Handles MyBase.Loadrn '在此处放置初始化页的用户代码rn Dim WelcomeIDCookie As New HttpCookie("user_ID")rn WelcomeIDCookie.Value = DateTime.Today.ToStringrn WelcomeIDCookie.Expires = DateTime.Now().AddDays(182)rn Response.Cookies.Add(WelcomeIDCookie)rn Response.Write(WelcomeIDCookie.Value)rnrn End Subrn
为什么个性设置保留不下来???
为什么我设置的东西rn重新启动后会失效rn比如rn拼音加加的选字键rn我喜欢用句号和逗号来选的rn可是它在重启后总是会还原到加号和减号rn
如何获取URL中#后面的内容?
例如访问一个这样的URL: http://localhost/test.aspx#id=233rnrn我怎么才能从服务器端获取到id=233这个内容?
html document对象的问题
我见到的document里面,其中, document.open() document.write() document.close() document.clear() 这些方法 是直接使用 document 对象的 rn 而在 window.document.links.length 这些属性里面 却有个 window 在前面,为什么? rn 这个两个有什么不同? 什么时候用有 window. 的 什么时候不用 有 window. 的呢?
Array with(document).html
Array with(document) html ,为对象array里的输出方法
weblogic8 html document
weblogic8 html document
求助html document flow
请问有经验的朋友,平时页面上布局是否通常都使用document flow。公司的ajax框架中组件都是absolute定位的,使用起来页面上已经基本没有文档流的概念了。
Simplx Document HTML type
Simplx Document, generated by doxgen and dot. About Simplx is a C++ development framework for building reliable cache-friendly distributed and concurrent multicore software. Simplx was developped by Tredzone SAS. We provide software technology solutions and services dedicated to high-performance real-time processing. Our technology enables low and predictable latency, scalability, and high throughput. We also offer support contracts and enterprise tools for monitoring, profiling, debugging, server clustering under commercial licenses. Simplx is used at the Paris stock exchange by Euronext's market exchange platform, called "Optiq", and has been successfully deployed since November 2016. Tredzone was founded in 2013 and operates in France, the UK and US. License Simplx is open-sourced under the Apache 2.0 license, please see the file "LICENSE" in our github repo.
为什么我的下拉菜单"拉"不下来?
我添加一下拉菜单,但不管我在资源视图中向下拉也好,还是怎么设置,它始终拉不下拉rn如图:[img=http://xin-chen.net/1.jpg][/img]rn另外我发现在资源里拉下拉菜单,我的只能改变宽度,而不能改变高度,是不是我vc6版本有问题?
为什么视频截图截不下来?
为什么视频截图截不下来?
空间为什么总是分配不下来
我在一个程序中首先定义了一个结构stru,rn在结构中,定义了一个char类型的指针 char *cData;rn在后面的程序中,用该结构定义了一个变量 stru ddd;rn此后,我为指针分配了一个空间 ddd.cData=new char[30];rnrn可是,我用debug查看,sizeof(ddd.cData),发现实际空间只有4个字节!!!rnrn为什么呀??我分配的空间去哪儿了??怎么解决?
HTML Document 無法顯示
打開一個asp頁面,有一部份的內容無法顯示,HTML Document 無法顯示右擊之后點擊“內容”,然後點擊“憑證”就顯示這個類型的文件沒有安全性憑證。
js 中XML DOM Document ,HTML DOM Document
![图片说明](https://img-ask.csdn.net/upload/201602/21/1456023912_491613.jpg)nn关于window里这些对象 不清楚!nn只谈论这个几个对象,其它别扯
为什么www.codeproject.com和www.codeguru.com上面的代码都下载不下来?
为什么www.codeproject.com和www.codeguru.com上面的代码都下载不下来?rn请问大家有什么好方法?是不是有好的代理?
内容反爬技术解析
爬虫是一种按照某种特定的规则,自动抓取万维网信息的程序或者脚本。反爬虫是运用各种技术阻止爬虫抓取数据的同时还能让正常用户获取数据。随着爬虫技术进步,程序很难能完全分辨出请求者是否为爬虫,由此反爬虫技术衍生出了一个新的分支---内容反爬。
python 爬帖子内容
初学爬虫,写的一个简单小程序
了解:HTML后面的参数.
我在网上看到很多网站都生成了静态页面,但是在静态页面html或者是shtml后面还跟了个参数,比如:tt.shtml/tt.html?tid=128&user=admin我想问一下,那个后面的参数是怎么得来的?有哪位rn大侠知道?能不能写出类似的代码给我参考一下?
document指的是本页面的?我怎么样使document得到其他页面的内容了??
我有这样的一个问题:rndocument.getElementsByTagName("input")rn得到了我当前打开这个页面内的信息!!就是说document的这个页面rn我要把document指向其它其他的页面要怎么做呀??rn请大侠指点哈!!
Ruby方面的Spider让你爬爬爬
[b]hpricot[/b] [url]http://wiki.github.com/why/hpricot[/url] [b]Mechanize[/b] http://[b]spidr[/b].rubyforge.org/ http://[b]spider[/b].rubyforge.org/ http://rubyforge.org/projects/[b]rlucene[/b...
Document对象内容集合
document 文挡对象 - JavaScript脚本语言描述
选中HTML内容后分析
有没有办法写JS,选中HTML内容,弹出一个窗口,并把选中的内容获取到。rn比如如下Table:rnrnrnrnaass[b]AB[/b]ssssrnbbbbbrnrnrn鼠标自定义选中AB后,弹出一个窗口DIV,获取"AB“值
html在目标对象后追加内容
var accountID = document.all("accountID"); if(accountID.value == null || accountID.value.length == 0){ accountID.parentElement.innerHTML += "<br><font color='red'>*[
下面的HTML为什么报错呢?
[code=html]rnrnrnrnrnrn rn rnrnrnrn[/code]rnrn(XHTML 1.0 Transitional)不支持元素“frameset”rn(XHTML 1.0 Transitional)不支持元素“frame”rnrn怎么会出现这样的警告呢?XHTML不支持框架元素吗?rn
如何获取JavaScript事件后整个页面的html内容?
我写一个小程序要捕抓某个网页的html信息。该网页上面有一个按钮,点击该按钮后在该按钮位置下方会出现一些隐藏内容(比如图片、文字),我用HttpURLConnection抓到的html都是没有出现新内容前的页面内容,我要怎么才能抓到该按钮点击后的所有页面内容呢?
如何读取指定内容后面的内容
比如我要读取桌面上的一个叫a.txt里的指定内容……比如这个A.TXT里内容是这样的rn空我爱你。rn空我想你。rn空我想见你。rn空我真的想你。rnrnrn我要在文本框里读取rnrnrn我爱你rn我想你rn我想见你rn我真的想你rnrnrn这个怎么做?
后面的内容不显示
我的程序要求xsl文件传过来一个记录文章的参数rn相关代码如下:rn……rn rn rnrn……rnrnrn文章内容中第一个 后的内容都出不来rnrn这个文件中用于显示文章内容的:rn rnrn没有问题。rnrnxml高手来帮帮忙
$scope.点后面的内容
$scope.brandList=JSON.parse(response.brandIds);//品牌数据 ng-options=&quot;item.id as item.text for item in brandList&quot;     $scope.typeTemplate=response;//获取类型模 $scope.typeTemplate.brandIds= JSO...
如何只显示后面的内容?
update T_W稼動計画取込rnset 時刻='10:00:00',rn 出勤区分='出勤'rnwhere 社員CD=141 and 年月日='2004/12/01'rnrnrn時刻为datetime类型,执行上面的SQL语句后,表中显示的是:1900/01/01 10:00:00rn现在rn我只想显示后面的:10:00:00。rnrn问:怎么样去掉前面的:1900/01/01
相关热词 c#异步发送kafka c#窗体编号 c# 操作二进制文件 c# 反射 机制 c#线程 窗体失去响应 c#角度转弧度 c# 解析gps数据 c# vs设置 语法版本 c# json含回车 c#多线程demo