java爬虫如何获取非html页面内容

这几天在写一个爬虫程序爬课表,但是课表不是一个html页面,没有html标签,相当于一个文本文档,所以每次获取这个页面内容返回的结果都是空,求教应该怎么获取这个页面的内容?

0

1个回答

webclient请求页面,不管是不是html,都可以把返回结果取下来。如果得不到,看看是不是缺少cookie、参数,导致没有正确返回结果

1
u012791231
sfgsgf456 如使用webclient执行一个post请求,不通过表单提交的形式
一年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
Java爬虫学习:使用HtmlUnit获取html页面
通过HtmlUnit库,加载一个完整的Html页面(图片视频除外),然后就可以将其转换成我们常用的字串格式,用其他工具如Jsoup来获取其中的元素了。当然也可以直接在HtmlUnit提供的对象中获取网页元素,甚至是操作如按钮、表单等控件。除了不能像可见浏览器一样用鼠标键盘浏览网页之外,我们可以用HtmlUnit来模拟操作其他的一切操作,像登录网站,撰写博客等等都是可以完成的。
爬虫获取ajax异步请求的html内容
使用爬虫时有时会发现浏览器中看到的html内容在程序get()的结果中看不到,这是因为页面中使用了ajax技术,即在加载页面时不一次性发出所有内容,浏览器收到第一次发出的页面内容后运行其中的程序,再向服务器请求部分内容构成完整页面,用爬虫只能得到第一次发出的html,导致无法得到所需内容。rn此处::befer和::after之间的部分在使用爬虫的get()方法得到的html中看不到,因为这是异步
JAVA网络爬虫(三):HttpClient获取HTML
在本爬虫项目中采用Httpclient来模拟客户端浏览器,访问并获取网页资源。
动态获取html页面的内容,并且取其中的某块元素的方法
$.ajax({  url: "http://192.168.1.59:8888/app-tpl-webapp/tpl/design.html",  async:false,  type:'post',  dataType:'html',  success:function(data) {      console.log("----------------------------------
使用jsoup和httpclient爬数据时隐藏字段的问题__VIEWSTATE
最近爬取一个.net网站遇到一个隐藏字段__VIEWSTATE的问题nn一开始天真的直接把火狐捕抓到的nn__VIEWSTATE中的values设置进去结果一直报500,纳闷了好久发现多次请求的__VIEWSTATE的值是不一样nn这下才解决了nn npublic class Jsoup_getdocuments {n      n      n      private static Map&l...
HTML解析,网络爬虫
一、概述  曾几时,我还是一个屌丝,一个在校大学生,高中的时候老师就对我们撒了一个慌,说…。人们称它为一个善意的谎言,我却傻傻信以为正。高三的时候努力拼搏了一段时间,可惜命运总是爱作弄人,高考考到了一个二流的大学,从此我告别了家乡,踏上了大学校门,来到了一个鸟不生蛋但会拉屎的地方。刚来大学的时候,大一浑浑噩噩的度过,大门不错,二门不迈,整体呆在宿舍打游戏,打了大半年的游戏,就那样,大学里最美好的日子
爬虫如何对网页动态内容抓取
我们进入淘宝网,在首页查看源代码nn n可以看到全是js,并没有直观的页面元素,因为首页的内容都是动态生成的,这时候我们就需要对网页的链接做一些分析了。 n现在我想爬取淘宝网上所有关于Ipad的信息,那么现在首页的搜索框输入‘Ipad’nn查看链接得到nnnnhttps://s.taobao.com/search?q=ipad&imgfile=&js=1&stats_cli...
Java爬虫获取某个页面中指定节点的内容
Java爬虫获取某个页面中指定节点的内容
[Java爬虫] 使用 Xpath + HtmlUnit 爬取网页基本信息
一、前言nn使用 Jsoup + HttpClient (组合一)基本可以爬取很多我们需要的信息了,Xpath + HtmlUnit (组合二)的组合更是强大,无论是从选择上,还是从解析上,都可以胜任组合一的。下面列举一个简单的例子,主要展示了其主要的技术:①模拟浏览器、②使用代理IP、③取消CSS、JS解析、④Xpath的简单使用nnn Ⅰ、其他基础: n ① 使用Xpath的一个例子:使用...
【爬虫提取数据三板斧之二】CSS 选择器资料整理
【爬虫提取数据三板斧之二】CSS 选择器资料整理nnCSS即层叠样式表,其选择器是一种用来确定HTML文档中某部分位置的语言。 nCSS选择器的语法比XPath更简单一些,但功能不如XPath强大。实际上,当我们调用selector对象的CSS方法时,其内部会使用Python库cssselect将CSS选择器表达式翻译成XPath表达式,然后调用selector对象的XPATH方法。nn CSS
JAVA爬取网页内容
在此之前,大家先了解一个Jsoup,一个html页面解析的jar包。nnn如果你上面的Jsoup看完了。n前期准备工作:需要去查看一下要爬的网页的结构,对自己要爬的数据的标签要熟悉。nnn操作:在页面上按F12查看标签的内容。nn就是js+css+html标签的构造,我们使用比较多的是a、img这两个标签。第一个是链接,第二个是图片所以图片也是可以爬的~~。里面的内容也都是一个链
简单的python爬取网页字符串内容并保存
最近想试试python的爬虫库,就找了个只有字符串的的网页来爬取。网址如下:rnrnhttp://mobilecdn.kugou.com/api/v3/special/song?plat=0&page=1&pagesize=-1&version=7993&with_res_tag=1&specialid=26430rn打开后看到是一些歌名还有hash等信息。按照hash|filename的方式存在
如何抽取HTML正文
网页展现给用户的是主要内容是它的文本。因此,在获取网页源代码时,针对网页抽取出它的特定的文本内容,是我们做网页爬虫的一个基本功。我们结合HtmlParser和正则表达式来实现这一目的。n      第一部分主要为基础教程(HtmlParse),转载自一个哥们的nnn1、相关资料nn官方文档:http://htmlparser.sourceforge.net/samples.html
爬虫入门_抓取html页面元素
from urllib.request import urlopennfrom urllib.error import HTTPError,URLErrornfrom bs4 import BeautifulSoupnn#创建getTitle函数ndef getTitle(url):n #排除网页不存在、服务器不存在问题n try:n html=urlopen(url)n
Java爬取喜马拉雅非付费音频
Java爬取喜马拉雅非付费音频nn目录nnJava爬取喜马拉雅非付费音频nn前言nn1 打开喜马拉雅网站并搜索一个节目nn2 研究其数据来源,获取分页数据nn3 获取列表信息nn4 获取音频下载地址nn5 核心代码nn6 基本使用nn前言nn因为很喜欢喜马拉雅FM上的音频节目,之前也找过一些喜马拉雅音频下载器。可能是因为网站调整,有些下载器慢慢出现了问题,估计是有些地址解析不了了,于是就想着研究一...
[python爬虫]获取html中文乱码时的方法
用python做网页爬虫时经常会出现乱码问题。下面给出解决中文乱码问题的解决方法。rn其中需要一个chardet的模块。使用pip install chardet安装即可。pip list命令可以查看安装的包,如果出现有chardet就说明安装好了。rnimport urllib2nimport sysnimport chardetnnreq = urllib2.Request("http://w
爬虫奇遇记——如何按照标签的文本内容来抓取
俗话说的好:只要能爬下来,其他都不是事。rn昨天写爬虫遇到这样一个情况:父标签的class内容都一样,里面子标签只有标签带文本,还是来张图比较明了:rn我又要以站长之家的为例说明了rnrnrn可以发现,这两块,父标签和子标签内容一模一样,findall第一个指向的是第一块的,直接用索引我试过,一开始是可以的,但是对于其他网页,有的并没有注册商这一块,这时候索引就对不上了,还有可能报IndexErr
Java:java爬虫获取动态网页的数据
前段时间一直在研究爬虫,抓取网络上的特定的数据,如果只是静态网页就是再加丹不过了,直接使用Jsoup :Document doc = Jsoup.connect(url).timeout(2000).get();获取到Document 然后就想干嘛就干嘛了,但是一旦碰到一些动态生成的网站就不行了,由于数据是网页加载完成后执行js代码加载的,或者是用户滑动浏览触发的js加载数据,这样的网页使用Jsou
【网络爬虫】数据采集——将html的数据分析保存到数据库
上篇文章,介绍了Heritrix爬取土木在线网的一些html数据,今天介绍如何将这些数据导入数据库。n首先建立一个web工程,写好domain,这是javaweb的基础,不在过多介绍。npackage cn.hpu.edu.heritrix.domain;nnpublic class Extractor_TuMu {nn private String id;n private String t
JAVA 爬虫获取js动态生成的网页数据
问题: n有些网页数据是由js动态生成的,一般我们抓包可以看出真正的数据实体是由哪一个异步请求获取到的,但是获取数据的请求链接也可能由其他js产生,这个时候我们希望直接拿到js加载后的最终网页数据。解决方法: nphantomjs n1.下载phantomjs,[官网]:http://phantomjs.org/ n2.我们是windows平台,解压,会在bin目录下看到exe可执行文件,有它就够啦
Java爬虫(3)——拼接url抓取“加载更多”内容
Java爬虫(3)——拼接url抓取“加载更多”内容rn rn上期我们说到phantomjs可模拟点击按钮行为,通过点击完所有”加载更多”按钮来抓所有内容。比如这个网页http://e.vnexpress.net/news/newsrnrnrnrn我们要抓取红线所标注的超链接,将url入库,点击“view more stories”会出现更多列表,然而有些网页是,点到所有隐藏内容都出现后,那个“v
java抓取HTML页面的数据(淘宝页面),
--第1步:获取http---第2步用正则表达式进行解析rn第1步:rnpackage com.yanshu.tools;rnrnrnimport java.io.BufferedReader;rnimport java.io.IOException;rnimport java.io.InputStreamReader;rnimport java.io.PrintWriter;rnimport j
java爬虫:jsoup通过链接来获取页面中的信息
package jsoup;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.InputStreamReader;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup....
爬取js动态生成后的数据
1、静态的数据:页面右键选择查看源代码,然后能够在源代码中看到的数据n2、动态的数据:源代码中没有的数据n3、想要获得动态数据解决方案:获得他的action连接和参数,就可以得到动态数据n实例如下:http://www.creditchina.gov.cn/search_all#keyword=&searchtype=0&templateId=1&creditType=8&page=1 中的
java中根据url抓取html页面内容的方法
import java.io.BufferedReader;rnimport java.io.IOException;rnimport java.io.InputStreamReader;rnimport java.net.HttpURLConnection;rnimport java.net.MalformedURLException;rnimport java.net.URL;rnpublic...
如何用Java做爬虫获取指定网站信息
package 爬虫;nnnnimport java.io.*;nnimport java.net.*;nnimport java.util.*;nnimport java.util.regex.*;nnpublic class URLDdmo {nn//提取的数据存放到该目录下nnprivate static String savepath="E:/QQzome/";nn//等待爬取的urln...
java爬取网页的爬虫(html文件)
1.首先创建一个maven项目,相信大家都不是问题了n2.配置maven的依赖在创建好的maven项目里的pom文件中nn添加httpClient依赖n在maven共享库中下载n此处maven共享库链接nnn将此处代码贴到maven项目的pom.xml中n nn到这里一个简陋的 小爬虫就算完成了 一起看看效果吧,让我们run 一把nnn结果显示的日志看到 请求为Get请求 ,状态码200 ...
java爬虫爬取的html内容中空格( )变为问号“?”的解决方法
用java编写的爬虫,使用xpath爬取内容后,发现网页源码中的 全部显示为?(问号),但是使用字符串的replace("?", ""),并不能替换,网上找了一下,大概意思是显示的这个问号其实并不是问号,是乱码,主要是由于编码的问题导致的。rn//替换抓取内容中“ ”变为问号的问题ntry {n intro = new String(intro.getBytes(),"GB
java爬虫,爬取本地html文件,提取分析出文本
java爬虫,爬取本地html文件,提取分析出文本 Document doc2 = Jsoup.parse(html); Elements trs = doc2.select("table").select("tr"); for(int i = 0;i<trs.size();i++){ Elements tds = trs.get(i).select("td"); for(int j = 0;j<tds.size();j++){ String text = tds.get(j).text(); if (j % 2 == 0) { System.out.print(text); }else{ System.out.println(text); } } }
java爬虫--jsoup简单的表单抓取案例
分析需求:n某农产品网站的农产品价格抓取nn网站链接:点击打开链接nnn页面展示如上:nnnnn标签展示如上:nnn分析发现每日价格行情包括了蔬菜,水果,肉等所有的信息,所以直接抓每日行情的内容就可以实现抓取全部数据。nn软件环境:eclipse,Jsoup包n下载地址:点击打开链接nnn 密码:bmrrnnn抓取表单比较简单,直接用select选择标
java采集网页信息,并获取到所需要的信息存入数据库中对应的字段中去
最近,由于一些需要,用到了java和正则,做了个的足球网站的数据采集程序,由于是第一次做关于java的html页面数据采集,必然在网上查找了很多资料,但是发现运用如此广泛的java在使用正则做html采集方面的(中文)文章是少之又少,都是简单的谈了下java正则的概念,没有真正用在实际网页html采集,所以实例教程更是寥寥无几(虽然java有它自己的Html Parser,而且十分强大),但个人觉得作为如此深入人心的正则表达式,理应有其相关的java实例教程,而且应该很多很全.于是在完成java版的html数据采集程序之后,本人便打算写个关于正则表达式在java上的html页面采集,以便有相关兴趣的读者更好的学习.
crawler4j爬虫技术获取a标签的title及链接
最近的项目用到了爬虫技术,这里主要说明下crawler4j技术的获取对应的标签的链接及title的实现:首先是抓取类: n1、必须继承于WebCrawler,实现shouldVisit和visit两个方法。 n2、使用一个入口类进行采集任务,并进行处理。第一点:
Java爬虫获取网页表格数据
//Java爬虫获取网页表格数据public class Pachong implements Runnable { public void run() { String Rpt_date = null; double price = 0; //网页地址 String url = &quot;http://www.sse.net.cn/index/singleIndex?indexType=cbcf...
java爬虫(Jsoup)爬取某新闻站点标题
需要一个包:jsoup-1.7.3.jar 有一定的java和js基础nnnpackage wang.test;nnimport java.io.IOException;nnimport org.jsoup.Jsoup;nimport org.jsoup.nodes.Document;nimport org.jsoup.nodes.Element;nimport org.jsoup.select....
python3爬虫获取html内容及各属性值
今天用到BeautifulSoup解析爬下来的网页数据 n首先导入包from bs4 import BeautifulSoup n然后可以利用urllib请求数据 n记得要导包 nimport urllib.request n然后调用urlopen,读取数据 nf=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc9
爬取静态页面分页内容
静态准备爬取静态页面分页知识,因为写博客现在目的是当笔记一样,当学过知识梳理一遍,如果有观众,不喜勿喷,不足之处可以多多指点 n工具:python3.6 n操作系统:linux n浏览器:谷歌浏览器nnnn创建项目nn1.在虚拟机黑屏终端找个合适位置创建项目:scrapy startproject Qidian n2.进入项目应用:cd Qdian n3.创建爬虫器:scrapy genspi...
获取前端网页 php爬虫 get_html.php
spidernnnncrawl web html address:nnnndate_default_timezone_set('PRC');nfunction dump($var){necho "";nvar_dump($var);necho "";nexit(date("Y-m-d H:i:s",time()));n}n//catetory html resourc
我的kettle爬虫爬取小说内容
我的kettle爬虫爬取小说内容。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。
爬虫 抓取数据后 显示到前台页面,jsoup包,ajax,设置一个返回ResponseResult结果集
&amp;lt;!-- 爬虫相关 --&amp;gt; n &amp;lt;dependency&amp;gt;n &amp;lt;!-- jsoup HTML parser library @ http://jsoup.org/ --&amp;gt;n &amp;lt;groupId&amp;gt;org.jsoup&amp;lt;/groupId&amp;gt;n &amp;lt;artifactId&amp;gt;jsoup&amp;lt;/artifactId&amp;gt;n
php页面抓取源码(一个小文件)
php页面抓取 抓取页面 抓页面 抓页面源码
文章热词 机器学习教程 Objective-C培训 交互设计视频教程 颜色模型 设计制作学习
相关热词 mysql关联查询两次本表 native底部 react extjs glyph 图标 java如何学习底层内容 非科班机器学习