如何用Java爬虫获取网页中的文本内容？

如何用Java爬虫获取一个网页中的文本内容（不是源代码，是内容）？求代码！！！！

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

2条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
YUEANDYY 2016-08-17 15:19
关注
利用httpclient开源工具抓取网页的源码，并且控制台打印出来工具类的编写

package com.pyc.search.crawler.node.tools;

import java.io.InputStream;

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.DefaultHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.params.BasicHttpParams;
import org.junit.Test;

/**

@update yangluan

通过地址和cookie信息直接把需要的网页源代码拿下来
*/
public class HttpClientContent {

public static String getHeadersByHttpClient(String link,String cookie) throws Exception {

CloseableHttpClient httpClient = HttpClients.createDefault(); // 请求链接 HttpGet request = new HttpGet(link); /** * 请求参数设置 */

// String location = null;
// int code = 0;
// BasicHttpParams params = new BasicHttpParams();
// // 参数，是否重定向，不重定向能够拿到location
// params.setParameter("http.protocol.handle-redirects", false);
// // params.setParameter("User-Agent",
// // "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36");
// request.setParams(params);
request.setHeader(
"User-Agent",
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36");
request.setHeader("Cookie", cookie);
HttpResponse response = httpClient.execute(request);

/** * 当链接不进行重定向动作时，状态码为302可以获取location链接当进行重定向动作时，状态码为200没有location */

// code = response.getStatusLine().getStatusCode();
// if (code == 302) {
// Header head = response.getFirstHeader("Location");
// if (head != null) {
// location = head.getValue();
// }
// }
// System.out.println(code + ":" + location);

/** * 获取内容块 code为200的状态 */ HttpEntity entity = response.getEntity(); InputStream is = entity.getContent(); int size = 0; byte[] buffer = new byte[1024]; StringBuffer sb = new StringBuffer(); while ((size = is.read(buffer)) > -1) { sb.append(new String(buffer, 0, size, "utf-8")); } is.close(); return sb.toString();

}

public static void main(String[] args) throws Exception {
String html = getHeadersByHttpClient("抓取网站地址","Cookie信息");
System.out.println(html);
}
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

python爬虫如何垂直爬取网页内容？ python 开发语言爬虫
2021-11-29 19:12

回答 1 已采纳 img = requests.get(url=img_url) # img_url：图片的路径 with open('{}.jpg'.format(n), 'wb') as f: # n：文件名
java爬虫获取小说相关内容 java 爬虫
2017-06-30 01:53

回答 2 已采纳请参考我发的一个帖子[完整的小说站点爬虫-spring-mybatis-jsoup-http-client ](http://www.52pojie.cn/thread-542306-1-1.html
急！请问java的jsoup爬虫如何完整获得响应验证码？ java 开发语言爬虫
2022-04-21 11:40

回答 2 已采纳代码抛了异常，后面的代码没有执行。try catch 下抛出异常的代码试下。
java爬虫获取网页数据导出到excle.zip
2024-03-08 11:17

请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则...
爬虫 POST请求获取网页标题内容 python 爬虫
2022-10-26 16:35

回答 1 已采纳 post和get方法的使用不是你决定的，二十接口使用的是什么请求方式，如果它是get请求那就只能用get请求，是post就只能用post
为什么爬虫没法获得网页的码？ python 爬虫
2022-10-14 19:20

回答 1 已采纳不去控制台看真实请求接口这能行吗cookie换成你的 import requests headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT
python爬虫获取内容不全是怎么回事？ python 爬虫
2023-03-01 15:21

回答 2 已采纳你访问的这个接口就只有五千多条数据，您可以在返回的数据中看到，你可以把获取到的数据输出下resp.json()：totalCount': 5860, 'totalPages': 59因此，如果要爬取更
Java爬虫获取某个页面中指定节点的内容
2019-04-02 22:24

极客星云的博客 Java爬虫获取某个页面中指定节点的内容
java 爬虫爬取网页,,,, java 爬虫
2017-09-26 09:29

回答 4 已采纳除了非正常方式登录，无解
用python写爬虫和用Java写爬虫的区别是什么？ java python 爬虫
2016-04-26 01:53

回答 6 已采纳 python开发起来方便，快速，爬虫库也比较好用，scrapy
python爬虫如何自动获取Network中的某个XHR地址？ python 爬虫网络
2018-08-25 08:43

回答 4 已采纳楼主问的可能有点不清楚，我的理解是：https://zh.flightaware.com/live/airport/+{机场代号} 楼主有几千个机场代号，需要爬取这几千个URL的https://zh
提取网页中的href 爬虫_网页爬虫学习之获取网页中标签内容
2020-12-19 11:32

weixin_39744230的博客 (1)本地网页，通过网页中的元素进行筛选想要获取的内容web_parseDemo01.pyfrom bs4 import BeautifulSoup#1、解析网页内容，网页的构成with open('C:/Users/GXY/PycharmProjects/untitled/homework.html','r',...
爬虫如何在url中加入变量？ python 爬虫
2021-08-14 09:34

回答 4 已采纳 f 在字符串外面 a = input() url = f'https://movie.douban.com/top250?start={a}&filter=' 或者 a = 'abc' b = '
webmagic 获取文本_使用webmagic编写Java爬虫获取博客园文章内容
2020-12-20 16:08

weixin_39638057的博客无意中发现了这个框架，真正的传说中的傻瓜爬虫框架，用来写简单爬虫很方便，也能够通过多写一些代码写复杂爬虫，作者是中国人，看文档就能学会这个框架的使用，我这里简单的用cnblogs举例介绍一下这个框架的使用。...
模拟登录的Java爬虫实现.zip
2024-03-06 11:45

请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对获取的HTML进行解析，提取有用的信息。常用的解析工具有正则...
没有解决我的问题, 去提问

悬赏问题

¥15 如何在scanpy上做差异基因和通路富集？
¥20 关于#硬件工程#的问题，请各位专家解答！
¥15 关于#matlab#的问题：期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707，使系统具有较小的超调量
¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
¥30 截图中的mathematics程序转换成matlab
¥15 动力学代码报错，维度不匹配
¥15 Power query添加列问题
¥50 Kubernetes&Fission&Eleasticsearch
¥15 報錯：Person is not mapped，如何解決？
¥15 c++头文件不能识别CDialog