httpclient怎么才可以不遵守robots.txt

想抓大众点评网的数据，发现他用了robots.txt,用httpclient取不到某一页的代码了.
希望有人能解决。本人全部分数放送.给能解决的人
[b]问题补充：[/b]
最好是用java的httpclient,因为我这里的程序就是java的.
只是想突破那个限制.
既然页面在网上公开显示着，不可能不能抓的
[b]问题补充：[/b]
下面就是得到一个URL对应网页代码的程序,希望改造一下,就可以突破限制
public static String getWebContentGetMethod( String url, String coding ){
url = checkUrl(url) ;
if( StringProcessor.isEmpty(url)){
return null ;
}
//构造HttpClient的实例
HttpClient httpClient = new HttpClient();
// 创建GET方法的实例
GetMethod getMethod = new GetMethod( url );
// 使用系统提供的默认的恢复策略
getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
new DefaultHttpMethodRetryHandler());
try {
// 执行getMethod
int statusCode = httpClient.executeMethod(getMethod);
if (statusCode != HttpStatus.SC_OK) {
System.err.println("Method failed: "
+ getMethod.getStatusLine());
}

        // 读取内容
        byte[] responseBody = getMethod.getResponseBody();
        // 处理内容
        String rs = new String(responseBody , coding );

        return rs ;
    } catch (HttpException e) {
        // 发生致命的异常，可能是协议不对或者返回的内容有问题
        //System.out.println("Please check your provided http address!");
        //e.printStackTrace();
    } catch (IOException e) {
        //// 发生网络异常
        //e.printStackTrace();
    } finally {
        // 释放连接
        getMethod.releaseConnection();
    }
    return null ;
}

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
hjgundam 2008-06-27 16:52
关注
import java.io.IOException;

import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpException;
import org.apache.commons.httpclient.HttpStatus;
import org.apache.commons.httpclient.methods.GetMethod;
import org.apache.commons.httpclient.params.HttpMethodParams;

public class GetSample{
public static void main(String[] args) {
//构造HttpClient的实例
HttpClient httpClient = new HttpClient();
//创建GET方法的实例
GetMethod getMethod = new GetMethod("http://www.dianping.com");
[color=red]getMethod.setRequestHeader( "User-Agent", "fake"); [/color]
//使用系统提供的默认的恢复策略
getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
new DefaultHttpMethodRetryHandler());
try {
//执行getMethod
int statusCode = httpClient.executeMethod(getMethod);
if (statusCode != HttpStatus.SC_OK) {
System.err.println("Method failed: "
+ getMethod.getStatusLine());
}
//读取内容
byte[] responseBody = getMethod.getResponseBody();
//处理内容
System.out.println(new String(responseBody));
} catch (HttpException e) {
//发生致命的异常，可能是协议不对或者返回的内容有问题
System.out.println("Please check your provided http address!");
e.printStackTrace();
} catch (IOException e) {
//发生网络异常
e.printStackTrace();
} finally {
//释放连接
getMethod.releaseConnection();
}
}
}

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

httpclient怎么才可以不遵守robots.txt
2008-06-27 15:48

回答 3 已采纳 import java.io.IOException; import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler;
HttpClient 报错 java.lang.NoClassDefFoundError java 有问必答
2021-05-11 16:18

回答 7 已采纳 https://blog.csdn.net/Lshuibobuxing/article/details/90719604
HttpClient对象不关闭会有什么后果 java java-ee tomcat
2021-05-31 16:43

回答 1 已采纳不关它会一直占用httpclient导致其无法被jvm回收，程序一直异常，后边就获取不到值了，直到崩溃。
Java使用HttpClient和HtmlParser实现的爬虫Demo.zip
2024-03-08 11:17

遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...
httpclient.excute方法报空指针，求好心人帮忙
2016-12-16 09:36

回答 1 已采纳 http://www.2cto.com/kf/201312/263762.html
httpClient.post()报错，有没有人知道怎么解决 java 有问必答
2021-08-16 10:18

回答 2 已采纳不知道你用的是什么依赖。httpClient是http请求客户端对象，执行请求方法是通过HttpPost或者HttpGet对象。参考: httpclient post方法【亲测可用】_wzde
httpclient-loadTrustMaterial-java:找不到符号 java 有问必答
2021-07-26 16:25

回答 2 已采纳解决了发现是引用包的问题JDK 1.8 maven项目SSLContextBuilder builder = new SSLContextBuilder();引用org.apache.httpco
制作一套网络爬虫程序设计
2024-03-21 22:17

在设计爬虫时，还需考虑遵守robots.txt规则、设置合理的请求间隔以及处理异常和重试机制。此外，对于大型网站，可能需要实现多线程或异步爬取以提高效率。最终，一个完善的C#网络爬虫应能稳定、高效地爬取目标数据。
Java后台得到a网站的登录返回信息 java
2017-06-05 10:11

回答 4 已采纳【事实上，我已经在a网站登录了】，是模拟登陆了？还是你自己在网站上登录了？登录状态有一些cookie，token之类的你是怎么处理的？
关于HttpClient设置超时时间无效的问题
2015-12-28 16:14

回答 2 已采纳 httpclient最长只有20秒。你可以用循环增加长度
java: 程序包org.apache.commons.beanutils不存在 java
2022-12-28 13:00

回答 3 已采纳 pom.xml文件中添加依赖 <dependency> <groupId>commons-beanutils</groupId>
蜂巢爬虫系统 .zip
2024-03-06 11:33

遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...
httpClient 资源关闭问题
2018-03-30 09:55

回答 1 已采纳 httpclient是线程安全的，调用第三方不会超时，回话结束jvm会回收，但是response接受对象需要关闭，不关它会一直占用httpclient导致其无法被jvm回收，程序崩溃
Java网络爬虫小说下载器.zip
2024-03-06 11:30

遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...
电商网站商品信息爬虫.zip
2024-03-06 11:45

遵守规则：为避免对网站造成过大负担或触发反爬虫机制，爬虫需要遵守网站的robots.txt协议，限制访问频率和深度，并模拟人类访问行为，如设置User-Agent。反爬虫应对：由于爬虫的存在，一些网站采取了反爬虫措施...
没有解决我的问题, 去提问

悬赏问题

¥15 vc6.0中想运行代码的时候总是提示无法打开文件是怎么回事
¥25 关于##爬虫##的问题，如何解决?:
¥15 ZABBIX6.0L连接数据库报错，如何解决？(操作系统-centos)
¥15 找一位技术过硬的游戏pj程序员
¥15 matlab生成电测深三层曲线模型代码
¥50 随机森林与房贷信用风险模型
¥50 buildozer打包kivy app失败
¥30 在vs2022里运行python代码
¥15 不同尺寸货物如何寻找合适的包装箱型谱
¥15 求解 yolo算法问题

httpclient怎么才可以不遵守robots.txt

3条回答 默认 最新

悬赏问题

3条回答默认最新