网络爬虫下载网页的问题

下载网页时只能下载第一个网页，后续网页虽然能爬出来，但是无法下载到本地。下载网页的代码如下
public class FileDownLoader {
/**根据 url 和网页类型生成需要保存的网页的文件名
去除掉 url 中非文件名字符
*/
public String getFileNameByUrl(String url,String contentType)
{
url=url.substring(7);//remove http://
if(contentType.indexOf("html")!=-1)//text/html
{
url= url.replaceAll("[\?/:|<>\"]", "_")+".html";
return url;
}
else//如application/pdf
{
return url.replaceAll("[\?/:*|<>\"]", "_")+"."+

      contentType.substring(contentType.lastIndexOf("/")+1);
    }   
}

/**保存网页字节数组到本地文件
 * filePath 为要保存的文件的相对地址
 */
private void saveToLocal(byte[] data,String filePath)
{
    try {
        DataOutputStream out=new DataOutputStream(

new FileOutputStream(new File(filePath)));
for(int i=0;i<data.length;i++)
out.write(data[i]);
out.flush();
out.close();
} catch (IOException e) {
e.printStackTrace();
}
}

/*下载 url 指向的网页*/
public String  downloadFile(String url)
{
      String filePath=null;


     /* 使用 GetMethod 来访问一个 URL 对应的网页，需要如下一些步骤。
      1 生成一个 HttpClinet 对象并设置相应的参数。
      2 生成一个 GetMethod 对象并设置响应的参数。
      3 用 HttpClinet 生成的对象来执行 GetMethod 生成的 Get 方法。
      4 处理响应状态码。
      5 若响应正常，处理 HTTP 响应内容。
      6 释放连接*/
      /* 1.生成 HttpClinet 对象并设置参数*/
      HttpClient httpClient=new HttpClient();
      //设置 Http 连接超时 5s
          httpClient.getHttpConnectionManager().getParams().

setConnectionTimeout(5000);

      /*2.生成 GetMethod 对象并设置参数*/
      //使用 GetMethod 来访问一个 URL 对应的网页
      GetMethod getMethod=new GetMethod(url);    
      //设置 get 请求超时 5s
      getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,5000);
      //设置请求重试处理,用的是默认的重试处理：请求三次
      getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER,
        new DefaultHttpMethodRetryHandler());

      /*3.执行 HTTP GET 请求*/
      try{ 
          /*executeMethod返回值是一个整数，表示了执行该方法后服务器返回的状态码，
          该状态码能表示出该方法执行是否成功,需要认证或者页面发生了跳转（默认状态下GetMethod的实例是自动处理跳转的）*/
          int statusCode = httpClient.executeMethod(getMethod);
          //判断访问的状态码
          if (statusCode != HttpStatus.SC_OK) 
          {

System.err.println("Method failed: "+ getMethod.getStatusLine());
filePath=null;
}

          /*4.处理 HTTP 响应内容（返回的状态码正确后，即可取得内容）*/
          /*取得目标地址的内容有三种方法：
          1 getResponseBody，该方法返回的是目标的二进制的byte流；
          2 getResponseBodyAsString，返回的是String类型，值得注意的是该方法返回的String的编码是根据系统默认的编码方式，所以返回的String值可能编码类型有误
          3 getResponseBodyAsStream，这个方法对于目标地址中有大量数据需要传输是最佳的。
                  在这里我们使用了最简单的getResponseBody方法。*/

byte[] responseBody = getMethod.getResponseBody();//读取为字节数组
//根据网页 url 生成保存时的文件名
filePath="E:\java\web spider\"+getFileNameByUrl(url,
getMethod.getResponseHeader("Content-Type").getValue());
saveToLocal(responseBody,filePath);
} catch (HttpException e) {
// 发生致命的异常，可能是协议不对或者返回的内容有问题
System.out.println("Please check your provided http address!");
e.printStackTrace();
} catch (IOException e) {
// 发生网络异常
e.printStackTrace();
} finally {
// 释放连接
getMethod.releaseConnection();

}
return filePath;
}
}
调用他的爬行代码如下：
public class Crawler {
/* 使用种子 url 初始化 URL 队列*/
String results="";
private void initCrawlerWithSeeds(String[] seeds)
{
for(int i=0;i<seeds.length;i++)
LinkDB.addUnvisitedUrl(seeds[i]);
}

/* 爬取方法*/
public void crawling(String[] seeds,JTextArea kkk)
{
    LinkFilter filter = new LinkFilter(){
        //提取以 用户输入的URL开头的链接
        public boolean accept(String url) {
            if(url.startsWith(url))
                return true;
            else
                return false;
        }
    };
    //初始化 URL 队列
    initCrawlerWithSeeds(seeds);
    //循环条件：待抓取的链接不空且抓取的网页不多于 1000
    while(!LinkDB.unVisitedUrlsEmpty()&&LinkDB.getVisitedUrlNum()<=1000)
    {
        //队头 URL 出对
        String visitUrl=LinkDB.unVisitedUrlDeQueue();
        if(visitUrl==null)
            continue;
        FileDownLoader downLoader=new FileDownLoader();
        //下载网页
        downLoader.downloadFile(visitUrl);
        //该 url 放入到已访问的 URL 中
        LinkDB.addVisitedUrl(visitUrl);
        //提取出下载网页中的 URL

        Set<String> links=HtmlParserTool.extractLinks(visitUrl,filter);
    Iterator<String> it = links.iterator(); //迭代器
        while(it.hasNext())
        {  
            results=results+'\n'+it.next();

        }

     kkk.setText(results);


    }
}

}
求各位大神帮忙解答，马上就要中期检查了

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
devmiao 2016-05-03 23:12
关注
http://blog.csdn.net/huzhengnan/article/details/22288897

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

网络爬虫下载网页的问题
2016-05-03 10:36

回答 1 已采纳 http://blog.csdn.net/huzhengnan/article/details/22288897
使用爬虫解析网页下载文件失败 python 爬虫
2022-08-15 15:47

回答 2 已采纳可以在循环时候做一次判断：如果解析出的 href 为空，那么手动拼接一个 href = "//download.ccgp.gov.cn/oss/download?uuid=" + id如果不为空，那么
Python网络爬虫中json解析失败 json python 有问必答爬虫
2022-02-26 20:51

回答 2 已采纳这个接口返回的是jsonp数据，不是json，要获取text替换掉回调函数名称和前后的括号后才是json数据
Python网络爬虫项目开发实战_并发下载_编程案例解析实例详解课程教程.pdf
2023-05-03 11:34

在之前，我们的爬虫都是串行下载网页的，只有前一次下载完成之后才会启动新下载。在爬取规模较小的示例网站时，串行下载尚可应对，一但面对大型网站时就会显得捉襟见肘了。在爬取拥有100万网页的大型网站时，假设...
学习网络爬虫有风险吗 python 学习方法爬虫
2023-01-22 10:36

回答 4 已采纳 1、初学者好好学就是了，基本不可能爬得到什么有风险的东西，因为你技术不够2、就算有了一定技术爬到了有一定风险的东西，基本上不盈利/不把人网站搞崩也没啥事3、学到后面知道的知识多了，自然也不会有什么所谓
关于使用python实现的网页爬虫程序卡死的问题 python 有问必答爬虫
2021-08-07 13:04

回答 3 已采纳你可以用time模块进行计时，每过10分钟先用os.system()重新打开程序，然后调用sys.exit()关闭旧进程如果有用，希望采纳哦~
python爬虫登录教务网站，怎么解决校园网的问题？ python 爬虫网络
2021-12-01 11:03

回答 2 已采纳教务网站应该只能在内网下访问；你找你们学校的VPN，用爬虫从那个入口进入，应该是可以解决的
网络爬虫论文答辩PPT课件
2022-05-20 17:51

网络爬虫论文答辩，网络爬虫论文答辩课件，网络爬虫论文答辩PPT
【Python爬虫】网络问题Errno 11001 python 有问必答
2021-09-04 09:43

回答 1 已采纳这个是代理连接不上的问题，IP质量有问题
pycharm网络爬虫出现错误 python
2021-12-25 23:51

回答 1 已采纳代码都爆红了，爬taobao的文章那么多，可以去参考一下
请教各位大拿，现在流行的网络爬虫有什么用 python 爬虫
2018-12-10 10:08

回答 5 已采纳 (1)爬虫有什么用，主要有两个，一个是抓取数据，下载文件；一个是机器人，模拟人对网站操作。前者你已经基本知道了，后者，比如12306刷票，水军刷评论，操作一些没有提供api接口的网站，比如查询快递
python爬虫爬到的网页内容不完全 python 爬虫网络
2021-10-31 23:19

回答 1 已采纳 beautifulsoup是爬静态网页的，应该是有些内容属于动态，可以尝试selenium
Java网络爬虫小说下载器.zip
2024-03-06 11:30

使用httpclient，jsoup，dom4j，json-lib，SWT创建的可下载小说的网络爬虫项目。爬虫（Web Crawler）是一种自动化程序，用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储，以便后续分析或展示。爬虫...
Python网络爬虫项目开发实战_下载缓存_编程案例解析实例详解课程教程.pdf
2023-05-03 11:34

对于我们这个小型的示例网站而言，这可能不算特别大的问题。但是，对于那些拥有数百万个网页的网站而言，重新爬取可能需要耗费几个星期的时间。因此，本章提出了对已爬取网页进行缓存的方案，可以让每个网页只下载一...
没有解决我的问题, 去提问

悬赏问题

¥50 导入文件到网吧的电脑并且在重启之后不会被恢复
¥15 （希望可以解决问题）ma和mb文件无法正常打开，打开后是空白，但是有正常内存占用，但可以在打开Maya应用程序后打开场景ma和mb格式。
¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？
¥15 让node服务器有自动加载文件的功能