芝士酸奶收藏家 2023-05-16 15:31 采纳率: 66.7%
浏览 37
已结题

虚拟机JAVA爬虫出错

代码


package my.webmagic;



import us.codecraft.webmagic.Page;

import us.codecraft.webmagic.Request;

import us.codecraft.webmagic.Site;

import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.pipeline.ConsolePipeline;

import us.codecraft.webmagic.pipeline.JsonFilePipeline;

import us.codecraft.webmagic.processor.PageProcessor;

import us.codecraft.webmagic.scheduler.QueueScheduler;



public class GetComments implements PageProcessor {

// 对爬取站点的一些属性进行设置,例如:设置域名,设置代理等;

private Site site = Site.me().setDomain("10.0.47.153:32400").setSleepTime(2000);



public Site getSite() {

return site;

}



public void process(Page page) {

page.putField("ten", page.getJson().toString());

}



public static void main(String[] args) {

String url_init    = "http://10.0.47.153:32400/jdjson?callback=fetchJSON_comment98vv111&productId=39215375204&score=0&sortType=5&pageSize=10&isShadowSku=0&fold=1&page=1";

                String url_pattern = "http://10.0.47.153:32400/jdjson?callback=fetchJSON_comment98vv111&productId=39215375204&score=0&sortType=5&pageSize=10&isShadowSku=0&fold=1&page=";

String output = "/data/edu1/tmp/";



QueueScheduler scheduler = new QueueScheduler();



Spider spider = Spider.create(new GetComments()).addUrl(url_init)

.setScheduler(scheduler)

.addPipeline(new JsonFilePipeline(output))

.addPipeline(new ConsolePipeline());



for (int i = 0; i < 100; i++) {

Request request = new Request();

request.setUrl(url_pattern + i);

scheduler.push(request, spider);

}

spider.thread(5).run();

}

}

运行截图

img

  • 写回答

3条回答 默认 最新

  • 原来我不知道啊 2023-05-17 15:15
    关注

    这应该是缺少log4j配置文件的警告信息,加一个log4j配置文件试试

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(2条)

报告相同问题?

问题事件

  • 系统已结题 5月30日
  • 已采纳回答 5月22日
  • 创建了问题 5月16日

悬赏问题

  • ¥15 孟德尔随机化结果不一致
  • ¥15 深度学习残差模块模型
  • ¥50 怎么判断同步时序逻辑电路和异步时序逻辑电路
  • ¥15 差动电流二次谐波的含量Matlab计算
  • ¥15 Can/caned 总线错误问题,错误显示控制器要发1,结果总线检测到0
  • ¥15 C#如何调用串口数据
  • ¥15 MATLAB与单片机串口通信
  • ¥15 L76k模块的GPS的使用
  • ¥15 请帮我看一看数电项目如何设计
  • ¥23 (标签-bug|关键词-密码错误加密)