对其他网站的爬虫代码更改问题

package alp.starcode.example;

import org.springframework.stereotype.Component;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Html;
import us.codecraft.webmagic.selector.Selectable;

    import java.util.ArrayList;
    import java.util.HashMap;
    import java.util.List;
    import java.util.Map;

@Component
public class NewsProcessor implements PageProcessor {

// 部分一：抓取网站的相关配置，包括编码、抓取间隔、重试次数等
private Site site = Site.me().setUserAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36").setRetryTimes(3).setSleepTime(1000);

private News news = new News();

private List<Map<String,String>>  mapList= new ArrayList<>();

@Override
// process是定制爬虫逻辑的核心接口，在这里编写抽取逻辑
public void process(Page page) {
    //判断是否为首页
    String s = page.getHtml().xpath("//div[@class='list']").toString();
    //判断是列表还是详情页
    Html html = page.getHtml();
    List<Selectable> nodes = html.css(".list > .news-item").nodes();
    if (nodes.size()>0){
        List<News> newsList = new ArrayList<>();
        for (Selectable node : nodes) {
            //获取节点里面的值
            String abstractContent = node.css(".news-item > .item-content > p", "text").get();
            String title = node.css(".news-item > .item-content > .text-hidden> a", "text").get();
            String author= "";
            String publishTime = "";
            news = new News();
            Map<String,String> map = new HashMap<>();
            
            map.put("title",title);
            map.put("abstract",abstractContent);
            mapList.add(map);
            news.setImgUrl(imgUrl);
            String detailUrl = node.xpath("//a/@href").get();
            
            List<String> urls = new ArrayList<>();
            if (detailUrl!=null){
                urls.add(detailUrl);
                page.addTargetRequests(urls);
                //String s1 = page.getHtml().toString();
                //System.out.println(s1);
            }
        }
    }else {
        //解析详情页
        parseInfo(page,news);
    }
}

//解析详情页
public void parseInfo(Page page,News news){
    //解析页面中的内容
    Html html = page.getHtml();
    String content = page.getHtml().xpath("//div[@class='article-content']").toString();
    String time = html.css("article > .article-header >.clearfix > .article-from > span", "text").get();
    String name = html.css("article > .article-header >.clearfix > .article-from > .info-detail", "text").get();
    String title = html.css("article > .article-header > h1", "text").get();
    news.setAuthor(name);
    news.setTitle(title);
    news.setContent(content);
    news.setPublishTime(time);
    //把结果传递给pipeline
    page.putField("news",news);
    page.putField("mapList",mapList);

}

@Override
public Site getSite() {
    return site;
}


public void crawling(){
    Spider.create(new NewsProcessor())
            //自定义的pipeline
            .addPipeline(new NewsPipeline())
            //从"https://github.com/code4craft"开始抓
            .addUrl("http://www.echinagov.com/news/")
            //.addUrl("http://www.echinagov.com/node/117_2/")
            //开启1个线程抓取,防止高并发情况
            .thread(1)
            //启动爬虫
            .run();
}

public static void main(String[] args) {

    Spider.create(new NewsProcessor())
            //自定义的pipeline
            .addPipeline(new NewsPipeline())
            //从"https://github.com/code4craft"开始抓
            //.addUrl("http://www.echinagov.com/news/")
            .addUrl("http://www.echinagov.com/node/117_3/")
            //开启5个线程抓取
            .thread(5)
            //启动爬虫
            .run();
}

}
想换一个页面布局不一样的网站爬虫，应该改哪些地方的哪些方面呢？addUrl已会改，UserAgent已改，其他的地方应该改哪里呢？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
honestman_ 2022-09-21 13:11
关注
headers和cookies都要改，

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于Python语言的招标网站爬虫设计源码
2024-10-03 13:35

由于网络爬虫可能会对网站服务器造成较大压力，因此在设计爬虫时还应当遵循“礼貌爬虫”的原则，即尽量减少对目标网站的影响。这通常包括设置合理的请求间隔，模拟正常用户的行为，以及在可能的情况下使用网站提供的...
并发编程在爬虫中的应用.md
2024-04-20 08:13

标签中提到的“编程语言 爬虫并发编程在爬虫中的应用”，这意味着我们要讨论的内容涉及编程语言的并发模型，以及如何将并发模型应用于爬虫开发中。从提供的部分文件内容中，我们可以提取出以下知识点： 1. 并发...
网站资料图书籍爬虫程序-爬虫python代码
2022-06-12 10:43

网站资料图书籍爬虫程序是使用Python编程语言和相关库构建的一种自动化工具，它能够从互联网上抓取网站上的图书信息，例如书籍标题、作者、简介等，并将这些数据存储到数据库中。在这个项目中，主要涉及了Scrapy、...
基于Python语言的爬虫设计源码
2024-10-06 04:01

本项目提供了基于Python语言的爬虫设计源码，不仅包含了丰富的代码文件，还涉及到了多种配置和资源文件，为爬虫开发人员提供了一个实用的参考平台。该项目包含了五类主要文件类型：pyc字节码文件、Python源代码...
java实现爬虫爬网站图片的实例代码
2020-08-27 09:26

Java 是一种流行的编程语言，可以用来实现爬虫爬网站图片。以下是 Java 实现爬虫爬网站图片的实例代码。 LinkQueue 类 LinkQueue 类是爬虫爬网站图片的核心组件，负责管理未访问的 URL 队列和已访问的 URL 集合。...
基于Java编程语言的日常练手项目设计源码
2024-10-02 16:44

这些源文件涵盖了从基础语法到复杂逻辑的多种编程知识点，练习者可以通过阅读、修改和添加代码来加深对Java语言的理解。源文件的结构通常遵循Java的包（package）组织方式，可能会涉及多种设计模式的应用，如单例...
java实现一个简单的网络爬虫代码示例
2020-08-28 21:20

Java实现一个简单的网络爬虫代码示例 Java是一种广泛应用于网络爬虫开发的编程语言，而Jsoup是一个非常方便的HTML解析工具。在本文中，我们将介绍如何使用Java实现一个简单的网络爬虫代码示例，并使用Jsoup解析HTML...
Python 万能代码模版：爬虫代码篇
2021-09-14 15:27

AI悦创Python一对一辅导的博客很多同学一听到 Python 或编程语言，可能条件反射就会觉得“很难”。但今天的 Python 课程是个例外，因为今天讲的 **Python 技能，不需要你懂计算机原理，也不需要你理解复杂的编程模式。**即使是非开发人员，只要...
python语言wph爬虫程序代码QZQ.zip
2025-05-07 16:16

Python语言作为当今编程领域中广泛使用的高级编程语言之一，因其简洁明了的语法和强大的功能库而备受开发者青睐。在众多应用场景中，网络爬虫的开发是Python的一大亮点。网络爬虫，或称网络蜘蛛，是一个自动化程序，...
python语言kssp爬虫程序代码QZQ1.zip
2025-05-07 16:16

编程源代码是实现程序功能的原始文本文件，通常需要通过编程语言来编写和解释执行。源代码中包含了编程逻辑、函数定义、数据结构设计等重要信息。程序员通过阅读和修改源代码来维护、升级和优化程序。 .zip格式是...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 9月21日

对其他网站的爬虫代码更改问题

1条回答 默认 最新

问题事件

1条回答默认最新