#爬虫webmagic#使用PriorityBlockingQueue出现排序失灵，如何解决？

最近用的webmagic做垂直爬虫，对方网页是通过js动态加载，不能直接爬html的，所以是从F12里面的Network，抓包拿到网址，再发送请求拿到的数据。

因为要做请求排序，我模仿了PriorityScheduler，自定义了一个Scheduler：

下面的代码里面：
level:记录爬取深度
pageNum:记录分页的页码
literatureNum:记录文章的顺序
textIndex:记录全文的内容（因为全文是分开很多个图片，上面无页码，所以从第一页到最后一页，要记录）
爬取的逻辑是，先有pageNum，再有literatureNum，最后有textIndex，
但爬虫顺序优先级是textIndex>literatureNum>pageNum。
对应的深度：pageNum的level是0，literatureNum的level是1，textIndex的level是2

用的PriorityBlockingQueue做任务队列：

package com.huada.priorityScheduler;

import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.scheduler.DuplicateRemovedScheduler;
import us.codecraft.webmagic.scheduler.MonitorableScheduler;

import java.util.concurrent.PriorityBlockingQueue;

/**
 * Priority scheduler. Request with higher priority will poll earlier. <br>
 *
 * @author code4crafter@gmail.com <br>
 * @since 0.2.1
 */
public class MyQueueScheduler extends DuplicateRemovedScheduler implements MonitorableScheduler {

    public static final int INITIAL_CAPACITY = 100;

    private final PriorityBlockingQueue<Request> priorityQueue = new PriorityBlockingQueue<>(INITIAL_CAPACITY, (o1, o2) -> {
        //比较优先级，越大越优先
        if ((int) o1.getExtra("level") != (int) o2.getExtra("level")) return (int) o2.getExtra("level") - (int) o1.getExtra("level");
        //比较页数，页数越小越优先
        if ((int) o1.getExtra("pageNum") != (int) o2.getExtra("pageNum")) return (int) o1.getExtra("pageNum") - (int) o2.getExtra("pageNum");
        //比较文章顺序，文章顺序越前(小)越优先
        if ((int) o1.getExtra("literatureNum") != (int) o2.getExtra("literatureNum")) return (int) o1.getExtra("literatureNum") - (int) o2.getExtra("literatureNum");
        //比较全文图片索引，索引越小越优先
        if ((int) o1.getExtra("textIndex") != (int) o2.getExtra("textIndex")) return (int) o1.getExtra("textIndex") - (int) o2.getExtra("textIndex");
        return 0;
    });

    @Override
    public void pushWhenNoDuplicate(Request request, Task task) {
        priorityQueue.put(request);
    }

    @Override
    public synchronized Request poll(Task task) {
        return priorityQueue.poll();
    }

    @Override
    public int getLeftRequestsCount(Task task) {
        return priorityQueue.size();
    }

    @Override
    public int getTotalRequestsCount(Task task) {
        return getDuplicateRemover().getTotalRequestsCount(task);
    }
}

但是最后的排序结果很诡异，排序很乱，不知道为什么：

后面我不用PriorityBlockingQueue，用的CopyOnWriteArrayList，排序则正常，结果如下：

package com.huada.priorityScheduler;

import us.codecraft.webmagic.Request;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.scheduler.DuplicateRemovedScheduler;
import us.codecraft.webmagic.scheduler.MonitorableScheduler;

import java.util.concurrent.CopyOnWriteArrayList;

/**
 * 自定义任务队列
 */
public class MyArrayListScheduler extends DuplicateRemovedScheduler implements MonitorableScheduler {

    private static CopyOnWriteArrayList<Request> priorityList = new CopyOnWriteArrayList<>();

    @Override
    public void pushWhenNoDuplicate(Request request, Task task) {
        priorityList.add(request);
    }


    @Override
    public synchronized Request poll(Task task) {
        if (priorityList.size() == 0) return null;
        if (priorityList.size() >= 2) {
            priorityList.sort((o1, o2) -> {
                //比较优先级，越大越优先
                if ((int) o1.getExtra("level") != (int) o2.getExtra("level")) return (int) o2.getExtra("level") - (int) o1.getExtra("level");
                //比较页数，页数越小越优先
                if ((int) o1.getExtra("pageNum") != (int) o2.getExtra("pageNum")) return (int) o1.getExtra("pageNum") - (int) o2.getExtra("pageNum");
                //比较文章顺序，文章顺序越前(小)越优先
                if ((int) o1.getExtra("literatureNum") != (int) o2.getExtra("literatureNum")) return (int) o1.getExtra("literatureNum") - (int) o2.getExtra("literatureNum");
                //比较全文图片索引，索引越小越优先
                if ((int) o1.getExtra("textIndex") != (int) o2.getExtra("textIndex")) return (int) o1.getExtra("textIndex") - (int) o2.getExtra("textIndex");
                return 0;
            });
        }
        Request req = priorityList.get(0);
        priorityList.remove(0);
        return req;
    }

    @Override
    public int getLeftRequestsCount(Task task) {
        return priorityList.size();
    }

    @Override
    public int getTotalRequestsCount(Task task) {
        return getDuplicateRemover().getTotalRequestsCount(task);
    }
}

所以用PriorityBlockingQueue为什么会出现排序失灵的情况？

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
紫荆桥下 2023-02-03 18:04
关注
PriorityBlockingQueue是一个无界的、线程安全的、可排序的队列，它使用了优先级队列的内部实现。在队列中添加元素时，会根据元素的优先级进行排序，使得在出队的时候，优先级最高的元素先出队。
PriorityBlockingQueue可能会出现排序失灵的情况，这是因为在添加元素时没有任何同步措施，多个线程同时添加元素可能导致排序失灵。另外，如果元素的优先级相同，则无法保证元素的出队顺序。如果出现排序失灵的情况，可以尝试以下几种解决方案：

使用同步机制来控制PriorityBlockingQueue的访问，保证在操作队列的时候其他线程无法访问；

使用Collections.sort()方法来重新排序队列中的元素；

将PriorityBlockingQueue中的元素拷贝到一个新的集合中，然后利用Collections.sort()方法对元素进行排序，最后清空原来的PriorityBlockingQueue，将排好序的元素重新放入；

使用Comparable接口重新实现比较器，以确保PriorityBlockingQueue中的元素按照正确的顺序排列。
本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(1条)

报告相同问题？

关注问题

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月24日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月16日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月2日
展开全部

#爬虫webmagic#使用PriorityBlockingQueue出现排序失灵，如何解决？

2条回答 默认 最新

问题事件

2条回答默认最新