lunece查找近似文章的问题

我正在做一个网站的垂直搜索模块，现在碰到了以下问题。

请注意：根据字符串查询相关内容的方法我已经写好了，所以我不是问查找相关文章的算法。

我要问的是：

我的查找相关文章的方法要求我传一个代表文章内容的字符串作为对比参数。

难道我在显示每篇文章之前都要先把该文章的所有内容传给查找相关文章的方法，然后获得相关文章列表吗？

如果文章的内容很多，这种传输会不会造成性能问题呢？

javaeye生成相关文章列表的凭据数据是什么呢？也是拿整篇文章的内容去求得相关文章列表？还是有其他更改好的方法？

如果 javaeye也是把文章的所有内容作为查找相关文章的凭据，那么这些内容是如何传到后台的呢，通过url参数吗？

小弟不才，还请各位大大帮助。

附上查询方法：

package com.jdtqn.module.tools.search;

import java.io.StringReader;

import java.util.ArrayList;

import java.util.List;

import jeasy.analysis.MMAnalyzer;

import org.apache.lucene.index.IndexReader;

import org.apache.lucene.search.Hits;

import org.apache.lucene.search.IndexSearcher;

import org.apache.lucene.search.Query;

import org.apache.lucene.search.similar.MoreLikeThis;

import com.jdtqn.module.tools.SearchResult;

import com.jdtqn.module.tools.SearchResults;

public class MoreLikeThisSearcher implements Seacher{

private String index_path="D:\\work\\resin-pro-3.0.26\\deploy\\jdtqn_final\\anthemIndex";

public void setIndex_path(String index_path){
    this.index_path=index_path;
}
public SearchResults search(String queryWord) throws Exception {

    IndexReader r = IndexReader.open(index_path); 
    MoreLikeThis mlt = new MoreLikeThis(r); //传入IndexReader对象提供查询
    mlt.setAnalyzer(new MMAnalyzer());//设置使用的分词器
    mlt.setFieldNames(new String[]{"htmlTitle","htmlContent"}); //设置需要比较的field字段
    mlt.setMinWordLen(0);
    mlt.setMinDocFreq(2);//出现词的频率小于二，则该词不作为关键词被纳入搜索
    mlt.setMinTermFreq(3);
    mlt.setBoost(true);
    Query query = null;
    query = mlt.like(new StringReader(queryWord)); //创建查询,传入查询内容可为任意的Reader子类
    IndexSearcher searcher = new IndexSearcher(index_path);
    Hits hits = searcher.search(query); //根据查询返回相似文档
    int len = hits.length();
    System.out.println(len);
    SearchResult searchResult;
    SearchResults searchResults = new SearchResults();
    searchResults.setHitsCount(len);
    List&lt;searchresult&gt; searchList = new ArrayList&lt;searchresult&gt;();
    for (int i = 0; i &lt; Math.min(7, len); i++) //如果比7大就只返回前7条
    {
        searchResult = new SearchResult();
        System.out.println(hits.score(i));
        searchResult.setHtmlName(hits.doc(i).get("htmlName"));
        System.out.println(hits.doc(i).get("htmlName"));
        searchResult.setHtmlTitle(hits.doc(i).get("htmlTitle"));
        searchList.add(searchResult);
        System.out.println("*****************");
    }
    r.close(); //关闭索引
    return searchResults;
}


}

问题补充
难道就没人知道吗？没人做相似文章推荐这个功能吗？

自己顶下

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
kimmking 博客专家认证 2008-08-12 21:46
关注
相关文章的原理：

每一篇文字发布时，从其中抽取几个关键词（tag），
相关文章即是具有相同关键词的最近的几篇。
每一篇文章的各个tag可以给一个权重，也可以按各个关键词的权重和来作为文章相似度的指标。

（比如：本文的tag为 lunece 0.5,文章 0.2,查找 0.2...

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

lunece查找近似文章的问题
2008-08-12 12:52

回答 1 已采纳相关文章的原理：每一篇文字发布时，从其中抽取几个关键词（tag），相关文章即是具有相同关键词的最近的几篇。每一篇文章的各个tag可以给一个权重，也可以按各个关键词的权重和来作为文章相似
lucene设置Field为un_tokenized时怎么匹配，答对者送wave了 lucene
2009-11-25 10:06

回答 9 已采纳 HitCollector很简单，它提供了一个collect方法，用于收集搜索结果，在这个时候你可以通过docId访问到数据的mc字段，然后最简单的办法就是你通过字符串split一下，然后逐个匹配，这样
lunece_search_3.0.zip_lunece+es
2022-09-24 06:01

学习lunece的一个小例子，实现一些基本的搜索功能~
lunece全文检索C#
2016-05-03 21:21

lunece
lunece入门之HelloWorld
2019-04-21 01:37

NULL 博文链接：https://huhongyu.iteye.com/blog/1929626
lunece 学习笔记实用知识库分享知识分享
2023-10-13 21:03

资源lunece 学习笔记实用知识库分享知识分享
lunece 建立索引与查询示例
2010-10-28 08:26

lunece 建立索引与查询示例lunece 建立索引与查询示例lunece 建立索引与查询示例lunece 建立索引与查询示例lunece 建立索引与查询示例lunece 建立索引与查询示例
lunece
2008-06-16 16:25

lunece全文检索
Lunece介绍和简单实用
2021-10-31 00:06

林语堂丶的博客文章目录Lunece什么是全文检索数据分类结构化数据查询方法非结构化数据查询方法如何实现全文检索Lunece实现全文索引的流程索引和搜索的流程图创建索引获取原始文档创建文档对象分析文档创建索引查询索引用户查询接口...
Lunece学习篇之Lunece索引查看工具
2018-10-12 19:39

徐川江的个人博客的博客 1.百度下载lukeall-4.10.0.jar 2.运行JAR,选择lunece文档位置
php结合lunece_php引入lucene方法
2020-12-21 06:44

weixin_39830688的博客在引入Lucene之前，先说下PHP JAVA Bridge的概念：PHP JAVA Bridge：就是在PHP和Java之间搭建一座桥梁，利用这座桥梁在这两个实体之间建立起一个沟通渠道，在这座桥梁的帮助下，你可以在Java中开发类，然后在PHP中调...
php结合lunece_WordPress集成Lucene全文搜索
2020-12-30 14:58

仙夜子的博客看看WordPress全文搜索的效果吧我以“算法的文章”作为查询条件，很明显，任何文章里都没有直接写这句话，SQL的LIKE也就无能为力了，但是Lucene能够给出正确的答案：效果还是蛮不错的，有时间加一点复杂的功能，...
Lunece全文检索搜索引擎
2024-04-19 04:28

2401_84412738的博客 Java架构进阶面试及知识点文档笔记这份文档共498页，其中包括Java集合，并发编程，JVM，Dubbo,Redis，Spring全家桶，MySQL，Kafka等面试解析及知识点整理Java分布式高级面试问题解析文档其中都是包括分布式的面试...
lunece3.6初识
2014-12-16 15:20

ch_9936的博客在手的项目需要用到lunece对系统做一个全文检索的扩展功能，组里没有人用过这个玩意，不知怎么就把这个任务发给我了。没办法网上查资料学习呗。
ELK--分词&Lunece
2022-02-12 21:34

Abner G的博客分词就是将句子、段落、文章这种长文本，分解为以字词为单位的数据结构，方便后续的处理分析工作。文本都是一些“非结构化数据”，我们需要先将这些数据转化为“结构化数据”。 IK分词器 Java编写，分词效率目前...
php结合lunece_php + clucene extension的安装
2020-12-30 14:58

周咕嘟的博客 CLucene是SF上面的一个对Lucene(一个用Java写的全文检索引擎工具包)的移植,做为Lucene的C++的重新实现，以带来更快的检索速度,但是一直还不stable.这里仅仅是尝试php+clucene扩展的安装,具体应用先不管....
使用Java实现lunece分词检索
2022-01-29 10:10

骑着长颈鹿敲代码的博客使用Java实现lunece分词检索 1.引入依赖 <properties> <lunece.version>4.10.2</lunece.version> </properties> <dependency> <groupId>org.ansj</groupId> <...
Lunece入门
2018-11-13 20:05

潇潇方远的博客 package com.heima.lunece; import org.apache.commons.io.FileUtils; import org.apache.lucene.document.Document; import org.apache.lucene.document.Field; import org.apache.lucene.document.TextField; ...
php结合lunece_IKAnalyzer结合Lucene实现中文分词(示例讲解)
2020-12-21 06:44

weixin_39529903的博客 1、基本介绍随着分词在信息检索领域应用的越来越广泛，分词这门技术对大家并不陌生。对于英文分词处理相对简单，经过拆分单词、排斥停止词、提取词干的过程基本就能实现英文分词，单对于中文分词而言，由于语义的...
php结合lunece_用PHP调用Lucene包来实现全文检索
2020-12-21 06:44

weixin_39543835的博客作者：客服中心文章来源：网站建设点击数：425 更新时间：2008-4-05而PHP程序就调用这两个方法，实现对Lucene的调用，从而达到全文检索的目的。PHP的调用方法如下：先创建一个我们写的TxtFileIndexer类的实例，$tf...
没有解决我的问题, 去提问

悬赏问题

¥15 求daily translation（DT）偏差订正方法的代码
¥15 js调用html页面需要隐藏某个按钮
¥15 ads仿真结果在圆图上是怎么读数的
¥20 Cotex M3的调试和程序执行方式是什么样的？
¥20 java项目连接sqlserver时报ssl相关错误
¥15 一道python难题3
¥15 牛顿斯科特系数表表示
¥15 arduino 步进电机
¥20 程序进入HardFault_Handler
¥15 关于#python#的问题：自动化测试

lunece查找 近似文章的问题

1条回答 默认 最新

悬赏问题

lunece查找近似文章的问题

1条回答默认最新