关于利用hadoop实现Lucene分布式

public void reduce(IntWritable key, Iterable values,
Context context) throws IOException, InterruptedException {
IndexWriter iw = null;
Analyzer analyzer= new IKAnalyzer();
Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);
Path path = new Path("hdfs://software07:9000/tmp/index");
FileSystemDirectory fsdir= new FileSystemDirectory(fs, path, true, conf);
for (Text val : values) {
String var = val.toString();
Document doc = new Document();
iw = new IndexWriter(fsdir,analyzer,true,IndexWriter.MaxFieldLength.LIMITED);
doc.add(new Field("info", var, Field.Store.YES, Field.Index.ANALYZED));
iw.close();
}
iw.optimize();
iw.close();
//context.write(key, result);
}

这个reduce报错，
java.lang.IllegalArgumentException: Wrong FS: hdfs://software7:9000/tmp/index, expected: file:///
不知道为什么出错，难道FileSystemDirectory不能使用这类path
那如何创建索引到HDFS，那又如何从hdfs读取索引目录呢

另外hadoop contrib/index中使用了Lucene，是哪个版本的lucene啊，这个包如何使用啊
谢谢指导啊

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
nepshi 2011-12-31 16:00
关注
据我所知，Lucene的索引一般不往HDFS上写，都是先写到本地文件系统，如果有需要，再移动到HDFS上，具体可以参考katta之类的开源实现，我觉得效率是主要因素吧。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

基于Hadoop平台的分布式搜索引擎.zip
2024-03-13 11:47

总结，基于Hadoop的分布式搜索引擎充分利用了分布式计算的优势，实现了大规模数据下的高效搜索。"SearchEngine-master"项目为我们提供了一个实践平台，通过学习和研究，我们可以更好地理解和掌握在Hadoop上构建搜索...
第8章 Hadoop——分布式大数据开发平台
2020-12-29 21:38

这里是_uuu的博客 Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），其中一个组件是HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用...
大数据开发之Hadoop
2024-08-08 10:34

遗憾还会等她吗的博客 hadoop介绍hdfs
基于Hadoop分布式系统的地质环境大数据框架探讨.pdf
2021-08-09 00:00

基于Hadoop分布式系统的地质环境大数据框架探讨，涉及了地质环境大数据的特性分析，以及提出了一种基于Hadoop生态系统架构的框架。这个框架支持数据清洗转换、分布式数据存储管理、数据挖掘、文本搜索和数据可视化等...
大数据处理利器：Hadoop 入门指南
2025-05-07 19:47

widder_的博客从解决 “存储圆周率万亿位数据” 的早期需求，到如今成为大数据处理的事实标准，Hadoop 凭借其分布式架构、高容错性和丰富的生态，深刻改变了数据处理的方式。无论是企业级的数据仓库建设，还是科研领域的大规模...
Hadoop与Spark等大数据框架介绍
2018-08-09 17:06

von Neumann的博客但是这种方法无法充分利用多台计算机同时进行分析数据。一个实际的需求场景：日志分析日志分析是对日志中的每一个用户的流量进行汇总求和。对于一个日志文件，如果只有这么几行数据，我们一般会采用...
大数据之Hadoop图解概述
2024-04-20 23:46

2401_84048179的博客 5）可以说Google是Hadoop的思想之源（Google在大数据方面的三篇论文） GFS —>HDFS Map-Reduce —>MR BigTable —>HBas 6）2003-2004年，Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用 ...
大数据框架Hadoop篇之Hadoop入门
2022-12-18 10:18

翻滚的小@强的博客 Hadoop是一个Apache基金会开发的分布式系统基础架构，主要解决：海量数据的存储和海量数据的分析计算问题
hadoop大数据平台操作笔记（上）
2024-09-21 18:31

种一棵树001的博客以下是对Hadoop的详细解释及其用途的概述： Hadoop是什么定义：Hadoop是一个开源的分布式计算平台，它通过将数据分布式存储在多台服务器上，并使用MapReduce等算法进行数据处理，从而实现高效的数据存储和处理。...
2-大数据技术之Hadoop（入门）
2023-12-15 11:11

在实际应用中，根据业务需求选择合适的Hadoop发行版，并掌握集群部署、监控和故障排查技能，能够帮助你有效地利用Hadoop处理和分析大数据。总的来说，Hadoop是大数据处理的关键技术，它的出现使得处理PB级别的数据...
没有解决我的问题, 去提问

关于利用hadoop实现Lucene分布式

1条回答 默认 最新

1条回答默认最新