一枚纠结的程序猿 2017-11-15 06:08
浏览 362
已结题

倒排索引的实现 大神们看看是不是我的输出代码不对 运行显示的不是我想要的

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;
using System.IO;

namespace ConsoleApplication1
{
class Term
{
public string word;//定义词项
public int doc_freq;//定义文档频率
}
class invertedIndex //建立倒排索引的类
{
Dictionary> index = new Dictionary>();//初始化倒排表
Dictionary mapping = new Dictionary();//初始化文件路径和文档编号的映射

    public invertedIndex(string path)//路径
    {
        init(path);//提出路径
    }
    void init(string path)
    {
        string[] files = Directory.GetFiles(path);//获取文件
        foreach (string file in files)//依次读取文件
        {
            int doc_id = mapping.Count + 1;
            mapping.Add(doc_id, file);//文档映射添加到词项
            StreamReader sr = new StreamReader(file);//重载文件
            string content = sr.ReadToEnd();//读取文档
            string[] words = content.Split(new char[] { ' ', ',', ';', '.', '!' }, StringSplitOptions.RemoveEmptyEntries);
            foreach (string word in words)//遍历文档中的每一个词
            {
                Term term = index.Keys.FirstOrDefault(m => m.word == word);//判断文档中有没有那个词项 
                if (term == null)//如果没有那个词项
                {
                    term = new Term();
                    term.word = word;
                    term.doc_freq = 1;

                    List<int> posting = new List<int>();
                    posting.Add(doc_id);

                    index.Add(term, posting);//文档中没有,直接添加,文档频率1,文档编号挂到倒排表
                }
                else//如果有那个词项,什么都不做
                {
                    List<int> posting = index[term];
                    if (!posting.Contains(doc_id)) //如果没有那个词项,把文档编号挂到倒排表,文档频率+1                       
                    {
                        posting.Add(doc_id);
                        index.Remove(term);
                        term.doc_freq++;
                        index.Add(term, posting);
                    }
                }
            }
        }
    }
    public void output()//输出
    {
        foreach (var term in index.Keys)
        {
            Console.WriteLine(term + "," + index[term]);

        }
    }
}

}
  • 写回答

0条回答 默认 最新

    报告相同问题?

    悬赏问题

    • ¥15 求差集那个函数有问题,有无佬可以解决
    • ¥15 【提问】基于Invest的水源涵养
    • ¥20 微信网友居然可以通过vx号找到我绑的手机号
    • ¥15 寻一个支付宝扫码远程授权登录的软件助手app
    • ¥15 解riccati方程组
    • ¥15 display:none;样式在嵌套结构中的已设置了display样式的元素上不起作用?
    • ¥15 使用rabbitMQ 消息队列作为url源进行多线程爬取时,总有几个url没有处理的问题。
    • ¥15 Ubuntu在安装序列比对软件STAR时出现报错如何解决
    • ¥50 树莓派安卓APK系统签名
    • ¥65 汇编语言除法溢出问题