请教关于如何通过预计算来减少相似度的计算量

我现在有从几个中文到几十个中文不等的注释，即文本。。
例如

注释	类型
A	客户
B	客户
C	金额
D	金额

  有一点问题的是。 类型是我为了方便解释而添加的。实际情况中并没有，我想通过预计算，得到注释的类型。而类型可以是中文，或者其他什么值。

这时候我传入一个新的注释 A1 ，我需要计算 A1 与其他注释的相似度。。我现在有总数 6000个左右的注释。如果我来10个新注释。就会计算 10乘以6000次。但是其中大部分计算是冗余的.。
我想通过预计算A1，得到A1的类型是客户。这时候我只需要计算 A1 与类型是客户的注释的相似度了。。

不知道有什么方法可以实现我的这个想法.请各位老(da)师(lao)不吝赐教

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
配电网和matlab 2023-07-18 21:57
关注
以下内容引用自GPT，有用望采纳：

你的想法是通过预计算注释的类型，来减少相似度计算的次数，从而节约计算资源。这是一个常见的优化思路，在数据挖掘领域中通常称为基于索引的相似度计算。

对于你的情况，你可以考虑使用一种称为倒排索引（Inverted Index）的数据结构来实现。倒排索引可以帮助你记录每个类型对应的注释，并且提供高效的查找功能。

首先，你需要构建一个倒排索引表，在这个表中，每个类型对应一个注释的列表。可以使用Java的Map来实现这个倒排索引表，类型作为键，注释列表作为值。例如：

Map<String, List<String>> invertedIndex = new HashMap<>();

然后，你需要遍历所有注释，将每个注释添加到对应类型的列表中。例如：

// 遍历所有注释 for (int i = 0; i < totalComments; i++) { String comment = comments[i]; String type = types[i]; // 检查倒排索引表中是否已经存在该类型的列表 if (invertedIndex.containsKey(type)) { // 如果存在，则将该注释添加到列表中 invertedIndex.get(type).add(comment); } else { // 如果不存在，则创建一个新的列表，并添加该注释 List<String> commentList = new ArrayList<>(); commentList.add(comment); invertedIndex.put(type, commentList); } }

接下来，当你有一个新注释要计算相似度时，你可以直接通过注释的类型来获取对应的注释列表，然后计算相似度。这样只需要计算与同一类型的注释的相似度，避免了冗余计算。

String newComment = "A1"; String newCommentType = "客户"; List<String> sameTypeComments = invertedIndex.get(newCommentType); for (String comment : sameTypeComments) { // 计算相似度 double similarity = calculateSimilarity(newComment, comment); // 进行相似度的处理操作 // ... }

在这个例子中，calculateSimilarity 是一个用于计算相似度的方法，你可以根据你的需求选择合适的相似度计算算法，例如余弦相似度或编辑距离等算法。

通过倒排索引的方式，你可以预先构建好索引表，在计算新注释的相似度时，只需要直接获取同一类型的注释列表，减少了冗余计算的次数，提高了计算效率。

希望这个解释对你有帮助，如果有任何问题，请随时提问。
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

AI 人工智能遇上 ChatGPT：碰撞出的火花
2025-07-10 23:33

AI算力网络与通信的博客我们的目的是深入了解 AI 人工智能和 ChatGPT 相遇后产生的各种变化和影响。范围涵盖它们的基本概念、核心原理、实际应用场景以及未来的发展可能性等方面。首先我们会介绍相关术语，然后通过故事引出核心概念并详细...
少瞎吹系列：AI智能体基础，infra就不基础
2025-12-16 01:58

亲爱的数据的博客 AgentBay主要擅长的是中等难度的智能体解决方案，英伟达：『照抄者死』，阿里华为：AI集群狂飙『全解耦』所以，之前的七大件，到最近（12月）的九大件都不够，是时候去问CTO了，咱的AI产品要不要封装MCP？...
【科普】AI大模型的工作原理：它是如何“理解”人类语言的？
2025-07-14 09:45

大模型研究院的博客【科普】AI大模型的工作原理：它是如何“理解”人类语言的？
搜索、推荐、广告系统等人工智能优质技术资源最全整理
2020-03-13 18:16

研发之道的博客前沿文章目录前沿开源地址[算法学习资料： AI_Tutorial](https://github.com/cbamls/AI_Tutorial)开源相关LuceneSolrElasticLucidWorks中文分词大公司阿里百度京东美团点评...人工智能、AI架构、搜索系统、推荐系统...
AI创业：合适的机器学习框架
2024-09-12 02:39

光子AI的博客强大的计算图功能，适用于复杂模型的构建；广泛的应用场景，包括图像识别、自然语言处理等；支持多种编程语言，如Python、C++、Java等；丰富的生态系统和第三方库。相对较大的资源消耗，适用于高性能计算环境；学习...
提示工程架构师深度探讨深度学习在提示工程的应用实践的自然语言处理
2025-08-05 21:37

AI算力网络与通信的博客今天，大语言模型（比如ChatGPT、GPT-4、Claude）已经渗透到我们的工作和生活：写文案、做策划、解数学题、甚至写代码，我们都习惯喊一句“让AI来试试”。但很多人遇到的第一个坑是——AI的输出质量，完全取决于你...
低成本构建AI知识库——基于anything-llm与国产GPU实践
2025-12-23 09:21

雷鸣泽基的博客利用Anything-LLM与国产GPU，企业可在内网快速构建安全可控的智能问答系统。支持多种文档格式，自动向量化检索，结合本地大模型实现高效RAG，无需依赖国外算力，部署简单且成本低，适合中小企业、政府及教育单位落地...
茴香豆：搭建RAG智能助手第三课实战
2024-06-08 17:35

嘻嘻嘻577的博客 RAG 生态、三种范式、RAG优化方法、RAG关键问题（检索什么？何时检索？如何检索？）、RAG 发展前景、RAG评测（目标...应用场景 & 场景难点智能客服：技术支持、领域知识对话IM工具中创建用户群组，讨论、解答相关问题。
【Datawhale AI夏令营第四期】浪潮源大模型应用开发方向笔记 Task04 RAG模型人话八股文Bakwaan_Buddy项目创空间部署
2024-08-18 18:28

百里香酚兰的博客我能把这个过程理解为Kimi.ai每次都能列出的一大堆网页参考资料吗？Kimi学了这些资料以后，根据这里面的信息综合还生成的答案，而不是仅仅基于自己的现有知识库回答。Kimi本体认证：差不多就是这个意思！
Meta AI教育辅导落地实践
2025-10-03 02:39

烟幕缭绕的博客 Meta利用LLaMA大模型与多模态技术构建AI教育系统，涵盖智能辅导、个性化推荐与VR教学，通过RAG、微调和上下文管理提升教学准确性与互动性，并在K-12、高等教育等场景验证应用效果。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 7月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 7月18日

请教关于如何通过预计算来减少相似度的计算量

1条回答 默认 最新

问题事件

1条回答默认最新