千万级文本特征向量互相匹配计算余弦距离带来大量计算量该如何解决

        最近公司有个需求，要求要对2800万客户的地址（短中文文本），从中找出两两地址相似的客户。比如A 客户填写的地址与B客户填写的地址相似，不要求完全想等，就可以认为他们可能存在关系。最后把所有两两有地址相似的客户都导出。这个一个全量的、批量的相似地址的计算。
  现在在做的做法是，通过中文分词，Tf-idf 把地址中文文本转成特征稀疏向量，然后这2800万条向量做笛卡尔积或阶乘式的匹配，进行两两余弦距离计算，满足设定夹角余弦距离阈值才给输出，或写进表里。这样做，对于少量数据可以用，但是千万级数据的笛卡尔积或阶乘式的匹配带来的计算量实在太恐怖了，在spark 上跑，一会就full GC了，或是报数组长度超过java允许的最大长度的错误。

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

2条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
ccc123_ok 2017-11-25 12:50
关注
这种规模的数举，完全在内存中做是不行的，利用数据库，分几个步骤完成就可以了。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

三维向量角分线计算问题云计算其他边缘计算
2022-05-16 15:11

回答 1 已采纳你最下面的这个公式不就是求平分线吗？向量肯定包含了方向啊，至于大小，角平分线是一条射线，只要知道起点和方向即可。举个例子来说a=[0,4],b=[3,0],这两个向量互相垂直，角平分线为45度，按照公
matlab特征值和特征向量计算问题 matlab
2018-03-24 08:18

回答 4 已采纳 https://blog.csdn.net/robertchenguangzhi/article/details/40747285 https://blog.csdn.net/evan123mg/a
C++ Eigen库求出的矩阵的特征向量与Matalb eig求出的特征向量符号相反 c++ matlab 有问必答
2022-02-10 15:39

回答 2 已采纳 matlab中eig求取的特征向量不唯一。参考如下： 特征向量方向的唯一性 - 知乎对n维方阵，若其有n个互异的特征值，则其特征向量线性无
ElasticSearch学习篇9_文本相似度计算方法现状以及基于改进的 Jaccard 算法代码实现与效果测评
2023-12-22 19:14

scl、的博客目前基于集合的Jaccard算法以及基于编辑距离的Levenshtein在计算文本相似度场景中有着各自的特点，为了优化具体的计算时间抖动超时问题，需要学习此方面知识，本文主要内容为文本相似度计算方法的现状、Jaccard、...
python如何将带标签的特征向量直接导入到朴素贝叶斯分类器中进行分类 python
2018-03-06 02:38

回答 4 已采纳数据文件是什么格式？txt csv？？。。。
用r语言计算向量里奇数的个数 r语言有问必答
2022-03-12 20:38

回答 2 已采纳你把32行的逗号改成分号，试试行不
超空间体的三维距离的计算，采用向量的方式的算法实现，怎么利用C语言解决 erlang golang r语言
2019-01-19 23:18

回答 1 已采纳 https://blog.csdn.net/fire_cat11211022/article/details/9956925
AI探索实践5 - 打造企业智能体(AI Agent)的重要技术-向量数据库
2024-02-26 12:34

JingFeng.Huang的博客向量代表了物品或实体的特征，可以是高维数据点，如一张图像、一段音频或一篇文本的数学表达。在向量数据库中，每个数据点都是一个有序的数值列表，我们可以通过这些数值来量化比较数据点之间的相似程度。在具体使用...
c++ 向量要怎么计算看一下 c++
2022-06-16 13:30

回答 1 已采纳 #include <iostream> using namespace std; class Xil { public: Xil(int _x,int _y) {
MATLAB画出点云法向量之后，向量朝向不一致该如何解决，如何让向量箭头一致都朝左边指。 matlab 开发语言有问必答
2021-11-20 16:20

回答 2 已采纳你好，改成大家相邻之间法向量一致就行了 load q.txt load p.txt %MYNORMALVECTOR 采用PCA算法求取交点矩阵的每个点的法向量。 %Input: % q是N
在Matlab2021A，SVM做测试集SVM预测结果对比(RBF核函数时，提示错误使用 plot 向量长度必须相同。不知道该怎么该，希望能解决一下 c++ matlab 支持向量机有问必答
2021-11-10 10:33

回答 1 已采纳你好，你的从2开始了，test_label的长度和predict_label_2应该是相等的。所以建议71改成 plot(1:length(test_label), predict_label_2,'
DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用+距离运算
2020-07-21 11:15

stay_foolish12的博客本文通过介绍DSSM、CNN-DSSM、LSTM-DSSM等深度学习模型在计算语义相似度上的应用，希望给读者带来帮助。 1. 背景以搜索引擎和搜索广告为例，最重要的也最难解决的问题是语义相似度，这里主要体现在两个方面：召回和...
自然语言处理系列三十一》文本相似度算法》余弦相似度》Python代码实现
2021-02-17 21:16

陈敬雷-充电了么-CEO兼CTO的博客【自然语言处理原理与实战（人工智能科学与技术丛书）】 https://item.jd.com/13951851.html 和【分布式机器学习实战（人工智能科学与技术丛书）】，对应京东自营链接地址： https://item.jd.com/12743009.html
无监督领域迁移及文本表示学习的相关进展
2020-09-29 13:16

PaperWeekly的博客为解决这个问题，可以先将所有句子映射到固定大小的向量空间，使得语义相似的句子位置相近，再用余弦距离对句子对回归任务进行评估，这可以极大提高计算效率。例如，可以将 BERT 的输出层平均化或使用第一个 token...
自然语言处理系列二十九》文本相似度算法》余弦相似度》算法原理
2021-02-17 20:31

陈敬雷-充电了么-CEO兼CTO的博客注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》（人工智能科学与技术丛书）【陈敬雷编著】【清华大学出版社】文章目录自然语言处理系列二十九文本相似度算法余弦...
没有解决我的问题, 去提问

悬赏问题

¥15 Stata 面板数据模型选择
¥20 idea运行测试代码报错问题
¥15 网络监控：网络故障告警通知
¥15 django项目运行报编码错误
¥15 请问这个是什么意思？
¥15 STM32驱动继电器
¥15 Windows server update services
¥15 关于#c语言#的问题：我现在在做一个墨水屏设计，2.9英寸的小屏怎么换4.2英寸大屏
¥15 模糊pid与pid仿真结果几乎一样
¥15 java的GUI的运用

千万级文本特征向量互相匹配计算余弦距离带来大量计算量该如何解决

2条回答 默认 最新

悬赏问题

2条回答默认最新