bert向量相似度不理想

bert模型取出的向量并不适合余弦相似度的计算方式，是因为没有训练？还是本身就不适合呢？有没有可以计算的算法呢？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
CSDN-Ada助手 CSDN-AI 官方账号 2023-05-03 00:21
关注
不知道你这个问题是否已经解决, 如果还没有解决的话:
关于该问题，我找了一篇非常好的博客，你可以看看是否有帮助，链接：使用bert预训练模型获取文本的嵌入向量表示
除此之外, 这篇博客: Bert原理详细笔记中的 假如我们要做一个问答系统，也就是输入有两句话，那么bert又做了什么呢？？ 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:

–为什么要提出这个预训练任务呢，主要也是很多譬如问答、推理之类的任务，更多的是要学习句子之间的关系，这是语言模型无法做到的，因为语言模型根据token预测token，是在句子内部进行学习的。

bert在训练时会判断这两个输入句子是否是连续的，相关的，也就是它会做一个二分类任务，若两个句子是挨在一起的，那么预测为1，否则为0。每个句子的结尾以 [SEP] 作为分隔符。

那么句子如何选取呢？？训练的时候，输入到模型的第二个句子会以50%的可能从全部文本中随机选取，剩下50%的可能从紧挨着第一个句子的文本中选取

这样看来，模型就有两个损失函数了，一个是做完形填空时产生的，一个是做二分类时产生的，两个损失函数之和就是bert总的损失函数了。源码片段：

您还可以看一下杨帅老师的自然语言处理动手学Bert文本分类课程中的 Bert理论讲解及文本分类模型讲解小节, 巩固相关知识点
以下回答来自chatgpt:
我建议您采取以下措施来优化BERT向量的相似度计算： 1. 使用更好的相似度计算方法：余弦相似度通常是比较常用且易于实现的算法，但它并不一定适用于所有任务。对于文本匹配问题，可以考虑使用jaccard相似度、编辑距离等其他算法。具体哪种算法最好取决于您正在处理的数据和任务。 2. Fine-tune BERT模型： Fine-tune是一种基于预训练模型的微调技术，可以用来优化BERT向量的质量。可以使用TensorFlow或PyTorch中提供的Fine-tuning代码来训练模型，然后使用transformers库中的方法来提取词向量。 3. 使用基于BERT的其他模型： BERT模型是自然语言处理领域非常流行的一种模型，具有强大的表达能力和预测能力。除了BERT模型外，还有其他基于BERT的模型，例如ALBERT、RoBERTa等。这些模型在在某些任务上可能会取得更好的效果。可以根据自己的实际情况选择适合自己的模型。下面是采用Fine-tune BERT模型的代码示例：

import tensorflow as tf import numpy as np import transformers # 加载预训练的BERT模型 tokenizer = transformers.BertTokenizer.from_pretrained("bert-base-chinese") model = transformers.TFBertModel.from_pretrained("bert-base-chinese") # 构造Fine-tuning模型 input_ids = tf.keras.layers.Input(shape=(max_seq_length,), dtype=tf.int32, name="input_ids") input_mask = tf.keras.layers.Input(shape=(max_seq_length,), dtype=tf.int32, name="input_mask") segment_ids = tf.keras.layers.Input(shape=(max_seq_length,), dtype=tf.int32, name="segment_ids") _, sequence_output = model([input_ids, input_mask, segment_ids]) output_layer = tf.keras.layers.Lambda(lambda x: x[:, 0, :])(sequence_output) fc_output = tf.keras.layers.Dense(768, activation="relu")(output_layer) fc_output = tf.keras.layers.Dropout(0.1)(fc_output) logits = tf.keras.layers.Dense(num_classes, activation="softmax")(fc_output) fine_tune_model = tf.keras.models.Model( inputs=[input_ids, input_mask, segment_ids], outputs=logits) # 编译模型 optimizer = tf.keras.optimizers.Adam(learning_rate=2e-5) fine_tune_model.compile(optimizer=optimizer, loss="categorical_crossentropy") # Fine-tune模型 train_inputs = [train_input_ids, train_input_masks, train_segment_ids] train_labels = np.eye(num_classes)[train_labels] fine_tune_model.fit(train_inputs, train_labels, epochs=5, batch_size=32)

其中，train_input_ids、train_input_masks和train_segment_ids是经过处理的训练数据，train_labels是标签。Fine-tune过程将bert模型的各个参数保存下来，再用这些参数来生成向量，这样得到的向量质量会更高一些。

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^
解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

文本向量相似度不理想 bert python 深度学习
2023-04-14 09:28

回答 1 已采纳 BERT 是一种预训练语言模型，它的预训练目标是使用大量的未标记的文本数据来训练出语言表达能力更强的表示。但是，BERT 并不是一个直接用于文本相似度计算的模型，需要经过微调或 fine-tuning
bert输出的概率值 bert 人工智能深度学习
2023-04-16 09:38

回答 2 已采纳这个 test_results.tsv 文件中的数据表示了每个输入样本在每个类别上的概率。在你提供的数据中，有两列，因此我猜测你的模型是一个二分类问题。第一列表示属于类别 0 的概率，第二列表示属于类
bert pytorch bert python pytorch
2023-03-12 09:34

回答 8 已采纳该回答引用GPTᴼᴾᴱᴺᴬᴵ根据您提供的错误信息，可能是因为该目录的完整路径中包含中文字符，而torch.save()函数在保存文件时可能会遇到中文字符的编码问题，从而导致无法保存模型。为了解决这个
bert提取词向量比较两文本相似度
2024-01-29 23:08

木下瞳的博客使用 bert-base-chinese 预训练模型做词嵌入（文本转向量）embedding[:, 1:-1, :] 这一行的意是以下，数据类型张量。下面这段代码是一个传入句子转为词向量的函数。
BERT问题，无法解决，求帮助？ bert python tensorflow
2021-07-21 10:53

回答 1 已采纳你要打印这个line的值看看，是不是有两个元素能取到[1] 这个索引
BERT文本二分类LOSS变化 bert pytorch 分类
2023-03-24 21:10

回答 1 已采纳对于严重不均衡的数据集，模型容易出现偏差，导致对于少数类的预测效果较差。因此，需要对数据集进行一些处理来平衡数据，以提高模型的预测能力。具体处理方法有以下几种：过采样（Oversampling）：
bert模型请求帮助 bert python 深度学习
2023-03-08 11:19

回答 2 已采纳 “Devil组”引证GPT后的撰写：这个错误提示意味着在运行Google官方的BERT模型时必须指定"max_steps"参数的值大于0。"max_steps"是指训练模型的最大步数，也就是最大训练
一行代码使用BERT生成句向量，BERT做文本分类、文本相似度计算
2019-11-03 18:33

标题中的“一行代码使用BERT生成句向量，BERT做文本分类、文本相似度计算”揭示了BERT模型在自然语言处理（NLP）领域的广泛应用。BERT，全称为Bidirectional Encoder Representations from Transformers，是由Google...
bert输出概率值probabilities bert python 深度学习
2023-04-15 16:13

回答 2 已采纳该回答通过自己思路及引用到GPTᴼᴾᴱᴺᴬᴵ搜索,得到内容具体如下：在BERT模型中，每个文本序列都会被映射为一个向量，这个向量被称为“[CLS]”向量。这个向量包含了整个文本序列的信息，并被用来进行
Bert二分类结果分析 bert 分类自然语言处理
2023-03-27 22:47

回答 3 已采纳该回答引用自ChatGPT 有几个可能的原因可以导致risk类别的预测f1-score始终为0：数据不平衡问题：尽管您使用了Focal Loss来改善数据不平衡问题，但如果risk类别的训练数据量非
机器学习bert模型pytorch bert pytorch 机器学习
2023-03-09 18:17

回答 1 已采纳文章：pytorch 使用bert的中间某几层隐藏层的结果以及使用pytorch_pretrained_bert 的问题以及解决方法中也许有你想要的答案，请看下吧您还可以看一下唐宇迪老师的深度学习
bert文本相似度计算_使用bert和其他模型计算文档相似度
2020-10-10 21:35

weixin_26739165的博客 bert文本相似度计算入门(Getting Started) Introduction介绍 Document similarities is one of the most crucial problems of NLP. Finding similarity across documents is used in several domains such as ...
bert二分类返回值是否可以输出 bert 深度学习自然语言处理
2023-04-13 10:40

回答 1 已采纳是的，对BERT模型进行微调后，可以输出二分类的结果，通常为0和1。在进行相似度分析时，BERT模型可以将两个输入文本编码为向量，然后计算这两个向量之间的相似度得分，将相似度得分输入到一个二元分类器中
揭秘BERT背后的魔力：语义相似度算法深度剖析
2024-07-02 13:18

沛哥儿的博客 BERT模型是由GoogleAI研究院于2018年提出的，一经问世便引起了业界的广泛关注。该模型通过大量的语料库进行预训练，可以学习到丰富的语言知识和上下文信息。BERT最大的特点在于其双向性，即同时考虑了文本的上文和...
BERT应用——文本相似度计算
2024-06-06 14:03

晓shuo的博客本文展示了如何利用BERT模型计算两个文本字符串之间的余弦相似度。
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 5月1日

悬赏问题

¥15 WPF动态创建页面内容
¥15 如何对TBSS的结果进行统计学的分析已完成置换检验，如何在最终的TBSS输出结果提取除具体值及如何做进一步相关性分析
¥15 SQL数据库操作问题
¥100 关于lm339比较电路出现的问题
¥15 Matlab安装yalmip和cplex功能安装失败
¥15 加装宝马安卓中控改变开机画面
¥15 STK安装问题问问大家，这种情况应该怎么办
¥15 关于罗技鼠标宏lua文件的问题
¥15 halcon ocr mlp 识别问题
¥15 已知曲线满足正余弦函数，根据其峰值，还原出整条曲线

bert向量相似度不理想

1条回答 默认 最新

问题事件

悬赏问题

1条回答默认最新