python如何计算中文字符串包含率/相似度

请教个问题，想算两个字符串相似度，主要用于简称和全称的匹配。
但我用下面几种方法算出来的都是 str3的相似度更高。
有没有哪个方法可以得出2的相似度更高？类似拿源串中的每个中文字到另外一个串中查看包含率，下面代码中str2包含所有str1的内容，str3包含率低一些。
目前想到的可以用jieba来分词，但不确定其分词准确性，看大家有没有更好的方案

import difflib as diff
from fuzzywuzzy import fuzz

str1='邮储银行北京分行'
str2='中国邮政储蓄银行股份有限公司北京分行'
str3='中国工商银行北京分行'

print(diff.SequenceMatcher(None, str1, str2).ratio())
print(diff.SequenceMatcher(None, str1, str3).ratio())
print(diff.SequenceMatcher(None, str1, str2).quick_ratio())
print(diff.SequenceMatcher(None, str1, str3).quick_ratio())

print(fuzz.ratio(str1,str2))
print(fuzz.ratio(str1,str3))
print(fuzz.partial_ratio(str1,str2))
print(fuzz.partial_ratio(str1,str3))
print(fuzz.token_sort_ratio(str1,str2))
print(fuzz.token_sort_ratio(str1,str3))

写回答
好问题 0 提建议
关注问题
分享
邀请回答
编辑收藏删除结题
收藏举报

6条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
threenewbee 2023-04-11 09:31
关注
应该用最短编辑距离算，而不是序列匹配
序列匹配，如果第二个字符串删除了一个字符，错位了，那么相似度就很低，和实际不符。

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

Python 字符串相似度计算：方法、应用与实践
2025-05-26 21:49

微刻时光的博客本文深入探讨了 Python 中计算两个字符串相似度的多种方法及其应用。首先介绍了基于编辑距离的经典算法，如 Levenshtein 距离，并通过动态规划实现高效计算，适用于拼写检查和文本编辑。接着分析了 Jaccard 相似度和...
Python-Levenshtein快速计算编辑距离以及字符串的相似度
2019-08-10 03:39

在Python编程环境中，Levenshtein库是一个非常实用的工具，用于计算两个字符串之间的编辑距离。编辑距离，也称为Levenshtein距离，是衡量两个字符串差异的一种度量，定义为由一个字符串转换成另一个字符串最少的单...
【Python】比较字符串相似度
2024-12-26 11:26

用一个不重复的昵称的博客评价字符串相似度最常见的办法就是：把一个字符串通过插入、删除或替换这样的编辑操作，变成另外一个字符串，所需要的最少编辑次数，这种就是编辑距离（edit distance）度量方法，也称为Levenshtein距离。字符串...
python实现字符串模糊匹配
2022-06-20 16:45

它提供了多种字符串相似度计算方法，包括 ratio、partial_ratio、token_sort_ratio 和 token_set_ratio 等。FuzzyWuzzy 还提供了搜索排序接口，用于从大量候选集中找到最相似的句子。在实际应用中，字符串模糊匹配...
Python字符串相似度统计脚本
2025-08-07 23:07

规则哥讲规则的博客在Python中创建字符串非常简单。字符串通常由单引号(‘)、双引号(“)或三引号(‘’‘或”“”)包围。三引号主要用于多行字符串，而单双引号在功能上几乎没有差异。# 创建单行字符串print(single_line_str) # 输出: ...
详解Python 字符串相似性的几种度量方法
2020-09-18 17:23

在Python编程中，字符串相似性的度量是文本处理和自然语言处理中的关键概念，它用于评估两个字符串之间的相似程度。这些度量方法广泛应用于各种场景，如拼写检查、文本重复检测、搜索引擎排名、推荐系统以及文本分类...
Python字符串相似度统计代码示例
2025-04-28 12:31

羊迪的博客字符匹配是指在一组字符串中寻找特定模式或字符序列的过程。它可以是精确匹配，也可以是模糊匹配，即在一定的容错范围内寻找相似的字符串序列。在许多应用场景中，字符匹配能够帮助我们确定文本的结构、提取有用的...
Java实现字符串相似度比对算法
2025-07-31 15:57

在Java编程语言中，实现字符串相似度比对的方法主要有以下几种： 1. **Levenshtein距离算法（编辑距离）**：这是一种动态规划算法，用于计算将一个字符串转换为另一个字符串所需进行的最少编辑操作次数。这些操作...
Python 中的字符串匹配识别文本中的相似性
2024-01-13 20:00

Sitin涛哥的博客本文详细介绍了Python中的字符串匹配技术，包括Levenshtein编辑距离、正则表达式、基于词向量的相似性计算以及模糊字符串匹配。通过示例代码，帮助大家更好地理解和应用这些技术，以便在实际项目中处理文本数据时...
Python中的字符串相似度和距离度量：详细指南与完整代码实现
2023-09-23 10:34

快撑死的鱼的博客例如，在拼写检查、文本匹配、数据去重等场景中，判断两个字符串的相似度是非常有用的。在字符串的上下文中，我们可以将每个字符串表示为字符的向量，其中每个维度对应一个特定的字符，其值为该字符在字符串中的出现...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 4月11日

python如何计算中文字符串包含率/相似度

6条回答 默认 最新

问题事件

6条回答默认最新