Erick_z 2021-06-08 19:04 采纳率: 0%
浏览 6

关于散乱数据处理方法求教

收到一个几十万条数据的一张表,里面企业名称和项目名称字段数据是他们手动输入,输入的五花八门的。比如XXX市XXX有限公司和XXX公司或XXX有限公司(本级)等几种不统一的但都是一个公司的数据,这样的公司有几十家。有没有能够把它们统一格式的处理方法。

  • 写回答

1条回答 默认 最新

  • 码农阿豪@新空间 新星创作者: 前端开发技术领域 2024-06-23 21:48
    关注
    让阿豪来帮你解答,本回答参考chatgpt3.5编写提供,如果还有疑问可以评论或留言
    问题:如何对多个不同格式但属于同一个公司的企业名称进行统一格式处理。 解决方法:
    1. 数据清洗和规范化 首先对数据进行清洗和规范化,比如去除空格,将所有的字母转为小写,去掉所有的符号等等。可以使用Python的字符串函数对数据进行处理。例如: company_name = 'XXX市XXX有限公司'

    去除空格

    company_name = company_name.replace(' ', '')

    将所有字母转为小写

    company_name = company_name.lower()

    去除所有的符号

    company_name = re.sub(r'[^\w\s]', '', company_name) 2. 利用字符串相似度算法 对于名称相似但是具体格式不一致的公司,可以利用字符串相似度算法进行匹配和合并。常用的算法有Jaccard相似度算法、余弦相似度算法等。可以使用Python的字符串匹配库,如difflib库进行计算。例如: import difflib

    计算两个字符串之间的相似度

    similarity = difflib.SequenceMatcher(None, 'XXX市XXX有限公司', 'XXX有限公司').ratio() 3. 利用关键词提取和归一化 有些公司具有明显的关键词,如有限公司、股份有限公司等。对于这些公共的关键词,可以将它们提取出来,然后进行归一化处理。例如: company_name = 'XXX有限公司(本级)'

    提取关键词

    keywords = re.findall(r'(有限公司|股份有限公司|集团有限公司|控股股份有限公司)', company_name)

    归一化处理

    company_name = company_name.replace(keywords[0], '有限公司') 总结: 对于企业名称统一格式处理问题,可以结合字符串清洗、相似度匹配、关键词提取和归一化处理等方法进行。需要根据具体情况进行分析和处理,多尝试不同的方法,可以提高处理的准确性和效率。

    评论

报告相同问题?