poi10086
poi10086
采纳率63.6%
2015-04-15 13:53 阅读 16.2k

Python怎么删除文本中的所有标点符号?

想要把一大段中文文本中所有的标点符号删除掉,然后分词制作语料库使用,大神们有没有办法呢?或者哪位大神有中文语料库给个链接好不好?我想做新闻的文本相似度分析,提取关键词的时候需要语料库。
谢谢大神们~~~~~

  • 点赞
  • 写回答
  • 关注问题
  • 收藏
  • 复制链接分享

3条回答 默认 最新

  • 已采纳
    caozhy 从今以后生命中的每一秒都属于我爱的人 2015-04-15 16:33

    既然你要语料库,程序就不是必须的了,用ultraedit之类的工具,内置批量替换功能,运行下即可。

    点赞 1 评论 复制链接分享
  • oyljerry oyljerry 2015-04-15 13:55
    点赞 评论 复制链接分享
  • LiJiancheng0614 lijiancheng0614 2015-04-15 16:47

    英文的标点符号倒是有string.punctuation
    中文删掉标点只要中文字符的话一种tricky的做法就是只保留text中的中文字符:

    # -*- coding: utf-8 -*-
    import re
    text = '一、二,三。四!五?'
    print(''.join(re.findall(u'[\u4e00-\u9fff]+', text)))
    

    但似乎你想要的不只是删掉中文标点。。

    点赞 评论 复制链接分享

相关推荐