Python怎么删除文本中的所有标点符号?

想要把一大段中文文本中所有的标点符号删除掉,然后分词制作语料库使用,大神们有没有办法呢?或者哪位大神有中文语料库给个链接好不好?我想做新闻的文本相似度分析,提取关键词的时候需要语料库。
谢谢大神们~~~~~

3个回答

既然你要语料库,程序就不是必须的了,用ultraedit之类的工具,内置批量替换功能,运行下即可。

poi10086
poi10086 哇喔,单纯替换来说这个软件太爽了
5 年多之前 回复
poi10086
poi10086 因为要用tfidf算法进行关键词的提取 所以需要一个语料库,大概是词语对应词频的那种,如果没有,估计就是还要自己预处理一下,但是现在很茫然,没有一个可以作为语料库的资源
5 年多之前 回复
poi10086
poi10086 这个链接里面只有一个3M的中文语料库,而且还下载不下来
5 年多之前 回复
poi10086
poi10086 这个链接里面只有一个32M
5 年多之前 回复

英文的标点符号倒是有string.punctuation
中文删掉标点只要中文字符的话一种tricky的做法就是只保留text中的中文字符:

# -*- coding: utf-8 -*-
import re
text = '一、二,三。四!五?'
print(''.join(re.findall(u'[\u4e00-\u9fff]+', text)))

但似乎你想要的不只是删掉中文标点。。

LiJiancheng0614
lijiancheng0614 回复poi10086: 这个我也不知道了,你得问问你们学长的需求。。
5 年多之前 回复
poi10086
poi10086 恩。。因为找不到语料库,所以就想着把自己有的30000条新闻处理成语料库,但是学长说要清除掉所有的标点符号,所以有点不懂,但是我看到一个网上的tfidf算法的代码,调用语料库的时候直接tokens[0]就代表了键,tokens[1]就代表了相应的键值,我不清楚语料库是这种形式的吗?
5 年多之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
立即提问