Python怎么删除文本中的所有标点符号?

想要把一大段中文文本中所有的标点符号删除掉,然后分词制作语料库使用,大神们有没有办法呢?或者哪位大神有中文语料库给个链接好不好?我想做新闻的文本相似度分析,提取关键词的时候需要语料库。
谢谢大神们~~~~~

3个回答

既然你要语料库,程序就不是必须的了,用ultraedit之类的工具,内置批量替换功能,运行下即可。

poi10086
poi10086 哇喔,单纯替换来说这个软件太爽了
大约 5 年之前 回复
poi10086
poi10086 因为要用tfidf算法进行关键词的提取 所以需要一个语料库,大概是词语对应词频的那种,如果没有,估计就是还要自己预处理一下,但是现在很茫然,没有一个可以作为语料库的资源
大约 5 年之前 回复
poi10086
poi10086 这个链接里面只有一个3M的中文语料库,而且还下载不下来
大约 5 年之前 回复
poi10086
poi10086 这个链接里面只有一个32M
大约 5 年之前 回复

英文的标点符号倒是有string.punctuation
中文删掉标点只要中文字符的话一种tricky的做法就是只保留text中的中文字符:

# -*- coding: utf-8 -*-
import re
text = '一、二,三。四!五?'
print(''.join(re.findall(u'[\u4e00-\u9fff]+', text)))

但似乎你想要的不只是删掉中文标点。。

LiJiancheng0614
lijiancheng0614 回复poi10086: 这个我也不知道了,你得问问你们学长的需求。。
大约 5 年之前 回复
poi10086
poi10086 恩。。因为找不到语料库,所以就想着把自己有的30000条新闻处理成语料库,但是学长说要清除掉所有的标点符号,所以有点不懂,但是我看到一个网上的tfidf算法的代码,调用语料库的时候直接tokens[0]就代表了键,tokens[1]就代表了相应的键值,我不清楚语料库是这种形式的吗?
大约 5 年之前 回复
Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python去掉数据结尾的标点符号

我对csv文件进行了切分,之后数据集每一行多了两个逗号,像下面这样 277466;"0553571885";"8",, 277466;"0671003755";"0",, 277466;"0684834731";"0",, 277466;"0684855518";"9",, 277469;"0446609749";"7",, 277469;"0553572997";"9",, 277470;"0330312367";"5",, 怎么样可以去掉结尾的两个逗号呢

求一个java中正则表达式,匹配所有标点符号,但除去‘-’和‘_’的

求一个java中正则表达式,匹配所有标点符号,但除去‘-’和‘_’的

python如何获取文本中字符的个数?不是字节啊

一篇中文文章 ,里面含有汉字和各种标点符号还有字母数字什么的 现在我要统计汉字的个数和他所占的比例,查到的len()方法是获取字节数的 比如我用gbk编码,3000字的文章,字节数6800多,这不是我想要的, 我要的是实实在在的汉字的个数,还有整个文本的字符的个数,各位有什么办法没? python貌似是会自动把我获取到的gbk编码的字符串解码成unicode 很蛋疼啊

如何把带标点的英文字符串分为单个的单词输出

#include<stdio.h> #include<string.h> int main() { char a[50]; char word[50]; char *string=a; int c,d,total=0,i; int characternumber(char *str); int wordnumber(char *str); void divide(char *str,char *word); printf("请输入一个带有标点符号或空格的字符串\n"); gets(string); for(i=0;*(string+i)!='\0';i++) total++; c=characternumber(string); d=wordnumber(string ); divide(string,word); printf("字符串中的字母数为%d,单词数为%d\n",c,d); printf("各个单词为\n"); for(c=0;c<total;c++) printf("%c",word[c]); return 0; } int characternumber(char *str) { int count=0,i=0,k=0,temp=0,b=0; char delimiters[]=",.!? \";:\""; for(i=0;*(str+i)!='\0';i++) b++; for(i=0;*(str+i)!='\0';i++) for(k=0;k<9;k++) if(*(str+i)==delimiters[k]) temp++; count=b-temp; return count; } int wordnumber(char *str) { int count=0,i=0,k=0,temp=0,b=0; char delimiters[]=",.!? \";:\""; for(i=0;*(str+i)!='\0';i++) b++; for(i=0;i<b;i++) for(k=0;k<9;k++) if(*(str+i)!=delimiters[k]&&*(str+i+1)==delimiters[k]) count++; return count; } void divide(char *str,char *word) { int i,b,k,temp=0; char delimiters[]=",.!? \";:\""; for(i=0;*(str+i)!='\0';i++) b++; for(i=0;i<b;i++) {for(k=0;k<9;k++) {if(*(str+i)=delimiters[k]) temp=1;break;} if(temp==0) word[i]=str[i]; if(temp==1) word[i]='\n';} } 最后一个函数 我想把标点换成换行符 题目要求写函数做

如何用python把一个txt文件中所有逗号——,替换成空格?

如何用python把一个txt文件中所有逗号——,替换成空格? 就是a,b之间就是去掉逗号,但保持点距离

如何读取txt文件中的单词?

我本来想用random.choice来从一个txt文件中随机读取单词,但他给我的不是单词,是单个的字母,请问如何解决?

python文本分析统计词频输出结果后重新使用WPS查找功能发现词出现的次数与结果不一致?

按照代码输出了统计词频数的文本和excel表格,但是我重新打开文本用word里的查找筛选功能后发现词出现的次数与代码输出的结果不一致,如“照明”一词代码输出668次,而word查找是1300+次,请问代码哪里有问题?![![![![图片说明](https://img-ask.csdn.net/upload/201710/07/1507363779_270898.png)图片说明](https://img-ask.csdn.net/upload/201710/07/1507363772_983670.png)图片说明](https://img-ask.csdn.net/upload/201710/07/1507363766_395072.png)图片说明](https://img-ask.csdn.net/upload/201710/07/1507363760_270083.png)

python过滤掉字符串的反斜杠,及各种符号,包含双引号

某字符串s = abc\de/uy"h%fgj*fg+we 我需要过滤掉其中的各种字符,包括反斜杠和双引号 我用正则表达式实现时不清楚如何将其中的反斜杠也过滤掉,以及过滤掉双引号。 我的语句re.split("/|%|\*|\+", s)

python在正则表达式中如何提取a标签中的内容?

``` <li data-view="5"><a href="/5.mp3" singer="陈慧琳">记事本</a></li> 需要提取出歌手名和歌名, 歌手名我通过<a href=\"/.*?.mp3\" singer=\"(.*?)\">提取了出来 但是歌名该如何去提取呢? ```

如何用正则表达式提取所有符合「介于两个特定字符串a和b之间」这一条件的内容?

例如有这样一段文本(无标点符号): > 请问您的姓名是什么姓名张三对吗 现在需要提取姓名,即"张三"。需要提取的姓名,位于"姓名"和"对"这两个固定的字符串之间,故使用以下正则表达式规则: ``` (?<=姓名)(.*?)(?=对) ``` 提取结果只有一条,如下: > 是什么姓名张三 请问怎样的正则表达式可以完整地返回以下两个结果: > 是什么姓名张三 > 张三

python 输入一个文件和一个字符,统计该字符在文件中出现的次数

题目:输入一个文件和一个字符,统计该字符在文件中出现的次数 ``` f=open('a.csv','r') s=input() ls=[] for i in f: ls.append(i.strip('\n').split(',')) print(ls) count = 0 for i in ls: for j in i: if j==int(s): count+=1 print('{0}'.format(count)) ``` a.csv内容 ``` 1,2,3 4,2,6 ``` 然而输出count永远是0,不知道问题出在哪里。

Python中哈夫曼的译码问题

我通过编码,对一个含有一大段字符串的文本得到了一个dict和一段编码完成的01字符串,dict中Keys为字符,value为权,不用树,怎么直接根据dict和01字符串译码回去? 比如 00100110101011011100111010101100111011101111010011110011101010110001000100110110101011001111001111110000000111111000001100000010100111111011110011101010111010101 dict: a:110 C:00100 e:11110 d:01 g:11111 f:0000 h:00101 c:00110 q:1001 s:101 r:00111 w:1110 y:10000 x:0001 z:10001 求解

关于百度富文本编辑器自动生成word文档的问题

我使用ueditor文本编辑器将编辑的内容以html格式传入了数据库,我通过mht转ftl做了一个模板 ,然后在模板里面也添加了变量。我在运行的过程中模板也能够自动生成,里面的内容也能够完整显示出来。在生成的word里面能够看到图片占了位置,可是图片内容却显示不出来,我做了测试,我把之前图片转码成base64位的数据拿出来之后,再通过转码能够生成图片,就是在word文档里面显示不出来。不知道这是什么原因。还有就是word文档里面的标点符号会出现乱码,在wps里面能够完美兼容。不知道有没有人遇到过这样的问题

C语言 读取文本中的字符(换行字符'\n'除外,不统计)按出现次数(即频率)进行统计

C语言 读取文本中的字符(换行字符'\n'除外,不统计),按出现次数(即频率)进行统计,然后按频率从小到大输出。

百度爬来的人名的网页,如何更有效的清洗和提取?有没有什么好的逻辑?

最近再做个小项目,需要按人名在百度里爬下来网页,再综合起来,形成这个人的摘要。这些人的相关信息都是只言片语,散落在各个网页。现在遇到了一些问题: 1、如果把整个html的文本取出来,很多信息是无用的。 2、如果只取含有人名的句子,有可能后面有很多内容都与人名相关。 3、如果按照段落来取,很多段落在html里都是被切开成一句一句的,甚至标点符号都被切开。 4、如果网页包含人名的简介,但通常都是与人名的标签或简介等字样的标签分开的,这部分不好提取出来,怎么办? 有没有什么好的思路?

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

程序员请照顾好自己,周末病魔差点一套带走我。

程序员在一个周末的时间,得了重病,差点当场去世,还好及时挽救回来了。

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

点沙成金:英特尔芯片制造全过程揭密

“亚马逊丛林里的蝴蝶扇动几下翅膀就可能引起两周后美国德州的一次飓风……” 这句人人皆知的话最初用来描述非线性系统中微小参数的变化所引起的系统极大变化。 而在更长的时间尺度内,我们所生活的这个世界就是这样一个异常复杂的非线性系统…… 水泥、穹顶、透视——关于时间与技艺的蝴蝶效应 公元前3000年,古埃及人将尼罗河中挖出的泥浆与纳特龙盐湖中的矿物盐混合,再掺入煅烧石灰石制成的石灰,由此得来了人...

上班一个月,后悔当初着急入职的选择了

最近有个老铁,告诉我说,上班一个月,后悔当初着急入职现在公司了。他之前在美图做手机研发,今年美图那边今年也有一波组织优化调整,他是其中一个,在协商离职后,当时捉急找工作上班,因为有房贷供着,不能没有收入来源。所以匆忙选了一家公司,实际上是一个大型外包公司,主要派遣给其他手机厂商做外包项目。**当时承诺待遇还不错,所以就立马入职去上班了。但是后面入职后,发现薪酬待遇这块并不是HR所说那样,那个HR自...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

外包程序员的幸福生活

今天给你们讲述一个外包程序员的幸福生活。男主是Z哥,不是在外包公司上班的那种,是一名自由职业者,接外包项目自己干。接下来讲的都是真人真事。 先给大家介绍一下男主,Z哥,老程序员,是我十多年前的老同事,技术大牛,当过CTO,也创过业。因为我俩都爱好喝酒、踢球,再加上住的距离不算远,所以一直也断断续续的联系着,我对Z哥的状况也有大概了解。 Z哥几年前创业失败,后来他开始干起了外包,利用自己的技术能...

C++11:一些微小的变化(新的数据类型、template表达式内的空格、nullptr、std::nullptr_t)

本文介绍一些C++的两个新特性,它们虽然微小,但对你的编程十分重要 一、Template表达式内的空格 C++11标准之前建议在“在两个template表达式的闭符之间放一个空格”的要求已经过时了 例如: vector&lt;list&lt;int&gt; &gt;; //C++11之前 vector&lt;list&lt;int&gt;&gt;; //C++11 二、nullptr ...

优雅的替换if-else语句

场景 日常开发,if-else语句写的不少吧??当逻辑分支非常多的时候,if-else套了一层又一层,虽然业务功能倒是实现了,但是看起来是真的很不优雅,尤其是对于我这种有强迫症的程序"猿",看到这么多if-else,脑袋瓜子就嗡嗡的,总想着解锁新姿势:干掉过多的if-else!!!本文将介绍三板斧手段: 优先判断条件,条件不满足的,逻辑及时中断返回; 采用策略模式+工厂模式; 结合注解,锦...

深入剖析Springboot启动原理的底层源码,再也不怕面试官问了!

大家现在应该都对Springboot很熟悉,但是你对他的启动原理了解吗?

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

为什么你不想学习?只想玩?人是如何一步一步废掉的

不知道是不是只有我这样子,还是你们也有过类似的经历。 上学的时候总有很多光辉历史,学年名列前茅,或者单科目大佬,但是虽然慢慢地长大了,你开始懈怠了,开始废掉了。。。 什么?你说不知道具体的情况是怎么样的? 我来告诉你: 你常常潜意识里或者心理觉得,自己真正的生活或者奋斗还没有开始。总是幻想着自己还拥有大把时间,还有无限的可能,自己还能逆风翻盘,只不是自己还没开始罢了,自己以后肯定会变得特别厉害...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试:第十六章:Java中级开发(16k)

HashMap底层实现原理,红黑树,B+树,B树的结构原理 Spring的AOP和IOC是什么?它们常见的使用场景有哪些?Spring事务,事务的属性,传播行为,数据库隔离级别 Spring和SpringMVC,MyBatis以及SpringBoot的注解分别有哪些?SpringMVC的工作原理,SpringBoot框架的优点,MyBatis框架的优点 SpringCould组件有哪些,他们...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

【阿里P6面经】二本,curd两年,疯狂复习,拿下阿里offer

二本的读者,在老东家不断学习,最后逆袭

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

《经典算法案例》01-08:如何使用质数设计扫雷(Minesweeper)游戏

我们都玩过Windows操作系统中的经典游戏扫雷(Minesweeper),如果把质数当作一颗雷,那么,表格中红色的数字哪些是雷(质数)?您能找出多少个呢?文中用列表的方式罗列了10000以内的自然数、质数(素数),6的倍数等,方便大家观察质数的分布规律及特性,以便对算法求解有指导意义。另外,判断质数是初学算法,理解算法重要性的一个非常好的案例。

《Oracle Java SE编程自学与面试指南》最佳学习路线图(2020最新版)

正确选择比瞎努力更重要!

面试官:你连SSO都不懂,就别来面试了

大厂竟然要考我SSO,卧槽。

微软为一人收购一公司?破解索尼程序、写黑客小说,看他彪悍的程序人生!...

作者 | 伍杏玲出品 | CSDN(ID:CSDNnews)格子衬衫、常掉发、双肩包、修电脑、加班多……这些似乎成了大众给程序员的固定标签。近几年流行的“跨界风”开始刷新人们对程序员的...

终于,月薪过5万了!

来看几个问题想不想月薪超过5万?想不想进入公司架构组?想不想成为项目组的负责人?想不想成为spring的高手,超越99%的对手?那么本文内容是你必须要掌握的。本文主要详解bean的生命...

我说我懂多线程,面试官立马给我发了offer

不小心拿了几个offer,有点烦

自从喜欢上了B站这12个UP主,我越来越觉得自己是个废柴了!

不怕告诉你,我自从喜欢上了这12个UP主,哔哩哔哩成为了我手机上最耗电的软件,几乎每天都会看,可是吧,看的越多,我就越觉得自己是个废柴,唉,老天不公啊,不信你看看…… 间接性踌躇满志,持续性混吃等死,都是因为你们……但是,自己的学习力在慢慢变强,这是不容忽视的,推荐给你们! 都说B站是个宝,可是有人不会挖啊,没事,今天咱挖好的送你一箩筐,首先啊,我在B站上最喜欢看这个家伙的视频了,为啥 ,咱撇...

代码注释如此沙雕,会玩还是你们程序员!

某站后端代码被“开源”,同时刷遍全网的,还有代码里的那些神注释。 我们这才知道,原来程序员个个都是段子手;这么多年来,我们也走过了他们的无数套路… 首先,产品经理,是永远永远吐槽不完的!网友的评论也非常扎心,说看这些代码就像在阅读程序员的日记,每一页都写满了对产品经理的恨。 然后,也要发出直击灵魂的质问:你是尊贵的付费大会员吗? 这不禁让人想起之前某音乐app的穷逼Vip,果然,穷逼在哪里都是...

2020春招面试了10多家大厂,我把问烂了的数据库事务知识点总结了一下

2020年截止目前,我面试了阿里巴巴、腾讯、美团、拼多多、京东、快手等互联网大厂。我发现数据库事务在面试中出现的次数非常多。

程序员如何与产品经理优雅的干架

早前,平安产险科技一名外包程序员和一名外包产品经理干架的视频几乎在互联网圈都传遍了,因为产品提了一个需求:要求用户App的主题颜色能根据手机壳自动调整。 首先说这个需求对于应用开发工程师来说,确实是有点奇葩,当然并非不能实现。这块涉及图形图像处理,用机器学习和人工智能来提取图像颜色,这是基本图像识别过程,对于采集图像,可以提示对着镜子自拍一张,上传图片,通过大量的训练数据,来识别手机体颜色。当然并...

爬虫(101)爬点重口味的

小弟最近在学校无聊的很哪,浏览网页突然看到一张图片,都快流鼻血。。。然后小弟冥思苦想,得干一点有趣的事情python 爬虫库安装https://s.taobao.com/api?_ks...

立即提问
相关内容推荐