python新手小白,求大佬们帮忙,关于python处理字符串去除中文的问题

我想提取一个文本中除了中文以外的英文,数字,以及各种符号,用以下代码,能把所有的中文提取出来,有没有什么办法能在原文件中将提取出来的这一部分中文去掉剩下英文数字和各种符号,请求各位大佬帮忙,不尽感激。

import re


def open_file(file):
    with open(file, 'r') as f:
        return f.read()


def find_chinese(file):
    pattern = re.compile(r'[^\u4e00-\u9fa5]')
    chinese = re.sub(pattern, '', file)
    print(chinese)


find_chinese(open_file('F:/compare/http.txt'))

2个回答

如果问题得到解决,请点我回答左上角的采纳和向上的箭头,谢谢

def find_english(file):
    pattern = re.compile(r'[\u4e00-\u9fa5]')
    english = re.sub(pattern, '', file)
    print(english)
import re


def open_file(file):
    with open(file, 'r',encoding="utf8") as f:
        return f.read()


def find_chinese(file):
    pattern = re.compile(r'[^\u4e00-\u9fa5]')
    chinese = re.sub(pattern, '', file)
    print(chinese)

def find_unchinese(file):
    pattern = re.compile(r'[\u4e00-\u9fa5]')
    unchinese = re.sub(pattern,"",file)
    print(unchinese)


#find_chinese(open_file('F:/compare/http.txt'))
find_unchinese(open_file('F:/compare/http.txt'))

楼上的思路是对的,你的代码是把非中文替换为空,取非中文只要将中文找出来替换为空就可以了。
注意:
打开文件时要用utf8否则会可能会报错。

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python小白求助论坛大佬

Python小白一枚,用的借助命令行提示符界面进入jupyter notebook编译器,但最近一直出现winError根本进不去了, 请论坛里的各位大佬帮忙看下这个问题怎么解决嘛,万分感谢 ![图片说明](https://img-ask.csdn.net/upload/201803/13/1520950607_910737.png)

Python如何迭代字符串

求一个字符串集的所有子串,如‘abcd’,结果得‘a’、‘b’、‘c’、‘d’、‘ab’、‘abc’、‘abcd’、‘bc’、‘bcd’、‘cd’。现有思路对每个字符串循环遍历,控制长度判重后存储到列表中,但如果字符串过长,数目过多循环次数多,程序运行不了。麻烦各位大能门给点建议,谢谢。

python 字符串拆分处理

假设有一个字符串如下“a:50 xxx b:100,xxxc:500”, 其中xxx代表任意字符,如何把abc的值提取出来,并生成一个矩阵来存储他

Python:字符串中数字求和

1.输入一个字符串,取出这个字符串中所有的数字并求和。每个数字都是*独立的,*不连续。 现在只知道如何提取字符串中的数字 例:s=‘Abc34g8’ for I in s: I.isdigit() 或者 for I in s if I in [1,2,3,4,5,6,7,8,9] 但是如何让提取出来的数字按照要求相加呢? 按照这种方法结果应是:15 2.输入一个字符串,取出这个字符串中所有的数字并求和。其中相邻的数字是*连续*的的。 按照这种方法结果应是:42 问如何求和?

python 字符串数组问题

for i in range(sum): res_tem1 = res_tem1.find_next('td') <-如果在循环内用字符串数组储存每次的res_tem1值?(res_tem1为字符串)

在 Python 中将整数转换为字符串?

<div class="post-text" itemprop="text"> <p>I want to convert an integer to a string in Python. I am typecasting it in vain:</p> <pre><code>d = 15 d.str() </code></pre> <p>When I try to convert it to string, it's showing an error like <code>int</code> doesn't have any attribute called <code>str</code>.</p> </div> <p>转载于:https://stackoverflow.com/questions/961632/converting-integer-to-string-in-python</p>

如何用python语言比较两个中文字符串是否相等

<p><span>如何用python语言比较两个中文字符串是否相等,</span></p> <p><span>前提是这两个中文字符串的编码格式未知。</span></p>

Python关于将字符串进行分割并返回成一个列表???

原字符串是:str='a,b,c,"d,e,f",g,h' 需要返回的列表是:['a','b','c','d,e,f','g','h'] 我目前用的是str.spilt(','),得到的列表是['a',b','c','d','e','f','g','h'],但这不是我想要的,我想要返回列表['a','b','c','d,e,f','g','h'],哪位大神可以帮我一下

python3正则表达式匹配字符串时,能不能不匹配字符串中间的某个子字符串

我的正则reg = r'((?=src=).*?\.jpg)' 已经匹配出的字符串: https://img3.doubanio.com/f/shire/a1fdee122b95748d81cee426d717c05b5174fe96/pics/blank.gif" **data-origin**="https://img3.doubanio.com/icon/g28131-1.jpg 但我要的是 data-origin 后面的.jpg的url 请问正则应该怎么做

用python正则表达式替换字符串问题

我用python写一个计算器,想用正则表达式将字符串中的一些内容替换,举个例子字符串如下 1+2*3-(5/6)+sin(45)-ln(100) 如何将用正则表达式先找到其中有sin()的内容,然后将sin(45)这个子串提取出来算出其值,然后用值去替换字符串中sin(45)

Python如何判断一个字符串是否一个字典中存在的英文单词?

Python如何判断一个字符串是否一个字典中存在的英文单词?(这个字典指的是牛津字典那种英文字典) 就是处理文本时要过滤垃圾数据,只保留有意义的单词,过滤掉无意义的字符串。 初始 ``` list = ['recommend', 'muuj', 'survey', 'wtsbw'] ``` 过滤后 ``` list = ['recommend', 'survey'] ``` 求教!

python3中 input默认为字符串问题

在python3中input默认为字符串,为什么在input里加了一个字符串就可以判断了? varA=input('varA') varB=input('varB') if varA==str or varB==str: print("string involved") elif varA>varB: print("bigger") elif varA==varB: print("equal") else: print("smaller")

python 用正则怎么提取到最后一个指定字符后的字符串

a = "Server.ServerCapabilities.aaaaa" b = "Server.ServerCapabilities.zzzzz.bbbbb" c = "Server.ServerCapabilities.rrrrrrr.ssssssss.cccccc" 我怎样才能取到每个字符串最后一个 . 后的字符串 例如: a 我取到"aaaaa" b 我取到"bbbbb" c 我取到"cccccc" 怎么用python的re模块里的findall来拿到它?? 望大佬们帮助一下小弟

python字符串的处理问题

给定一个字符串找出不同位置重复出现且长度最长的的第一个子字符串,输出子字符串以及其首字符的位置,若无任何重复子串,返回-1

求指点 python如何直接计算 Latex 格式的字符串

我有一个Latex格式的字符串, 如何直接在python中直接计算出结果 如 '\\frac{\\left(1+2\\right)}{1\\cdot 2}'

请问如何用python把两个字符串交换部分字节?

两个八位字符串,前三位和后五位互换或者前两位和后六位互换得到两个新的字符串。

python把字符串解析成字典

如何把下面的字段字符串存储成字典的样式? 比如我可以使用这样一个字典序列去查询,mydict['Service_Nas']['QmiNasSetEventReport']['QmiNasSetEventReportReqTlvs[0]']['SignalStrengthTlv']['NumSignalStrengthThresholds']=2 ``` 2017 Dec 20 09:40:06.909 [F7] 0x1390 QMI Link 2 RX PDU IFType = 1 QmiLength = 19 QmiCtlFlags = 0 QmiType = NAS Service_Nas { ClientId = 3 SduCtlFlags = REQ TxId = 177 MsgType = QMI_NAS_SET_EVENT_REPORT_MSG MsgLength = 7 QmiNasSetEventReport { QmiNasSetEventReportReqTlvs[0] { Type = 16 Length = 4 SignalStrengthTlv { ReportSignalStrength = REPORT NumSignalStrengthThresholds = 2 SignalStrengthThresholds = { -75, -55 } } } } } ```

python编码字符串太长怎么解决?

![图片说明](https://img-ask.csdn.net/upload/201712/03/1512286663_4921.png)

python中把不足n位的字符串,补到n位

python 2.7下, 输入一个字符串到变量g,然后我有列出g[0]到g[8]分别指向别的函数。 现在的状况是,只能输入九位,少一位都不行。我想做到,输入9位一下的字符串的话,剩下的位数用字母m来填充。 不知道该如何实现,求大神指导。

在中国程序员是青春饭吗?

今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。 目录: 你以为的人生 一次又一次的伤害 猎头界的真相 如何应对互联网行业的「中年危机」 一、你以为的人生 刚入行时,拿着傲人的工资,想着好好干,以为我们的人生是这样的: 等真到了那一天,你会发现,你的人生很可能是这样的: ...

删库了,我们一定要跑路吗?

在工作中,我们误删数据或者数据库,我们一定需要跑路吗?我看未必,程序员一定要学会自救,神不知鬼不觉的将数据找回。 在 mysql 数据库中,我们知道 binlog 日志记录了我们对数据库的所有操作,所以 binlog 日志就是我们自救的利器。 接下来就来开启程序员自救之路。 想要自救成功,binlog 这把利器一定要好,在自己之前,我们一定要确定我们有 binlog 这把利器,以下就是确保有 bi...

再不跳槽,应届毕业生拿的都比我多了!

跳槽几乎是每个人职业生涯的一部分,很多HR说“三年两跳”已经是一个跳槽频繁与否的阈值了,可为什么市面上有很多程序员不到一年就跳槽呢?他们不担心影响履历吗? PayScale之前发布的**《员工最短任期公司排行榜》中,两家码农大厂Amazon和Google**,以1年和1.1年的员工任期中位数分列第二、第四名。 PayScale:员工最短任期公司排行榜 意外的是,任期中位数极小的这两家公司,薪资...

我以为我学懂了数据结构,直到看了这个导图才发现,我错了

数据结构与算法思维导图

技术大佬:我去,你写的 switch 语句也太老土了吧

昨天早上通过远程的方式 review 了两名新来同事的代码,大部分代码都写得很漂亮,严谨的同时注释也很到位,这令我非常满意。但当我看到他们当中有一个人写的 switch 语句时,还是忍不住破口大骂:“我擦,小王,你丫写的 switch 语句也太老土了吧!” 来看看小王写的代码吧,看完不要骂我装逼啊。 private static String createPlayer(PlayerTypes p...

华为初面+综合面试(Java技术面)附上面试题

华为面试整体流程大致分为笔试,性格测试,面试,综合面试,回学校等结果。笔试来说,华为的难度较中等,选择题难度和网易腾讯差不多。最后的代码题,相比下来就简单很多,一共3道题目,前2题很容易就AC,题目已经记不太清楚,不过难度确实不大。最后一题最后提交的代码过了75%的样例,一直没有发现剩下的25%可能存在什么坑。 笔试部分太久远,我就不怎么回忆了。直接将面试。 面试 如果说腾讯的面试是挥金如土...

和黑客斗争的 6 天!

互联网公司工作,很难避免不和黑客们打交道,我呆过的两家互联网公司,几乎每月每天每分钟都有黑客在公司网站上扫描。有的是寻找 Sql 注入的缺口,有的是寻找线上服务器可能存在的漏洞,大部分都...

讲一个程序员如何副业月赚三万的真实故事

loonggg读完需要3分钟速读仅需 1 分钟大家好,我是你们的校长。我之前讲过,这年头,只要肯动脑,肯行动,程序员凭借自己的技术,赚钱的方式还是有很多种的。仅仅靠在公司出卖自己的劳动时...

上班一个月,后悔当初着急入职的选择了

最近有个老铁,告诉我说,上班一个月,后悔当初着急入职现在公司了。他之前在美图做手机研发,今年美图那边今年也有一波组织优化调整,他是其中一个,在协商离职后,当时捉急找工作上班,因为有房贷供着,不能没有收入来源。所以匆忙选了一家公司,实际上是一个大型外包公司,主要派遣给其他手机厂商做外包项目。**当时承诺待遇还不错,所以就立马入职去上班了。但是后面入职后,发现薪酬待遇这块并不是HR所说那样,那个HR自...

女程序员,为什么比男程序员少???

昨天看到一档综艺节目,讨论了两个话题:(1)中国学生的数学成绩,平均下来看,会比国外好?为什么?(2)男生的数学成绩,平均下来看,会比女生好?为什么?同时,我又联想到了一个技术圈经常讨...

副业收入是我做程序媛的3倍,工作外的B面人生是怎样的?

提到“程序员”,多数人脑海里首先想到的大约是:为人木讷、薪水超高、工作枯燥…… 然而,当离开工作岗位,撕去层层标签,脱下“程序员”这身外套,有的人生动又有趣,马上展现出了完全不同的A/B面人生! 不论是简单的爱好,还是正经的副业,他们都干得同样出色。偶尔,还能和程序员的特质结合,产生奇妙的“化学反应”。 @Charlotte:平日素颜示人,周末美妆博主 大家都以为程序媛也个个不修边幅,但我们也许...

MySQL数据库面试题(2020最新版)

文章目录数据库基础知识为什么要使用数据库什么是SQL?什么是MySQL?数据库三大范式是什么mysql有关权限的表都有哪几个MySQL的binlog有有几种录入格式?分别有什么区别?数据类型mysql有哪些数据类型引擎MySQL存储引擎MyISAM与InnoDB区别MyISAM索引与InnoDB索引的区别?InnoDB引擎的4大特性存储引擎选择索引什么是索引?索引有哪些优缺点?索引使用场景(重点)...

如果你是老板,你会不会踢了这样的员工?

有个好朋友ZS,是技术总监,昨天问我:“有一个老下属,跟了我很多年,做事勤勤恳恳,主动性也很好。但随着公司的发展,他的进步速度,跟不上团队的步伐了,有点...

我入职阿里后,才知道原来简历这么写

私下里,有不少读者问我:“二哥,如何才能写出一份专业的技术简历呢?我总感觉自己写的简历太烂了,所以投了无数份,都石沉大海了。”说实话,我自己好多年没有写过简历了,但我认识的一个同行,他在阿里,给我说了一些他当年写简历的方法论,我感觉太牛逼了,实在是忍不住,就分享了出来,希望能够帮助到你。 01、简历的本质 作为简历的撰写者,你必须要搞清楚一点,简历的本质是什么,它就是为了来销售你的价值主张的。往深...

外包程序员的幸福生活

今天给你们讲述一个外包程序员的幸福生活。男主是Z哥,不是在外包公司上班的那种,是一名自由职业者,接外包项目自己干。接下来讲的都是真人真事。 先给大家介绍一下男主,Z哥,老程序员,是我十多年前的老同事,技术大牛,当过CTO,也创过业。因为我俩都爱好喝酒、踢球,再加上住的距离不算远,所以一直也断断续续的联系着,我对Z哥的状况也有大概了解。 Z哥几年前创业失败,后来他开始干起了外包,利用自己的技术能...

现代的 “Hello, World”,可不仅仅是几行代码而已

作者 |Charles R. Martin译者 | 弯月,责编 | 夕颜头图 |付费下载自视觉中国出品 | CSDN(ID:CSDNnews)新手...

!大部分程序员只会写3年代码

如果世界上都是这种不思进取的软件公司,那别说大部分程序员只会写 3 年代码,恐怕就没有程序员这种职业。

离职半年了,老东家又发 offer,回不回?

有小伙伴问松哥这个问题,他在上海某公司,在离职了几个月后,前公司的领导联系到他,希望他能够返聘回去,他很纠结要不要回去? 俗话说好马不吃回头草,但是这个小伙伴既然感到纠结了,我觉得至少说明了两个问题:1.曾经的公司还不错;2.现在的日子也不是很如意。否则应该就不会纠结了。 老实说,松哥之前也有过类似的经历,今天就来和小伙伴们聊聊回头草到底吃不吃。 首先一个基本观点,就是离职了也没必要和老东家弄的苦...

HTTP与HTTPS的区别

面试官问HTTP与HTTPS的区别,我这样回答让他竖起大拇指!

程序员毕业去大公司好还是小公司好?

虽然大公司并不是人人都能进,但我仍建议还未毕业的同学,尽力地通过校招向大公司挤,但凡挤进去,你这一生会容易很多。 大公司哪里好?没能进大公司怎么办?答案都在这里了,记得帮我点赞哦。 目录: 技术氛围 内部晋升与跳槽 啥也没学会,公司倒闭了? 不同的人脉圈,注定会有不同的结果 没能去大厂怎么办? 一、技术氛围 纵观整个程序员技术领域,哪个在行业有所名气的大牛,不是在大厂? 而且众所...

男生更看重女生的身材脸蛋,还是思想?

往往,我们看不进去大段大段的逻辑。深刻的哲理,往往短而精悍,一阵见血。问:产品经理挺漂亮的,有点心动,但不知道合不合得来。男生更看重女生的身材脸蛋,还是...

程序员为什么千万不要瞎努力?

本文作者用对比非常鲜明的两个开发团队的故事,讲解了敏捷开发之道 —— 如果你的团队缺乏统一标准的环境,那么即使勤劳努力,不仅会极其耗时而且成果甚微,使用...

为什么程序员做外包会被瞧不起?

二哥,有个事想询问下您的意见,您觉得应届生值得去外包吗?公司虽然挺大的,中xx,但待遇感觉挺低,马上要报到,挺纠结的。

当HR压你价,说你只值7K,你该怎么回答?

当HR压你价,说你只值7K时,你可以流畅地回答,记住,是流畅,不能犹豫。 礼貌地说:“7K是吗?了解了。嗯~其实我对贵司的面试官印象很好。只不过,现在我的手头上已经有一份11K的offer。来面试,主要也是自己对贵司挺有兴趣的,所以过来看看……”(未完) 这段话主要是陪HR互诈的同时,从公司兴趣,公司职员印象上,都给予对方正面的肯定,既能提升HR的好感度,又能让谈判气氛融洽,为后面的发挥留足空间。...

面试阿里p7,被按在地上摩擦,鬼知道我经历了什么?

面试阿里p7被问到的问题(当时我只知道第一个):@Conditional是做什么的?@Conditional多个条件是什么逻辑关系?条件判断在什么时候执...

终于懂了TCP和UDP协议区别

终于懂了TCP和UDP协议区别

无代码时代来临,程序员如何保住饭碗?

编程语言层出不穷,从最初的机器语言到如今2500种以上的高级语言,程序员们大呼“学到头秃”。程序员一边面临编程语言不断推陈出新,一边面临由于许多代码已存在,程序员编写新应用程序时存在重复“搬砖”的现象。 无代码/低代码编程应运而生。无代码/低代码是一种创建应用的方法,它可以让开发者使用最少的编码知识来快速开发应用程序。开发者通过图形界面中,可视化建模来组装和配置应用程序。这样一来,开发者直...

面试了一个 31 岁程序员,让我有所触动,30岁以上的程序员该何去何从?

最近面试了一个31岁8年经验的程序猿,让我有点感慨,大龄程序猿该何去何从。

大三实习生,字节跳动面经分享,已拿Offer

说实话,自己的算法,我一个不会,太难了吧

程序员垃圾简历长什么样?

已经连续五年参加大厂校招、社招的技术面试工作,简历看的不下于万份 这篇文章会用实例告诉你,什么是差的程序员简历! 疫情快要结束了,各个公司也都开始春招了,作为即将红遍大江南北的新晋UP主,那当然要为小伙伴们做点事(手动狗头)。 就在公众号里公开征简历,义务帮大家看,并一一点评。《启舰:春招在即,义务帮大家看看简历吧》 一石激起千层浪,三天收到两百多封简历。 花光了两个星期的所有空闲时...

立即提问
相关内容推荐