Python读取中文有问题!! 2C

图片说明图片说明
Python中用open打开文件(内容是中文),读取结果出问题

6个回答

我刚学Python,我觉得关键看你Python是什么版本的,python3.0之前需要在文件开头加入 # -*- coding: UTF-8 -*- 或者 #coding=utf-8 ,Python3.0好像是utf-8编码集成的

我刚学Python,我觉得关键看你Python是什么版本的,python3.0之前需要在文件开头加入 # -*- coding: UTF-8 -*- 或者 #coding=utf-8 ,Python3.0好像是utf-8编码集成的

f.read().decode("GBK").encode("utf-8")

你最好指定字符集的方式来打开文件, codecs.open

要看你文件的编码格式,可能你读出来的是byte流。
在python中,不区分str和byte[]。

print type(u'你好')

print type('\xc4\xe3\xba\xc3'.decode('GBK'))

print type('\xc4\xe3\xba\xc3'.decode('GBK').encode("utf-8"))

print type('\xc4\xe3\xba\xc3')

print (u'你好'.encode('GBK') == '\xc4\xe3\xba\xc3')
True

要看你文件的编码格式,可能你读出来的是byte流。
在python中,不区分str和byte[]。
输入:print type(u'你好')
输出:

输入: print type('\xc4\xe3\xba\xc3'.decode('GBK'))
输出:

输入: print type('\xc4\xe3\xba\xc3'.decode('GBK').encode("utf-8"))
输出:

输入: print type('\xc4\xe3\xba\xc3')
输出:

输入: print (u'你好'.encode('GBK') == '\xc4\xe3\xba\xc3')
输出:True

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
python读取中文目录出现乱码
问题是这样的:用python写的程序,去读取一些目录和文件进行处理:比如说其中的中文目录名如下: 示波器,曲线,卡哇伊小屋等等。然后比如示波器文件夹下面有下面文件:0.htm,0.png,示波器.mp4 我写的目录和文件访问程序如下: #根据绝对路径获取目录下面所有的文件的绝对路径,文本信息全部用txt文件,图片信息全部用png文件,视频信息 def getFiles_fromAbsPath(inputDir): curPath = os.getcwd() # 靠必须要拆分成多个路径,否则不能通过 os.chdir(inputDir) #主要是为了获取sequence.txt文件(如果问题是这样的:用python写的程序,去读取一些目录和文件进行处理:比如说其中的中文目录名如下: 示波器,曲线,卡哇伊小屋等等。然后比如示波器文件夹下面有下面文件:0.htm,0.png,示波器.mp4 我写的目录和文件访问程序如下: #根据绝对路径获取目录下面所有的文件的绝对路径,文本信息全部用txt文件,图片信息全部用png文件,视频信息 def getFiles_fromAbsPath(inputDir): curPath = os.getcwd() # 靠必须要拆分成多个路径,否则不能通过 os.chdir(inputDir) #主要是为了获取sequence.txt文件(如果存在的话) textInputDirs = [x for x in os.listdir('.') if os.path.isfile(x) and x.endswith("sequence.txt")] pictureInputDirs = [x for x in os.listdir('.') if os.path.isfile(x) and x.endswith(".png") ] #htm只需要返回0.htm进行处理 htmInputDirs = [x for x in os.listdir('.') if os.path.isfile(x) and x.endswith("0.htm") ] #获取视频的地址 videoInputDirs = [x for x in os.listdir('.') if os.path.isfile(x) and x.endswith(".mp4") ] #print inputDirs realTextInputDirs = [] realPictureInputDirs = [] realHtmInputDirs = [] realVideoInputDirs = [] for path in textInputDirs: realTextInputDirs.append(os.path.abspath(path)) for path in pictureInputDirs: realPictureInputDirs.append(os.path.abspath(path)) for path in htmInputDirs: #realHtmInputDirs.append(os.path.abspath(path)) realHtmInputDirs.append(os.path.join(inputDir , path)) for path in videoInputDirs: realVideoInputDirs.append(os.path.abspath(path)) os.chdir(curPath) sequenceFileName = "" videoFileName = "" if realTextInputDirs: sequenceFileName = realTextInputDirs[0] if realVideoInputDirs: videoFileName = realVideoInputDirs[0] return sequenceFileName,realPictureInputDirs,realHtmInputDirs[0] , videoFileName 但是用0.htm得到的绝对路径去读取该文件的的时候 fr = open(sFileName, "r"),这个sFileName是读取的0,htm的绝对路径,但是发生错误,看了调试信息: ​这个时候文件的路径变成了: 'E:\\MyProject\\SVN_Project\\Drawingboard_local\\model\\mydata\\input\\production\\һ�ɳ���0.htm' 中文的路径:"示波器"没了 正确的路径是: 'E:\\MyProject\\SVN_Project\\Drawingboard_local\\model\\mydata\\input\\production\\示波器\\0.htm' 而且乱码导致了:"示波器"和它后面的"\\"都在一起了,所以读0.htm文件立刻程序崩溃。 我在python文件中加了: # *-* coding: utf-8 *-* import sys reload(sys) sys.setdefaultencoding("utf-8") 还是没有用 朋友们,能指导一下:python如何读取中文目录而不乱码吗,十分感谢
python中读取文件(路径含中文)出现乱码问题。
在ulipad中写python代码,遇到中文代码乱码问题。贴出代码与异常,python版本3.4 ![图片说明](https://img-ask.csdn.net/upload/201505/09/1431178068_191573.png) ![图片说明](https://img-ask.csdn.net/upload/201505/09/1431178079_956248.png)
请求大神解答下如何用python读取复杂dat中文本文的问题
我会使用open('XXX').read()将本文中的数据全部读出来,但是在文本中存在着不同的列名,例如图片中的数据。请问大神何如用python将这些数据按照“id”,“url”,“brand”等类别进行输出划分,python不怎么会用,还请各位大神不吝赐教![图片说明](https://img-ask.csdn.net/upload/201710/31/1509420160_135524.jpg)
Python读取JSON出现b'和\n'问题
使用Python自带的IDLE,发现读取JSON时会增加一些字符串。代码如下: ``` # -*- coding: utf-8 -*- import json from urllib.request import urlopen def getCountry(ipAddress): response=urlopen('http://freegeoip.net/json/'+ipAddress).read() print(response) responseJSON=json.loads(response) return responseJSON.get('country_code') print(getCountry('50.78.253.58')) ``` 运行环境如下: Python版本:python 3.5-64位 Windows系统:win10 64位(中文) 默认浏览器:Google chrome 46.0.2490.86 系统默认语言:中文 如图所示: ![图片说明](https://img-ask.csdn.net/upload/201703/19/1489921509_884593.jpg) 而翻看源码,似乎也没找到这几个字符串的东西: ![图片说明](https://img-ask.csdn.net/upload/201703/19/1489921759_759105.png) 麻烦大家帮忙看看有没有解决办法。系统是不太可能装英文版的了。第一次学习python,就遇到这种问题。
python读取htm文件崩溃
问题是这样的:我用python写的程序去读取.htm文件中的数据,刚开始我用:fr = open("0.htm" , "r")时,程序运行后直接崩溃,后来根据提示的错误信息:ValueError encoding must be one of 'utf_8','big5', or 'gbk'.,因此我用codecs改写成如下形式: # *-* coding: utf-8 *-* import sys reload(sys) sys.setdefaultencoding("utf-8") import codecs fr = codecs.open(“0.htm” ,”r” , “utf-8”) 至少把打0.htn程序就崩溃的问题解决了。 但是读取文件中的内容的时候: 读到含有中文的某一行内容,程序直接奔溃了:这一行内容如下: <title>超级画板-ActiveX</title> 错误提示如下: UnicodeDecodeError: 'utf8' codec can't decode byte 0xb3 in position 0: invalid start byte 我的0.htm文件中的编码如下: <html> <head> <meta http-equiv="Content-Language" content="zh-cn"> <meta name="GENERATOR" content="Microsoft FrontPage 5.0"> <meta name="ProgId" content="FrontPage.Editor.Document"> <meta http-equiv="Content-Type" content="text/html; charset=gb2312"> 它的字符集是:gb2312 是不是意味着我用python打开这个文件的时候应该不用utf-8方式呢? 请教朋友们,这个问题应该如何解决,十分感谢
windows下用pycharm读取txt文件编码问题
最近要做的一项工作需要下载一个txt文件作为字典,但是下载下来之后读取出了问题,原本的文件是这样的: ![图片说明](https://img-ask.csdn.net/upload/201709/22/1506064260_184216.png) 但是通过pycharm用python读取后结果是这样的(pycharm的编码设置为utf-8): ![图片说明](https://img-ask.csdn.net/upload/201709/22/1506064346_304563.png) 更奇怪的是通过交互式python读取文件就可以正常显示 然后我把文件另存为utf-8编码格式,这次读取后中文可以正常显示,但是其中的空格出了问题,完全打印不出来: ![图片说明](https://img-ask.csdn.net/upload/201709/22/1506064502_739731.png) 最后一行的内容:zyzzyvan.象鼻虫 正常显示应该是:zyzzyva n. 象鼻虫 请大家看看到底是什么问题,谢谢啦
JAVA调用python代码 中文返回乱码 有什么好解决的办法吗?
通过下面这种方式调用 ``` Process process = Runtime.getRuntime().exec(cmdArr); ``` 输入流读取 ``` InputStream is = process.getInputStream(); DataInputStream dis = new DataInputStream(is); str = dis.readLine(); ``` 下面是日志 ![图片说明](https://img-ask.csdn.net/upload/201912/04/1575446450_283848.png) 直接执行python代码 就会返回正确结果 用流去接收就会出现乱码
python读取文件输出乱码(不含中文),好心人帮帮忙
data = '2-34,3:21,2.34,2.45,3.01,2:01,2:01,3:10,2-22' print "data =", data print type(data) james = data.strip().split(',') print james 输出的是['2-34\xef\xbc\x8c3\xef\xbc\x9a21\xef\xbc\x8c2.34\xef\xbc\x8c2.45\xef\xbc\x8c3.01\xef\xbc\x8c2\xef\xbc\x9a01\xef\xbc\x8c2\xef\xbc\x9a01\xef\xbc\x8c3\xef\xbc\x9a10\xef\xbc\x8c2-22']。。。 恶补了编码知识,两天了还没解决,帮帮我,谢谢好心人
读取python遍历中文目录得到的文件路径报错
各位朋友们好,我是一名python新手,现在遇到一个问题,恳请各位朋友们能指点一下我。 我的环境是:ubuntu14.04系统,python2.7 用python遍历一个目录,目录层次结构如下: 这是主目录: /home/chaoma/superboard/mydata/input/production 主目录下的目录层次结构如下 --超级画板教学资源_全处理_772 -- Z+Z资源库 --初中数学资源库 --1有理数 ---1.1数的分类 -- 0.mp4 -- name.txt …… --2一元一次方程 ….. --动态解析高考数学综合题 --第一章基本函数 --第四节 --06福建理21 --name.txt --0.mp4 --拓展练习4.1 …. --第五节 …… --第二章三角函数 ……. …… --学生作品集合_全处理_52 ……… 我想实现的功能:找到所有含有0.mp4文件的父目录,并读取该父目录下面的name.txt文件 因此我写了以下的遍历函数来实现这一功能: def visitDir_walk(path , sFileSuffix): codedetect = chardet.detect(path)["encoding"] path = unicode(path , codedetect) fileNames = list() for root,dirs,files in os.walk(path): for i in range(0 , len(files)): file = files[i] if file.endswith(sFileSuffix): sFileName = os.path.join(root , file) #这边返回的应该是包含视频文件的父目录,也就是学生作品目录 realFileName = os.path.split(os.path.abspath(sFileName))[0] fileNames.append( unicode(realFileName,”gbk”) ) return fileNames def main(): sProductionInputPath = “/home/chaoma/superboard/mydata/input/production” dir_production_list = visitDir_walk(sProductionInputPath , ".mp4") #拼接name.txt的路径 for dir in dir_production_list: nameFile = os.path.join(dir , "name.txt") fout = codecs.open(nameFile , "w" , "utf-8") #截取出路径中的文件名作为需要的内容,并写入文件 fout.write(os.path.split(path)[1]) fout.close() main() 但是执行之后却报错了,报错如下: fout = codecs.open(nameFile , "w" , "utf-8") File "/usr/lib/python2.7/codecs.py", line 878, in open file = __builtin__.open(filename, mode, buffering) IOError: [Errno 2] No such file or directory: u'/home/chaoma/superboard/mydata/input/production/\u8d85\u7ea7\u753b\u677f\u6559\u5b66\u8d44\u6e90_\u5168\u5904\u7406_772/\u52a8\u6001\u89e3\u6790\u9ad8\u8003\u6570\u5b66\u7efc\u5408\u9898/\u7b2c\u4e00\u7ae0\u57fa\u672c\u51fd\u6570/\u7b2c\u56db\u8282/06\u798f\u5efa\u740621/name.txt' 打印这个报错的路径得到: /home/chaoma/superboard/mydata/input/production/超级画板教学资源_全处理_772/动态解析高考数学综合题/第一章基本函数/第四节/06福建理21/name.txt 这个文件路径是存在的却报错,不知道为什么。难道是路径是unicode类型就不能识别吗? 恳请各位朋友们能指点我一下,十分感谢。
python 如何将windows-1252转换为utf-8
问题是这样的: 我用python程序读取带有中文的文件名:'E:\MyProject\SVN_Project\Drawingboard_local\model\mydata\input\production\a\һ�ɳ���.htm' 发现乱码, 正确的目录地址是: 'E:\MyProject\SVN_Project\Drawingboard_local\model\mydata\input\production\a\示波器.htm' 我把乱码的"示波器"部分截取出来得到的乱码部分,用chardet去做了一个字符串编码类型检测: mycoding = chardet.detect(videoFileName)["encoding"] 得到该中文部分的编码格式是:'windows-1252' 但实际上我在python文件头部加上了: # *-* coding: utf-8 *-* import sys reload(sys) sys.setdefaultencoding("utf-8") 还是不是utf-8编码格式没用。 截取的中文部分写入文件时一直报错,请教各位朋友:如何将windows-1252转换为utf-8格式,十分感谢
Python3中使用read_csv( )读取csv文件,文件路径中含有中文,无法读取怎么处理?
![图片说明](https://img-ask.csdn.net/upload/201702/13/1486996634_961779.jpg) ![图片说明](https://img-ask.csdn.net/upload/201702/13/1486996476_363160.png)
如何解决ValueError: Length mismatch: Expected axis has 20 elements, new values have 19 elements
![图片说明](https://img-ask.csdn.net/upload/201912/07/1575690360_789348.png) 代码如下: import numpy as np import pandas as pd from GM11 import GM11 inputfile = 'D:\\软件\\python\\《Python数据分析与挖掘实战(张良均等)》中文PDF+源代码\\《Python数据分析与挖掘实战(张良均等)》中文PDF+源代码\\数据及代码\\chapter13\\test\\data\\data1.csv' #输入的数据文件 outputfile = 'D:\\软件\\python\\《Python数据分析与挖掘实战(张良均等)》中文PDF+源代码\\《Python数据分析与挖掘实战(张良均等)》中文PDF+源代码\\数据及代码\\chapter13\\test\\data\\data1_GM11.xls' #灰色预测后保存的路径 data = pd.read_csv('D:\\软件\\python\\《Python数据分析与挖掘实战(张良均等)》中文PDF+源代码\\《Python数据分析与挖掘实战(张良均等)》中文PDF+源代码\\数据及代码\\chapter13\\test\\data\\data1.csv',engine='python') #读取数据 data.index = range(1993, 2012) data.loc[2013] = None data.loc[2014] = None l = ['x1', 'x2', 'x3', 'x4', 'x5', 'x7'] for i in l: f = GM11(data[i][arange(1993, 2012)].as_matrix())[0] data[i][2013] = f(len(data)-1) #2013年预测结果 data[i][2014] = f(len(data)) #2014年预测结果 data[i] = data[i].round(2) #保留两位小数 data[l+['y']].to_excel(outputfile) #结果输出 if (C < 0.35 and P > 0.95): # 评测后验差判别 print ('对于模型%s,该模型精度为---好' % i) elif (C < 0.5 and P > 0.8): print ('对于模型%s,该模型精度为---合格' % i) elif (C < 0.65 and P > 0.7): print ('对于模型%s,该模型精度为---勉强合格' % i) else: print ('对于模型%s,该模型精度为---不合格' % i)
求助:用Python编写一个单词测验小程序。
在一个指定的“wordlist.txt”文档中存储着单词文本。现要求使用Python语言读取文档内容,显示中文要求输入英文,如果正确匹配则显示“true answer”,错误则显示“wrong answer”。txt文本格式如图: ![图片说明](https://img-ask.csdn.net/upload/201904/20/1555765737_725813.png)
最近突发奇想用java去请求python写的接口结果出问题了
python代码如下: ``` import tornado from wtforms_tornado import Form import sys class hello(tornado.web.RequestHandler): def get(self): self.render("hello.html") class ajaxtest(tornado.web.RequestHandler): def set_default_headers(self): print("setting headers!!!") self.set_header("Access-Control-Allow-Origin", "*") self.set_header("Access-Control-Allow-Headers", "x-requested-with") self.set_header('Access-Control-Allow-Methods', 'POST, GET, OPTIONS') def get(self): data="你好我是刘德华" #data.encode("utf-8") print("get") self.write(data) def post(self): import json res=dict( hel="你好我是刘德华", d="ee" ) json = json.dumps(res) print("post") self.write(json) ``` python的代码应该是没有问题的 问题应该出在java上因为用直接用jQuery ajax请求是完全没有问题的 java代码如下: ``` package xiaoxiaomo; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.UnsupportedEncodingException; import java.net.URL; import java.net.URLConnection; import java.util.List; import java.util.Map; public class test { /** * 向指定URL发送GET方法的请求 * * @param url * 发送请求的URL * @param param * 请求参数,请求参数应该是 name1=value1&name2=value2 的形式。 * @return URL 所代表远程资源的响应结果 */ public test() { // TODO Auto-generated constructor stub } public static String sendGet(String url, String param) { String result = ""; BufferedReader in = null; try { String urlNameString = url + "?" + param; URL realUrl = new URL(urlNameString); // 打开和URL之间的连接 URLConnection connection = realUrl.openConnection(); // 设置通用的请求属性 connection.setRequestProperty("accept", "*/*"); connection.setRequestProperty("connection", "Keep-Alive"); connection.setRequestProperty("user-agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)"); // 建立实际的连接 connection.connect(); // 获取所有响应头字段 Map<String, List<String>> map = connection.getHeaderFields(); // 遍历所有的响应头字段 for (String key : map.keySet()) { System.out.println(key + "--->" + map.get(key)); } // 定义 BufferedReader输入流来读取URL的响应 in = new BufferedReader(new InputStreamReader( connection.getInputStream())); String line; while ((line = in.readLine()) != null) { result += line; } } catch (Exception e) { System.out.println("发送GET请求出现异常!" + e); e.printStackTrace(); } // 使用finally块来关闭输入流 finally { try { if (in != null) { in.close(); } } catch (Exception e2) { e2.printStackTrace(); } } return result; } /** * 向指定 URL 发送POST方法的请求 * * @param url * 发送请求的 URL * @param param * 请求参数,请求参数应该是 name1=value1&name2=value2 的形式。 * @return 所代表远程资源的响应结果 */ public static String sendPost(String url, String param) { PrintWriter out = null; BufferedReader in = null; String result = ""; try { URL realUrl = new URL(url); // 打开和URL之间的连接 URLConnection conn = realUrl.openConnection(); // 设置通用的请求属性 conn.setRequestProperty("accept", "*/*"); conn.setRequestProperty("connection", "Keep-Alive"); conn.setRequestProperty("user-agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)"); // 发送POST请求必须设置如下两行 conn.setDoOutput(true); conn.setDoInput(true); // 获取URLConnection对象对应的输出流 out = new PrintWriter(conn.getOutputStream()); // 发送请求参数 out.print(param); // flush输出流的缓冲 out.flush(); // 定义BufferedReader输入流来读取URL的响应 in = new BufferedReader( new InputStreamReader(conn.getInputStream())); String line; while ((line = in.readLine()) != null) { result += line; } } catch (Exception e) { System.out.println("发送 POST 请求出现异常!"+e); e.printStackTrace(); } //使用finally块来关闭输出流、输入流 finally{ try{ if(out!=null){ out.close(); } if(in!=null){ in.close(); } } catch(IOException ex){ ex.printStackTrace(); } } return result; } public static String getEncoding(String str) { String encode = "GB2312"; try { if (str.equals(new String(str.getBytes(encode), encode))) { //判断是不是GB2312 String s = encode; return s; //是的话,返回“GB2312“,以下代码同理 } } catch (Exception exception) { } encode = "ISO-8859-1"; try { if (str.equals(new String(str.getBytes(encode), encode))) { //判断是不是ISO-8859-1 String s1 = encode; return s1; } } catch (Exception exception1) { } encode = "UTF-8"; try { if (str.equals(new String(str.getBytes(encode), encode))) { //判断是不是UTF-8 String s2 = encode; return s2; } } catch (Exception exception2) { } encode = "GBK"; try { if (str.equals(new String(str.getBytes(encode), encode))) { //判断是不是GBK String s3 = encode; return s3; } } catch (Exception exception3) { } return ""; } public static void main(String[] args) throws UnsupportedEncodingException { //发送 GET 请求 String s=test.sendGet("http://127.0.0.1:9999/ajax", "key=123&v=456"); // String str=new String(s.getBytes(),"utf-8"); String type=getEncoding(s); System.out.println("字符串的编码是:"+type); System.out.println(s); //发送 POST 请求 // String sr=test.sendPost("http://localhost:6144/Home/RequestPostString", "key=123&v=456"); // System.out.println(sr); } } ``` 执行效果如下中文乱码: ![图片说明](https://img-ask.csdn.net/upload/201805/16/1526480833_741806.png) 然后我转了字符串编码为utf-8执行结果如下最后一个字显示问号 ![图片说明](https://img-ask.csdn.net/upload/201805/16/1526480961_68315.png) 后面没有办法,我在python就把字符串转为utf-8 ![图片说明](https://img-ask.csdn.net/upload/201805/16/1526481027_280369.png) 结果执行以后编码是utf-8没错 但是还是乱码 这是咋回事啊 ![图片说明](https://img-ask.csdn.net/upload/201805/16/1526481133_525792.png)
django取出pymongo中存储的中文图片路径后,读取该路径在网页上展示没有出现图片
问题是这样的: 我搭建的环境是:python2.7 + mongoengine + pymongo + django + Ubuntu14 python处理一些带有中文路径的图片,把这个路径存储在数据库pymongo中,保存的时候该路径是转换为:utf-8类型存储到数据库中,然后django通过mongoengine来连接pymongo的数据库,从中取出这个图片的路径, 希望向各位朋友们请教一下下面的问题,十分感谢 1遍历这些图片的路径时,采用的是:os.walk()方法,调用如下: 1 def visitDir_walk(path , sFileSuffix): 2 codedetect = chardet.detect(path)["encoding"] 3 path = unicode(path , codedetect).encode("gbk") 4 fileNames = list() 5 for root,dirs,files in os.walk(path): 6 for i in range(0 , len(files)): 7 file = files[i] 8 if file.endswith(sFileSuffix): 9 sFileName = os.path.join(root , file) 10 codedetect = chardet.detect(sRealFileName)["encoding"] 11 sRealFileName = unicode(sRealFileName , "gbk").encode("gbk") 12 fileNames.append( sRealFileName ) 13 return fileNames 我发现:如果os.walk中传入的如果是unicode类型的中文路径,遍历报错,这是为什么? 如果在第11行中我改为: sRealFileName = unicode(sRealFileName , "gbk"),也会报错 2经过chardet模块分析之后:该路径变成了unicode类型,而且编码方式为ascii,这一点很奇怪,因为存储的时候: picture = {} picture["path"] = unicode(picPath, "gbk").encode("utf-8") 已经将获取的图片路径转换为utf-8的str类型的路径,但是从数据库拿出来却变成了ascii的unicode类型的路径 3取出的这个图片路径在django网页展示时,图片不显示,我猜想很可能是和图片的路径中带有中文有关,但我即使对取出的图片路径unicode类型的路径,转换为utf-8或者gbk,再展示该图片,还是无法显示。我也尝试不对该路径做任何编码转换,图片仍然不显示。 恳请各位朋友们指点一下,回答一下这三个问题,被中文路径折磨了1个月,仍然没有解决这个问题。 在此先提前感谢各位朋友。
用python修改已经存在的EXCEL单元格背景颜色
已经有一个表格,需要在单元格里面设置背景颜色。来区分不同的类型 ``` def setcellcolo(x,y): # 设置单元格背景颜色 style = xlwt.XFStyle() pattern = xlwt.Pattern() # 创建一个模式 pattern.pattern = xlwt.Pattern.SOLID_PATTERN # 设置其模式为实型 pattern.pattern_fore_colour =4 # 设置单元格背景颜色 0 = Black, 1 = White, 2 = Red, 3 = Green, 4 = Blue, 5 = Yellow, 6 = Magenta, the list goes on... style.pattern = pattern # 将赋值好的模式参数导入Style Line_data = (u'测试表') #创建一个Line_data列表,并将其值赋为测试表,以utf-8编码时中文前加u df.merge(x,x,y,y,style) ``` 报错,我是用xlrd读取excel,但是修改颜色的时候确是用xlwt,所以报错 'Book' object has no attribute 'merge'
python运行有错误:这是对数据进行分析生成可视化界面的程序(我是小白,请说下解决方法)
运行错误: C:\Users\Administrator\PycharmProjects\untitled\venv\Scripts\python.exe C:/Users/Administrator/PycharmProjects/untitled/dianying/src/analysis_data.py 一共有:16590个 Building prefix dict from the default dictionary ... Loading model from cache C:\Users\ADMINI~1\AppData\Local\Temp\jieba.cache Loading model cost 0.808 seconds. Prefix dict has been built succesfully. Traceback (most recent call last): File "C:/Users/Administrator/PycharmProjects/untitled/dianying/src/analysis_data.py", line 252, in <module> jiebaclearText(content) File "C:/Users/Administrator/PycharmProjects/untitled/dianying/src/analysis_data.py", line 97, in jiebaclearText f_stop_text = f_stop.read() File "D:\python111\lib\codecs.py", line 321, in decode (result, consumed) = self._buffer_decode(data, self.errors, final) UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 3: invalid start byte Process finished with exit code 1 代码如下: ''' data : 2019.3.28 goal : 可视化分析获取到的数据 ''' import csv time = [] nickName = [] gender = [] cityName = [] userLevel = [] score = [] content = '' # 读数据 def read_csv(): content = '' # 读取文件内容 with open(r'D:\maoyan.csv', 'r', encoding='utf_8_sig', newline='') as file_test: # 读文件 reader = csv.reader(file_test) i = 0 for row in reader: if i != 0: time.append(row[0]) nickName.append(row[1]) gender.append(row[2]) cityName.append(row[3]) userLevel.append(row[4]) score.append(row[5]) content = content + row[6] # print(row) i = i + 1 print('一共有:' + str(i - 1) + '个') return content import re, jieba # 词云生成工具 from wordcloud import WordCloud, ImageColorGenerator # 需要对中文进行处理 import matplotlib.font_manager as fm from pylab import * mpl.rcParams['font.sans-serif'] = ['SimHei'] from os import path d = path.dirname(__file__) stopwords_path = 'D:\ku\chineseStopWords.txt' # 评论词云分析 def word_cloud(content): import jieba, re, numpy from pyecharts import WordCloud import pandas as pd # 去除所有评论里多余的字符 content = content.replace(" ", ",") content = content.replace(" ", "、") content = re.sub('[,,。. \r\n]', '', content) segment = jieba.lcut(content) words_df = pd.DataFrame({'segment': segment}) # quoting=3 表示stopwords.txt里的内容全部不引用 stopwords = pd.read_csv(stopwords_path, index_col=False, quoting=3, sep="\t", names=['stopword'], encoding='utf-8') words_df = words_df[~words_df.segment.isin(stopwords.stopword)] words_stat = words_df.groupby(by=['segment'])['segment'].agg({"计数": numpy.size}) words_stat = words_stat.reset_index().sort_values(by=["计数"], ascending=False) test = words_stat.head(500).values codes = [test[i][0] for i in range(0, len(test))] counts = [test[i][1] for i in range(0, len(test))] wordcloud = WordCloud(width=1300, height=620) wordcloud.add("影评词云", codes, counts, word_size_range=[20, 100]) wordcloud.render(d + "\picture\c_wordcloud.html") # 定义个函数式用于分词 def jiebaclearText(text): # 定义一个空的列表,将去除的停用词的分词保存 mywordList = [] text = re.sub('[,,。. \r\n]', '', text) # 进行分词 seg_list = jieba.cut(text, cut_all=False) # 将一个generator的内容用/连接 listStr = '/'.join(seg_list) listStr = listStr.replace("class", "") listStr = listStr.replace("span", "") listStr = listStr.replace("悲伤逆流成河", "") # 打开停用词表 f_stop = open(stopwords_path, encoding="utf8") # 读取 try: f_stop_text = f_stop.read() finally: f_stop.close() # 关闭资源 # 将停用词格式化,用\n分开,返回一个列表 f_stop_seg_list = f_stop_text.split("\n") # 对默认模式分词的进行遍历,去除停用词 for myword in listStr.split('/'): # 去除停用词 if not (myword.split()) in f_stop_seg_list and len(myword.strip()) > 1: mywordList.append(myword) return ' '.join(mywordList) # 生成词云图 def make_wordcloud(text1): text1 = text1.replace("悲伤逆流成河", "") bg = plt.imread(d + "/static/znn1.jpg") # 生成 wc = WordCloud( # FFFAE3 background_color="white", # 设置背景为白色,默认为黑色 width=890, # 设置图片的宽度 height=600, # 设置图片的高度 mask=bg, # margin=10, # 设置图片的边缘 max_font_size=150, # 显示的最大的字体大小 random_state=50, # 为每个单词返回一个PIL颜色 font_path=d + '/static/simkai.ttf' # 中文处理,用系统自带的字体 ).generate_from_text(text1) # 为图片设置字体 my_font = fm.FontProperties(fname=d + '/static/simkai.ttf') # 图片背景 bg_color = ImageColorGenerator(bg) # 开始画图 plt.imshow(wc.recolor(color_func=bg_color)) # 为云图去掉坐标轴 plt.axis("off") # 画云图,显示 # 保存云图 wc.to_file(d + r"/picture/word_cloud.png") # 评论者性别分布可视化 def sex_distribution(gender): # print(gender) from pyecharts import Pie list_num = [] list_num.append(gender.count('0')) # 未知 list_num.append(gender.count('1')) # 男 list_num.append(gender.count('2')) # 女 attr = ["其他", "男", "女"] pie = Pie("性别饼图") pie.add("", attr, list_num, is_label_show=True) pie.render(d + r"\picture\sex_pie.html") # 评论者所在城市分布可视化 def city_distribution(cityName): city_list = list(set(cityName)) city_dict = {city_list[i]: 0 for i in range(len(city_list))} for i in range(len(city_list)): city_dict[city_list[i]] = cityName.count(city_list[i]) # 根据数量(字典的键值)排序 sort_dict = sorted(city_dict.items(), key=lambda d: d[1], reverse=True) city_name = [] city_num = [] for i in range(len(sort_dict)): city_name.append(sort_dict[i][0]) city_num.append(sort_dict[i][1]) import random from pyecharts import Bar bar = Bar("评论者城市分布") bar.add("", city_name, city_num, is_label_show=True, is_datazoom_show=True) bar.render(d + r"\picture\city_bar.html") # 每日评论总数可视化分析 def time_num_visualization(time): from pyecharts import Line time_list = list(set(time)) time_dict = {time_list[i]: 0 for i in range(len(time_list))} time_num = [] for i in range(len(time_list)): time_dict[time_list[i]] = time.count(time_list[i]) # 根据数量(字典的键值)排序 sort_dict = sorted(time_dict.items(), key=lambda d: d[0], reverse=False) time_name = [] time_num = [] print(sort_dict) for i in range(len(sort_dict)): time_name.append(sort_dict[i][0]) time_num.append(sort_dict[i][1]) line = Line("评论数量日期折线图") line.add( "日期-评论数", time_name, time_num, is_fill=True, area_color="#000", area_opacity=0.3, is_smooth=True, ) line.render(d + r"\picture\c_num_line.html") # 评论者猫眼等级、评分可视化 def level_score_visualization(userLevel, score): from pyecharts import Pie userLevel_list = list(set(userLevel)) userLevel_num = [] for i in range(len(userLevel_list)): userLevel_num.append(userLevel.count(userLevel_list[i])) score_list = list(set(score)) score_num = [] for i in range(len(score_list)): score_num.append(score.count(score_list[i])) pie01 = Pie("等级环状饼图", title_pos='center', width=900) pie01.add( "等级", userLevel_list, userLevel_num, radius=[40, 75], label_text_color=None, is_label_show=True, legend_orient="vertical", legend_pos="left", ) pie01.render(d + r"\picture\level_pie.html") pie02 = Pie("评分玫瑰饼图", title_pos='center', width=900) pie02.add( "评分", score_list, score_num, center=[50, 50], is_random=True, radius=[30, 75], rosetype="area", is_legend_show=False, is_label_show=True, ) pie02.render(d + r"\picture\score_pie.html") time = [] nickName = [] gender = [] cityName = [] userLevel = [] score = [] content = '' content = read_csv() # 1 词云 jiebaclearText(content) make_wordcloud(content) # pyecharts词云 # word_cloud(content) # 2 性别分布 sex_distribution(gender) # 3 城市分布 city_distribution(cityName) # 4 评论数 time_num_visualization(time) # 5 等级,评分 level_score_visualization(userLevel, score)
python 新人着急。文本替换
test.txt内容 I am number 1, Oh yes! I am number 2, Oh yes! I am number 3, Oh yes! I am number 4, Oh yes! I am number 5, Oh yes! I am number 6, Oh yes! I am number 7, Oh yes! I am number 8, Oh yes! 要求 1. 读取text.txt中文本,显示到命令行窗口中 2. 去掉每行开头的空格,将每行中的“Oh yes!”替换为“haha”,将替换后的内容写回到text.txt中 3. text.txt中只到number 8,补充number 9 - number 100,写到text.txt中
有关中文文本分类中用n-gram提高精度的问题
技术小白一个,但是接到一个很具有挑战性的任务是对上万条中文留言进行分类。我首先用网上比较常见的朴素贝叶斯分类器来进行分类,但发现对于短文本精确度并不高。因此想在TF-IDF之后加上n-gram来提高精度。但是python总是读取文件不成功,读出来全是乱码。求大神帮忙解答一下我应该改哪里,问题到底出在哪里?谢谢大家了 import sys reload(sys) sys.setdefaultencoding('utf-8') import re import string import operator def cleanText(input): input = re.sub('\n+', " ", input).lower() input = re.sub('\[[0-9]*\]', "", input) input = re.sub(' +', " ", input) input = bytes(input)#.encode('utf-8') #input = input.decode("ascii", "ignore") return input def cleanInput(input): input = cleanText(input) cleanInput = [] input = input.split(' ') for item in input: item = item.strip(string.punctuation) if len(item) > 1 or (item.lower() == "的" or item.lower() == "啊"): return cleanInput def getNgrams(input, n): input = cleanInput(input) output = {} for i in range(len(input)-n+1): ngramTemp = " ".join(input[i:i+n])#.encode('utf-8') if ngramTemp not in output: output[ngramTemp] = 0 output[ngramTemp] += 1 return output content = _readfile("‘·/train2/train_word_bag/tfdifspace.dat")#这个路径是训练集转成词向量空间后的文件路径,我也不大确定是不是要用这个路径 ngrams = getNgrams(content, 2) sortedNGrams = sorted(ngrams.items(), key = operator.itemgetter(1), reverse=True) #=True print(sortedNGrams)
动态规划入门到熟悉,看不懂来打我啊
持续更新。。。。。。 2.1斐波那契系列问题 2.2矩阵系列问题 2.3跳跃系列问题 3.1 01背包 3.2 完全背包 3.3多重背包 3.4 一些变形选讲 2.1斐波那契系列问题 在数学上,斐波纳契数列以如下被以递归的方法定义:F(0)=0,F(1)=1, F(n)=F(n-1)+F(n-2)(n&gt;=2,n∈N*)根据定义,前十项为1, 1, 2, 3...
程序员,职场上请远离这种人!
对有些职场人来讲,甩锅就是一种生存手段。01.从大学打篮球说起上大学的时候喜欢打篮球,然后我又特别喜欢抢篮板,经常是跳起来的时候没事,落下来的时候偶尔会踩到别人的脚上,于...
终于明白阿里百度这样的大公司,为什么面试经常拿ThreadLocal考验求职者了
点击上面↑「爱开发」关注我们每晚10点,捕获技术思考和创业资源洞察什么是ThreadLocalThreadLocal是一个本地线程副本变量工具类,各个线程都拥有一份线程私...
对计算机专业来说学历真的重要吗?
我本科学校是渣渣二本,研究生学校是985,现在毕业五年,校招笔试、面试,社招面试参加了两年了,就我个人的经历来说下这个问题。 这篇文章很长,但绝对是精华,相信我,读完以后,你会知道学历不好的解决方案,记得帮我点赞哦。 先说结论,无论赞不赞同,它本质就是这样:对于技术类工作而言,学历五年以内非常重要,但有办法弥补。五年以后,不重要。 目录: 张雪峰讲述的事实 我看到的事实 为什么会这样 ...
Java学习的正确打开方式
在博主认为,对于入门级学习java的最佳学习方法莫过于视频+博客+书籍+总结,前三者博主将淋漓尽致地挥毫于这篇博客文章中,至于总结在于个人,实际上越到后面你会发现学习的最好方式就是阅读参考官方文档其次就是国内的书籍,博客次之,这又是一个层次了,这里暂时不提后面再谈。博主将为各位入门java保驾护航,各位只管冲鸭!!!上天是公平的,只要不辜负时间,时间自然不会辜负你。 何谓学习?博主所理解的学习,它是一个过程,是一个不断累积、不断沉淀、不断总结、善于传达自己的个人见解以及乐于分享的过程。
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过
Python——画一棵漂亮的樱花树(不同种樱花+玫瑰+圣诞树喔)
最近翻到一篇知乎,上面有不少用Python(大多是turtle库)绘制的树图,感觉很漂亮,我整理了一下,挑了一些我觉得不错的代码分享给大家(这些我都测试过,确实可以生成) one 樱花树 动态生成樱花 效果图(这个是动态的): 实现代码 import turtle as T import random import time # 画樱花的躯干(60,t) def Tree(branch, ...
大学四年自学走来,这些私藏的实用工具/学习网站我贡献出来了
大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频学习网站、非视频学习网站、软件下载、面试/求职必备网站。 注意:文中提到的所有资源,文末我都给你整理好了,你们只管拿去,如果觉得不错,转发、分享就是最大的支持了。 一、电子书搜索 对于大部分程序员...
一个读研让我损失了一百万的真实故事
关注我!只要10分钟,包你学会数据分析 毕业后,应该就业还是考研? 我刚出国留学那会儿,就惊讶的发现,外国local95%都不会选择读研 他们说,硕士学费很贵,时间宝贵,老板不认,所以很费 当几乎所有人都是本科学历时,硕士学历反而像个异类 在老板眼里,三年硕士远远不如3年的工作经验实用 他们甚至专门为拒绝高学历者发明了一个词,叫overoccupie...
Python 植物大战僵尸代码实现(2):植物卡片选择和种植
这篇文章要介绍的是: - 上方植物卡片栏的实现。 - 点击植物卡片,鼠标切换为植物图片。 - 鼠标移动时,判断当前在哪个方格中,并显示半透明的植物作为提示。
西游记团队中如果需要裁掉一个人,会先裁掉谁?
2019年互联网寒冬,大批企业开始裁员,下图是网上流传的一张截图: 裁员不可避免,那如何才能做到不管大环境如何变化,自身不受影响呢? 我们先来看一个有意思的故事,如果西游记取经团队需要裁员一名,会裁掉谁呢,为什么? 西游记团队组成: 1.唐僧 作为团队teamleader,有很坚韧的品性和极高的原则性,不达目的不罢休,遇到任何问题,都没有退缩过,又很得上司支持和赏识(直接得到唐太宗的任命,既给
shell脚本:备份数据库、代码上线
备份MySQL数据库 场景: 一台MySQL服务器,跑着5个数据库,在没有做主从的情况下,需要对这5个库进行备份 需求: 1)每天备份一次,需要备份所有的库 2)把备份数据存放到/data/backup/下 3)备份文件名称格式示例:dbname-2019-11-23.sql 4)需要对1天以前的所有sql文件压缩,格式为gzip 5)本地数据保留1周 6)需要把备份的数据同步到远程备份中心,假如...
聊聊C语言和指针的本质
坐着绿皮车上海到杭州,24块钱,很宽敞,在火车上非正式地聊几句。 很多编程语言都以 “没有指针” 作为自己的优势来宣传,然而,对于C语言,指针却是与生俱来的。 那么,什么是指针,为什么大家都想避开指针。 很简单, 指针就是地址,当一个地址作为一个变量存在时,它就被叫做指针,该变量的类型,自然就是指针类型。 指针的作用就是,给出一个指针,取出该指针指向地址处的值。为了理解本质,我们从计算机模型说起...
为什么你学不过动态规划?告别动态规划,谈谈我的经验
动态规划难吗?说实话,我觉得很难,特别是对于初学者来说,我当时入门动态规划的时候,是看 0-1 背包问题,当时真的是一脸懵逼。后来,我遇到动态规划的题,看的懂答案,但就是自己不会做,不知道怎么下手。就像做递归的题,看的懂答案,但下不了手,关于递归的,我之前也写过一篇套路的文章,如果对递归不大懂的,强烈建议看一看:为什么你学不会递归,告别递归,谈谈我的经验 对于动态规划,春招秋招时好多题都会用到动态...
程序员一般通过什么途径接私活?
二哥,你好,我想知道一般程序猿都如何接私活,我也想接,能告诉我一些方法吗? 上面是一个读者“烦不烦”问我的一个问题。其实不止是“烦不烦”,还有很多读者问过我类似这样的问题。 我接的私活不算多,挣到的钱也没有多少,加起来不到 20W。说实话,这个数目说出来我是有点心虚的,毕竟太少了,大家轻喷。但我想,恰好配得上“一般程序员”这个称号啊。毕竟苍蝇再小也是肉,我也算是有经验的人了。 唾弃接私活、做外...
字节跳动面试官这样问消息队列:分布式事务、重复消费、顺序消费,我整理了一下
你知道的越多,你不知道的越多 点赞再看,养成习惯 GitHub上已经开源 https://github.com/JavaFamily 有一线大厂面试点脑图、个人联系方式和人才交流群,欢迎Star和完善 前言 消息队列在互联网技术存储方面使用如此广泛,几乎所有的后端技术面试官都要在消息队列的使用和原理方面对小伙伴们进行360°的刁难。 作为一个在互联网公司面一次拿一次Offer的面霸...
如何安装 IntelliJ IDEA 最新版本——详细教程
IntelliJ IDEA 简称 IDEA,被业界公认为最好的 Java 集成开发工具,尤其在智能代码助手、代码自动提示、代码重构、代码版本管理(Git、SVN、Maven)、单元测试、代码分析等方面有着亮眼的发挥。IDEA 产于捷克,开发人员以严谨著称的东欧程序员为主。IDEA 分为社区版和付费版两个版本。 我呢,一直是 Eclipse 的忠实粉丝,差不多十年的老用户了。很早就接触到了 IDEA...
面试还搞不懂redis,快看看这40道面试题(含答案和思维导图)
Redis 面试题 1、什么是 Redis?. 2、Redis 的数据类型? 3、使用 Redis 有哪些好处? 4、Redis 相比 Memcached 有哪些优势? 5、Memcache 与 Redis 的区别都有哪些? 6、Redis 是单进程单线程的? 7、一个字符串类型的值能存储最大容量是多少? 8、Redis 的持久化机制是什么?各自的优缺点? 9、Redis 常见性...
大学四年自学走来,这些珍藏的「实用工具/学习网站」我全贡献出来了
知乎高赞:文中列举了互联网一线大厂程序员都在用的工具集合,涉及面非常广,小白和老手都可以进来看看,或许有新收获。
为什么要推荐大家学习字节码?
配套视频: 为什么推荐大家学习Java字节码 https://www.bilibili.com/video/av77600176/ 一、背景 本文主要探讨:为什么要学习 JVM 字节码? 可能很多人会觉得没必要,因为平时开发用不到,而且不学这个也没耽误学习。 但是这里分享一点感悟,即人总是根据自己已经掌握的知识和技能来解决问题的。 这里有个悖论,有时候你觉得有些技术没用恰恰是...
【超详细分析】关于三次握手与四次挥手面试官想考我们什么?
在面试中,三次握手和四次挥手可以说是问的最频繁的一个知识点了,我相信大家也都看过很多关于三次握手与四次挥手的文章,今天的这篇文章,重点是围绕着面试,我们应该掌握哪些比较重要的点,哪些是比较被面试官给问到的,我觉得如果你能把我下面列举的一些点都记住、理解,我想就差不多了。 三次握手 当面试官问你为什么需要有三次握手、三次握手的作用、讲讲三次三次握手的时候,我想很多人会这样回答: 首先很多人会先讲下握...
压测学习总结(1)——高并发性能指标:QPS、TPS、RT、吞吐量详解
一、QPS,每秒查询 QPS:Queries Per Second意思是“每秒查询率”,是一台服务器每秒能够相应的查询次数,是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准。互联网中,作为域名系统服务器的机器的性能经常用每秒查询率来衡量。 二、TPS,每秒事务 TPS:是TransactionsPerSecond的缩写,也就是事务数/秒。它是软件测试结果的测量单位。一个事务是指一...
新程序员七宗罪
当我发表这篇文章《为什么每个工程师都应该开始考虑开发中的分析和编程技能呢?》时,我从未想到它会对读者产生如此积极的影响。那些想要开始探索编程和数据科学领域的人向我寻求建议;还有一些人问我下一篇文章的发布日期;还有许多人询问如何顺利过渡到这个职业。我非常鼓励大家继续分享我在这个旅程的经验,学习,成功和失败,以帮助尽可能多的人过渡到一个充满无数好处和机会的职业生涯。亲爱的读者,谢谢你。 -罗伯特。 ...
2019年Spring Boot面试都问了什么?快看看这22道面试题!
Spring Boot 面试题 1、什么是 Spring Boot? 2、Spring Boot 有哪些优点? 3、什么是 JavaConfig? 4、如何重新加载 Spring Boot 上的更改,而无需重新启动服务器? 5、Spring Boot 中的监视器是什么? 6、如何在 Spring Boot 中禁用 Actuator 端点安全性? 7、如何在自定义端口上运行 Sprin...
【图解】记一次手撕算法面试:字节跳动的面试官把我四连击了
字节跳动这家公司,应该是所有秋招的公司中,对算法最重视的一个了,每次面试基本都会让你手撕算法,今天这篇文章就记录下当时被问到的几个算法题,并且每个算法题我都详细着给出了最优解,下面再现当时的面试场景。看完一定让你有所收获 一、小牛试刀:有效括号 大部分情况下,面试官都会问一个不怎么难的问题,不过你千万别太开心,因为这道题往往可以拓展出更多有难度的问题,或者一道题看起来很简单,但是给出最优解,确实很...
面试官:关于Java性能优化,你有什么技巧
通过使用一些辅助性工具来找到程序中的瓶颈,然后就可以对瓶颈部分的代码进行优化。 一般有两种方案:即优化代码或更改设计方法。我们一般会选择后者,因为不去调用以下代码要比调用一些优化的代码更能提高程序的性能。而一个设计良好的程序能够精简代码,从而提高性能。 下面将提供一些在JAVA程序的设计和编码中,为了能够提高JAVA程序的性能,而经常采用的一些方法和技巧。 1.对象的生成和大小的调整。 J...
【图解算法面试】记一次面试:说说游戏中的敏感词过滤是如何实现的?
版权声明:本文为苦逼的码农原创。未经同意禁止任何形式转载,特别是那些复制粘贴到别的平台的,否则,必定追究。欢迎大家多多转发,谢谢。 小秋今天去面试了,面试官问了一个与敏感词过滤算法相关的问题,然而小秋对敏感词过滤算法一点也没听说过。于是,有了下下事情的发生… 面试官开怼 面试官:玩过王者荣耀吧?了解过敏感词过滤吗?,例如在游戏里,如果我们发送“你在干嘛?麻痹演员啊你?”,由于“麻痹”是一个敏感词,...
GitHub 标星 1.6w+,我发现了一个宝藏项目,作为编程新手有福了!
大家好,我是 Rocky0429,一个最近老在 GitHub 上闲逛的蒟蒻… 特别惭愧的是,虽然我很早就知道 GitHub,但是学会逛 GitHub 的时间特别晚。当时一方面是因为菜,看着这种全是英文的东西难受,不知道该怎么去玩,另一方面是一直在搞 ACM,没有做一些工程类的项目,所以想当然的以为和 GitHub 也没什么关系(当然这种想法是错误的)。 后来自己花了一个星期看完了 Pyt...
杭漂程序员2019的心路历程,还不起助学贷款,交不起房租,披荆斩棘终雨过天晴
一个杭漂2019的心酸历程,一路披荆斩棘终于还是雨过天晴。
我采访了同事,让他掏出了每天都会浏览的干货网站
前言只有光头才能变强。文本已收录至我的GitHub精选文章,欢迎Star:https://github.com/ZhongFuCheng3y/3y在周六的晚上,我日常去到公司写文章。想写...
相关热词 c# 时间比天数 c# oracle查询 c# 主动推送 事件 c# java 属性 c# 控制台 窗体 c# 静态类存值 c#矢量作图 c#窗体调用外部程式 c# enum是否合法 c# 如何卸载引用
立即提问