python如何获取文本中字符的个数?不是字节啊

一篇中文文章 ,里面含有汉字和各种标点符号还有字母数字什么的
现在我要统计汉字的个数和他所占的比例,查到的len()方法是获取字节数的
比如我用gbk编码,3000字的文章,字节数6800多,这不是我想要的,
我要的是实实在在的汉字的个数,还有整个文本的字符的个数,各位有什么办法没?
python貌似是会自动把我获取到的gbk编码的字符串解码成unicode 很蛋疼啊

3个回答

按照encode('utf-8')输出之后,连续3个\x字符就换算为1个汉字,其它字母和数字都没有\x编码。
如果要很完善的话,还要识别空格和\r\n之类的回车换行符

def CountChar(sText):
if not isinstance(sText, unicode):
sText=sText.decode("utf-8")
return len(sText)

恩 这样确实可以测试出字符的个数了 我的txt是gbk编码的 读取到内容content以后 直接输出len(content.decode('gbk')) 得到了我文本的总字符
个数是3618, 但是我目前最主要的还是要去判断里面的汉字有多少个 这样我就需要遍历content中的字符然后判断他是否在gbk的中文编码范围内,
然而我测试了一下网上的范围 0x8140到0xfefe 貌似不对 全都超过了这个范围

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
如何获取字符个数??
在vs2008下创建嵌入式项目,用CString获取编辑框控件输入的字符串,然后用wcstombs转换成char,再用isdigit和_isascii函数逐个判断字符,统计数据。这是可行的。rn在vs2008下创建MFC项目,如上操作不可用。经查是相同头文件,但引用位置不同。rnrn1.如何指定引用头文件,如果能指定到该头文件,能解决问题吗?会不会不支持MFC?rn2.有没有更简单的获取CString字符串中字符个数的方法?就是汉字算一个字符,数字也算一个,字母也算一个,统计个数。最好能给出代码。rnrnrn注:其实想做的是智能判断输入字符串,根据输入字符串来动态统计字符数,如果都是数字或字母就统计数字或字母个数,如果包含汉字,就统计字的个数(汉字算一个字符,数字也算一个,字母也算一个)。
有关字节与字符的个数
将从一个JIS编码的文件(包含半角数字和全角半角日文)中每次按650个字节读取数据,应该怎么读取呢??rn我用UTF-8中间转换了一下,生成一个UTF-8编码的文件,读650个字节,但和我 想要的数据不符合.rnrn急急!!!!rn谢谢了.
如何计算出TextBox 文本中的字符个数?
我要判断在TextBox中输入的文本的个数,当不到200个中文字时,提示“字数太少,请重新输入!“。rn该如何做呢?
文本中字符个数统计
编程实现读取文本,计数文本中内容字符数,不计空格、标点和制表符等。 初试写程序,请指正。 #include #include #include using namespace std; int main() { ofstream wfile; ifstream rfile; //文件名称 string filename="123.txt";
Python 和perl 中的字节和字符
[oracle@node01 python]$ cat t4.py # -*- coding: utf-8 -*- a='中国' b=u'中国' print a print len(a) print b print len(b) [oracle@node01 python]$ python t4.py 中国 6 中国 2 perl: [oracle@node01 python]$ cat
Python 中字节和字符(unicode)
Python 2.7.13 (v2.7.13:a06454b1afa1, Dec 17 2016, 20:42:59) [MSC v.1500 32 bit ( Intel)] on win32 Type "help", "copyright", "credits" or "license" for more information. >>> 输入: 现在,你已经可以用print 输出你想要的
如何获取一个字符串中字符的个数
比如说rnabc------》3rn我是我---》6rn我是abc--》7
计算字符串中的单双字节字符个数
在vb6.0中,经常会用到计算字符串中的单双字节字符个数,可用于精确定位字符串显示位置、格式化文档中的字符串等。
怎样获取字符的字节?
请问:怎样获取字符的字节?(TRichEdit中的汉字)
如何截取字节长度。不是字符。
比如。rnOutHtml = OutHtml.Substring(0,OutHtml.Length > 10? 10: OutHtml.Length);rnrn这个是截取10个字符rnrn结果可能是rn1234567890rn或者rn一二三四五六七八九零rn都是10个字符rnrn而我想把rn一二三四五六七八九零rn截取成rn一二三四五。就是10个字节。
如何获取TabStrip中的文本框内的字符?
TabStrip1上有一个fram1,fram1内添加了一个text1rn请问如何获取当前text1内的内容?rn谢谢
如何获取文本特定字符
一个文件11.textrn用StreamReader吧它写入aa变量rn比如文本类容是rn===================rnabcdefgh(xxxx)ijklmnrnrn===================rn事先我不知道xxxx的内容是什么rn根据查找abcdefgh( 后读取后面的几个字符rn怎么做rn还或许rn我不知道xxxx有几位 这个位数不是固定的 我因该怎么判断他有几位读取呢?rnrn我是新手, 请各位大哥赐教!
如何获取vb.net字符串的字节数,而不是字符个数!
如题rn谢谢!
BufferedInputStream字节个数获取方法
维护代码的时候,看到如下一段rnrn[code=Java]rnpublic static Object readObject(InputStream in, boolean[] retValue) throws IOException, ClassNotFoundException rn BufferedInputStream bin = new BufferedInputStream(in);rn int len = readInt(bin);rn byte[] bytes = new byte[len];rn int readLen = bin.read(bytes);rn ……rnrn[/code]rnrn其中readInt方法为rn[code=Java]rnpublic static int readInt(InputStream in) throws IOException rn int ch1 = in.read();rn int ch2 = in.read();rn int ch3 = in.read();rn int ch4 = in.read();rn if ((ch1 | ch2 | ch3 | ch4) < 0)rn throw new EOFException();rn return ((ch1 << 24) + (ch2 << 16) + (ch3 << 8) + (ch4 << 0));rnrn[/code]rnrn这个readInt方法应该是获取BufferedInputStream字节个数,但是这个方法是怎么获取的,实在搞不懂。rnrn请教下各位。
js获取字符个数
String.prototype.len = function() { return this.replace(/[^\x00-\xff]/g, "xx").length; } console.log("是2e".len());
Python统计字符个数
#Python 3.6(32-bit) 源代码如下: str = input("please input a string from your keyboard:") #用户输入字符 eng=num=bla=oth=0 for i in str: ...
python 字符个数统计
''' 题目描述 编写一个函数,计算字符串中含有的不同字符的个数。字符在ACSII码范围内(0~127)。不在范围内的不作统计。 输入描述: 输入N个字符,字符在ACSII码范围内。 输出描述: 输出范围在(0~127)字符的个数。 ''' strin=input().split()[0] output=0 pred=[] for ch in strin: flag=True ...
Python 统计字符个数
输入一行字符,分别统计出其中英文字母,数字,空格,其它字符的个数。 num = raw_input() num = list(num) n = 0 m = 0 v = 0 for i in num:     if i == ' ':         n += 1     if i.isdigit():         m += 1     if i.isalpha():
流畅的 Python - 3. 文本与字节
对于字符串,我们接触得挺多的。而编码问题,也不时令人头疼的。 由于一开始接触的就是 Python3,所以一些在 Python2 上的编码上的坑我没遇到,甚至在 Python3 上都很少遇到编码问题,因为 Python3 默认的编码是 utf-8,而之前又从 Windows 转到了 Arch,编码问题已经很少遇到了。 不过还是要重新认识一下...
如何 获取 字符串 中的 一段 字符啊
20020060516rnrnrnrn这是一个字符串。。现在不是 XML 文件里的。。rnrnrn我想获取 200 中的 200 怎么获取呢 ~~
js 获取 字符串中 特定 字符的 个数
例如 123124241wfw,sfew3543542,1242412rnrnrn我想获取 这组 字符串中 【 ,】号的 个数rnrnrn用js 得出
获取字符串中某字符出现个数
public static int strAppearTimes(String regex, String replacement) { if (regex == null || replacement == null) { return 0; } else { if (replacement.length() == 0 || regex.length() &amp;lt; replacement.len...
socket程序中read字节个数与write字节个数不同
客户端从文件读取数据发送到服务端。每一次发送和接收数据均一致,但是最后一次发送中,服务端read返回的数据个数与客户端write的数据个数不等。。。rnrn客户端代码:rn[code=C/C++]rn367 while((len = read(fd,buffer,MAXSIZE))) //send filern368 rn369 printf("len = %d\n",len);rn370 printf("buffer:%s\n",buffer);rn371 write(*pPeerfd,(void *)buffer,len);rn372 memset(buffer,'\0',MAXSIZE);rn373 size += len;rn374 if(len < MAXSIZE)rn375 break;rn376 rn[/code]rnrn服务端代码:rn[code=C/C++]rnwhile((len = read(*pfd,buffer,MAXSIZE)))rn188 rn189 printf("len=%d\n",len);rn190 if(len == -1)rn191 rn192 printf("read error!!\n");rn193 exit(0);rn194 rn195 printf("buffer:%s\n",buffer);rn196 write(fd,buffer,len);rnrn[/code]
如何从文本获取指定的字符
晚安,各位父老弟兄姊妹!rn.......................遇到了难题,请各位豪杰伸出援助之手!rn项目难点:从指定的文本获取特定字符rnrn项目Demo:rntxt:rn项目记录条数|总金额rnabc|efg|hij|klmn|opqrst|u|v|www|xyy|zzzzzzzzzz|rnabc2|efg2|hij2|klm2|opqrs2|u2|v2|www2|xyy2|zzzzzzzzzz2|rn......rn......rnabc3|efg|hij|klmn|opqrst|u|v|www|xyy|zzzzzzzzzz4|rnabc4|efg2|hij2|klm2|opqrs2|u2|v2|www2|xyy2|zzzzzzzzzz4|rn我该如何循环读取(第二行以后)指定位置的信息字符比如(abc,klmn,u,zzzzz...)rnrn请问如何实现!
使用python统计字符串中的字符个数。
要求定义函数countchar()统计字符串中所有出现的字母的个数(允许输入大写字符,并且计数时不区分大小写)。输入格式: 字符串输出格式: 列表输入样例: Hello, World!输出样例: [0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 3, 0, 0, 2, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0]代码块代码块语法遵循标准markdown代
Python中统计输入字符的个数
Python中这个功能主要使用了count()这个函数,具体实现代码如下:content = input(&quot;请输入一串字符串:&quot;) res = {} for i in content: res[i] = content.count(i) print(res)
统计字符串中的字符个数 python编程
问题描述: 题目内容: 定义函数countchar()按字母表顺序统计字符串中所有出现的字母的个数(允许输入大写字符,并且计数时不区分大小写)。形如:   def countchar(string):       ... ...      return a list if __name__ == &quot;__main__&quot;:      string = input()      ......
python 统计字符串中的字符个数
题目内容:定义函数countchar()按字母表顺序统计字符串中所有出现的字母的个数(允许输入大写字符,并且计数时不区分大小写)。形如:def countchar(str):      ... ...     return a listif __name__ == &quot;__main__&quot;:     str = input()     ... ...     print(countchar(str))...
python之统计字符串中的字符个数
1.贴题 题目来自MOOC 《用Python玩转数据》(南京大学) 第三周编程作业 定义函数countchar()按字母表顺序统计字符串中所有出现的字母的个数(允许输入大写字符,并且计数时不区分大小写)。形如: def countchar(str): ... ... return a list if __name__ == &quot;__main__&quot;: ...
Oracle获取指定字符个数
获取指定字符的个数=========&amp;gt;&amp;gt; SELECT length('12312,2434,kjk33 ,jew,12342,')-length(replace('12312,2434,kjk33 ,jew,12342,',',','')) FROM dual;
怎么获取输入缓冲区字符的个数?
我想请教大家一个问题,怎么获取输入缓冲区字符的个数,不要用定义字符数组接收字符的方法,有没有对缓冲区直接读取字符个数的函数?
字符个数统计(华为机试,Python)
题目描述 编写一个函数,计算字符串中含有的不同字符的个数。字符在ASCII范围内。不再范围内的不做统计。 输入/输出描述 输入描述:输入N个字符,字符在ASCII范围内。 输出描述:输出不同字符的个数。 输入样例: adb 输出样例: 3 代码展示 """ 编写一个函数,计算字符串中含有的不同字符的个数。字符在ASCII范围内。不再范围内的不做统计。 ...
计蒜客 统计字符个数 --Python
输入一行字符,分别统计出其中英文字母,数字,空格,其它字符的个数。输入格式输入一行字符输出格式输出为一行,分别输出英文字母,数字,空格,其它字符的个数,用空格分隔样例输入 aklsjflj123 sadf918u324 asdf91u32oasdf/.’;123 样例输出 23 16 2 4 s = input() c = 0 n = 0 space = 0 other = 0for i i
python统计不同字符个数
  #python121页,4.2,2018,11,6 n=input(&quot;请输入一行字符:&quot;) a=b=c=d=0 for i in n:     if ord('a')&amp;lt;=ord(i)&amp;lt;=ord('z') or ord('A')&amp;lt;=ord(i)&amp;lt;=ord('Z'):         a=a+1     elif ord('0')&amp;lt;=ord(i)&amp;lt;=ord(...
在文本域中如何选定字符啊??
想通过编程在文本域里选定几个特定的字符,(就是鼠标拖动选中那样的)rn查了一下API,好象可用的函数有:rnJTextField.select();rn但是用了之后没效果,rn请高手指教。
文本中单词个数
在给定的txt文本中查找给定的单词个数,属于c++实现。
如何统计字符个数?
在一个memo中,如何取得用户输入的字符的个数??如输入:rnrnrnrn 我是中国人,,“”,"",+123rnrn则应该得到17个字符,请问该如何写这样的函数啊??rnrn谢谢!!
如何统计字符个数
例如,在abcdefabcda中统计a出现的次数,谢谢!给20分
python获取文本网页
Urllib 模块提供了读取web页面数据的接口,我们可以像读取本地文件一样读取www和ftp上的数据。首先,我们定义了一个getHtml()函数:   urllib.urlopen()方法用于打开一个URL地址。   read()方法用于读取URL上的数据,向getHtml()函数传递一个网址,并把整个页面下载下来。执行程序就会把整个网页打印输出。 代码如下: #coding=utf-8
字符文本中的字符太多
调试时显示这行 [color=#FF0000]
相关热词 c#入门推荐书 c# 解码海康数据流 c# xml的遍历循环 c# 取 查看源码没有的 c#解决高并发 委托 c#日期转化为字符串 c# 显示问号 c# 字典对象池 c#5.0 安装程序 c# 分页算法