问题是这样的:我在win7环境下用pynlpir对带有中文目录的文件是可以分词的,但是如果在ubuntu环境下,发现分词失败,尝试了几十次,在ubuntu环境下对带有中文路径的文件进行分词,发现无法分词,不知道这是不是一个bug。
下面是我的调用代码:
from pynlpir import *
#对文件进行分词
def splitFile2(sSrcFileName , sDstFileName):
if not nlpir.Init(nlpir.PACKAGE_DIR , nlpir.UTF8_CODE , None):
logging.INFO("初始化分词器失败")
return False
#如果路径是unicode字符串,需要转换为由utf-8编码的普通字符串
if isinstance(sSrcFileName , unicode):
sSrcFileName = sSrcFileName.encode("utf-8")
if isinstance(sDstFileName , unicode):
sDstFileName = sDstFileName.encode("utf-8")
result = nlpir.FileProcess(sSrcFileName , sDstFileName , False)
if result == 0:
sErrorInfo = "对文件:%s 分词失败" % sSrcFileName
print sErrorInfo
nlpir.Exit()
return True
def testSplit():
inName = u"/home/chaoma/superboard/中国/a.txt"
outName = u"/home/chaoma/superboard/中国/a_split.txt"
splitFile2(inName , outName)
testSplit()
输入文件为:/home/chaoma/superboard/中国/a.txt
a.txt中的内容如下
:3.34探索中点四边形中的关系。任意四边形ABCD中,四边的中点分别为E、F、G、H,连接EF、FG、GH、HE,并测量它们的长度,你发现了什么?量出图中∠1、∠2、∠3、∠4的角度,你又发现了什么?由此,你能得到什么猜想?。