NLP 文本信息提取,跪求各位大佬给个思路。

图片说明
如图所示,第一列是商品信息,从里面提取出五维信息:品名,数量,单位,规格,品牌。图里面的结果是利用正则化的想法去做的。

现在先用NLP的一些方法做,没有接触过NLP,跪求各位大佬给个思路。

sjyttkl
Terry_dong 这可以考虑使用 命名题识别,
4 个月之前 回复

2个回答

现在先用NLP的一些方法做,没有接触过NLP,跪求各位大佬给个思路

你是要抽取什么,对于专业的名词直接用NER实体识别,关键字提取就TF-IDF呗

Csdn user default icon
上传中...
上传图片
插入图片
抄袭、复制答案,以达到刷声望分或其他目的的行为,在CSDN问答是严格禁止的,一经发现立刻封号。是时候展现真正的技术了!
其他相关推荐
如何用NLP把文本的数据结构化提取出来?
如提供N个病历,识别是否有高血压,糖尿病,如何用NLP技术直接生成一个数据集,一行表示一个病人,有高血压就是1,没有就是0
CNN文本特征提取后,如何将最终提取的特征向量输出?
打算对问津以句为单位进行分类预测,词向量组成句子特征矩阵,利用testcnn对矩阵进行处理提取句子的特征向量,所以请问各位大佬,如何将cnn所提取的最终特征向量提取出来?
NLP 文本相似度匹配应如何设计流程
本人是nlp小白,目前做评测,对设计流程不是很懂 评测描述: 给出一个txt文本,里面有500个样本 每3个为一组 样本1. A1, B1, C1 样本2. A2, B2, C2 样本3. A3, B3, C3 ... 样本500. A4, B4, C4 给出训练集保证 Similarities(A, B) > Similarities(A, C) A和B 的相似度 > A和B 的相似度 要求训练一个模型 用于测试集 来求出每一列 AB 和 AC 哪个相似度更高 目前baseline是用jieba 对测集进行了处理,然后转换成list 然后将 整个数据集用tfidfvectorizer 训练 tfidf_model = TfidfVectorizer(token_pattern=r"(?u)\b\w+\b").fit(data) 将每一行的A B C 转化成矩阵 a= sparse_result = tfidf_model.transform(A ) b= sparse_result = tfidf_model.transform(B) c= sparse_result = tfidf_model.transform(C ) 分别把 矩阵a 和 b c 相加对比 v1 = np.sum(np.dot(a, np.transpose(b))) v2 = np.sum(np.dot(a, np.transpose(c))) 目前没有什么设计思路 求大神指点!
NLP文本相似度 余弦相似度和Jaccard相似度的算法
请问各路大神,我刚开始接触NLP,老师让我们自学人类语言的相似性度量 我研究了naive的不加权的余弦相似度和Jaccard相似度 老师要求我们研究他们的算法,由于我算法太渣,知道运算原理但是总结不出算法 请哪位大神能够指点一下,告诉我这两个算法的伪代码怎么弄,谢啦
跪求各位大侠帮忙解决LDA代码问题,小妹感激不尽!
我在网上找到了yangliuy提供的LDA Gibbs Sampling 的JAVA实现源码,但它是针对英文文档的。我在他的基础上,把英文文档换成已经分词的中文文档,并把停用词换成中文的,但运行时老是有问题。 **LdaGibbsSampling代码如下:** package liuyang.nlp.lda.main; import java.io.File; import java.io.IOException; import java.util.ArrayList; import liuyang.nlp.lda.com.FileUtil; import liuyang.nlp.lda.conf.ConstantConfig; import liuyang.nlp.lda.conf.PathConfig; /**Liu Yang's implementation of Gibbs Sampling of LDA * @author yangliu * @blog http://blog.csdn.net/yangliuy * @mail yangliuyx@gmail.com */ public class LdaGibbsSampling { public static class modelparameters { float alpha = 0.5f; //usual value is 50 / K float beta = 0.1f;//usual value is 0.1 int topicNum = 100; int iteration = 100; int saveStep = 10; int beginSaveIters = 50; } /**Get parameters from configuring file. If the * configuring file has value in it, use the value. * Else the default value in program will be used * @param ldaparameters * @param parameterFile * @return void */ private static void getParametersFromFile(modelparameters ldaparameters, String parameterFile) { // TODO Auto-generated method stub ArrayList<String> paramLines = new ArrayList<String>(); FileUtil.readLines(parameterFile, paramLines); for(String line : paramLines){ String[] lineParts = line.split("\t"); switch(parameters.valueOf(lineParts[0])){ case alpha: ldaparameters.alpha = Float.valueOf(lineParts[1]); break; case beta: ldaparameters.beta = Float.valueOf(lineParts[1]); break; case topicNum: ldaparameters.topicNum = Integer.valueOf(lineParts[1]); break; case iteration: ldaparameters.iteration = Integer.valueOf(lineParts[1]); break; case saveStep: ldaparameters.saveStep = Integer.valueOf(lineParts[1]); break; case beginSaveIters: ldaparameters.beginSaveIters = Integer.valueOf(lineParts[1]); break; } } } public enum parameters{ alpha, beta, topicNum, iteration, saveStep, beginSaveIters; } /** * @param args * @throws IOException */ public static void main(String[] args) throws IOException { // TODO Auto-generated method stub String originalDocsPath = PathConfig.ldaDocsPath; String resultPath = PathConfig.LdaResultsPath; String parameterFile= ConstantConfig.LDAPARAMETERFILE; modelparameters ldaparameters = new modelparameters(); getParametersFromFile(ldaparameters, parameterFile); Documents docSet = new Documents(); docSet.readDocs(originalDocsPath); System.out.println("wordMap size " + docSet.termToIndexMap.size()); FileUtil.mkdir(new File(resultPath)); LdaModel model = new LdaModel(ldaparameters); System.out.println("1 Initialize the model ..."); model.initializeModel(docSet); System.out.println("2 Learning and Saving the model ..."); model.inferenceModel(docSet); System.out.println("3 Output the final model ..."); model.saveIteratedModel(ldaparameters.iteration, docSet); System.out.println("Done!"); } } **Documents代码如下:** package liuyang.nlp.lda.main; import java.io.File; import java.util.ArrayList; import java.util.HashMap; import java.util.Map; import java.util.regex.Matcher; import java.util.regex.Pattern; import liuyang.nlp.lda.com.FileUtil; import liuyang.nlp.lda.com.Stopwords; /**Class for corpus which consists of M documents * @author yangliu * @blog http://blog.csdn.net/yangliuy * @mail yangliuyx@gmail.com */ public class Documents { ArrayList<Document> docs; Map<String, Integer> termToIndexMap; ArrayList<String> indexToTermMap; Map<String,Integer> termCountMap; public Documents(){ docs = new ArrayList<Document>(); termToIndexMap = new HashMap<String, Integer>(); indexToTermMap = new ArrayList<String>(); termCountMap = new HashMap<String, Integer>(); } public void readDocs(String docsPath){ for(File docFile : new File(docsPath).listFiles()){ Document doc = new Document(docFile.getAbsolutePath(), termToIndexMap, indexToTermMap, termCountMap); docs.add(doc); } } public static class Document { private String docName; int[] docWords; public Document(String docName, Map<String, Integer> termToIndexMap, ArrayList<String> indexToTermMap, Map<String, Integer> termCountMap){ this.docName = docName; //Read file and initialize word index array ArrayList<String> docLines = new ArrayList<String>(); ArrayList<String> words = new ArrayList<String>(); FileUtil.readLines(docName, docLines); for(String line : docLines){ FileUtil.tokenizeAndLowerCase(line, words); } //Remove stop words and noise words for(int i = 0; i < words.size(); i++){ if(Stopwords.isStopword(words.get(i)) || isNoiseWord(words.get(i))){ words.remove(i); i--; } } //Transfer word to index this.docWords = new int[words.size()]; for(int i = 0; i < words.size(); i++){ String word = words.get(i); if(!termToIndexMap.containsKey(word)){ int newIndex = termToIndexMap.size(); termToIndexMap.put(word, newIndex); indexToTermMap.add(word); termCountMap.put(word, new Integer(1)); docWords[i] = newIndex; } else { docWords[i] = termToIndexMap.get(word); termCountMap.put(word, termCountMap.get(word) + 1); } } words.clear(); } public boolean isNoiseWord(String string) { // TODO Auto-generated method stub string = string.toLowerCase().trim(); Pattern MY_PATTERN = Pattern.compile(".*[a-zA-Z]+.*"); Matcher m = MY_PATTERN.matcher(string); // filter @xxx and URL if(string.matches(".*www\\..*") || string.matches(".*\\.com.*") || string.matches(".*http:.*") ) return true; if (!m.matches()) { return true; } else return false; } } } **FileUtil代码如下:** package liuyang.nlp.lda.com; import java.util.*; import java.util.regex.Matcher; import java.util.regex.Pattern; import java.io.*; public class FileUtil { public static void readLines(String file, ArrayList<String> lines) { BufferedReader reader = null; try { reader = new BufferedReader(new FileReader(new File(file))); String line = null; while ((line = reader.readLine()) != null) { lines.add(line); } } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } finally { if (reader != null) { try { reader.close(); } catch (IOException e) { e.printStackTrace(); } } } } public static void writeLines(String file, HashMap<?, ?> hashMap) { BufferedWriter writer = null; try { writer = new BufferedWriter(new FileWriter(new File(file))); Set<?> s = hashMap.entrySet(); Iterator<?> it = s.iterator(); while (it.hasNext()) { Map.Entry m = (Map.Entry) it.next(); writer.write(m.getKey() + "\t" + m.getValue() + "\n"); } } catch (Exception e) { e.printStackTrace(); } finally { if (writer != null) { try { writer.close(); } catch (IOException e) { e.printStackTrace(); } } } } public static void writeLines(String file, ArrayList<?> counts) { BufferedWriter writer = null; try { writer = new BufferedWriter(new FileWriter(new File(file))); for (int i = 0; i < counts.size(); i++) { writer.write(counts.get(i) + "\n"); } } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } finally { if (writer != null) { try { writer.close(); } catch (IOException e) { e.printStackTrace(); } } } } public static void writeLines(String file, ArrayList<String> uniWordMap, ArrayList<Integer> uniWordMapCounts) { BufferedWriter writer = null; try { writer = new BufferedWriter(new FileWriter(new File(file))); for (int i = 0; i < uniWordMap.size() || i < uniWordMapCounts.size(); i++) { writer.write(uniWordMap.get(i) + "\t" + uniWordMapCounts.get(i) + "\n"); } } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } finally { if (writer != null) { try { writer.close(); } catch (IOException e) { e.printStackTrace(); } } } } @SuppressWarnings("unchecked") public static void writeLinesSorted(String file, ArrayList<?> uniWordMap, ArrayList<?> uniWordMapCounts, int flag) { // flag = 0 decreasing order otherwise increasing HashMap map = new HashMap(); if (uniWordMap.size() != uniWordMapCounts.size()) { System.err.println("Array sizes are not equal!!! Function returned."); } else { for (int i = 0; i < uniWordMap.size(); i++) { map.put(uniWordMap.get(i), uniWordMapCounts.get(i)); } map = (HashMap<String, Integer>) ComUtil.sortByValue(map, flag); writeLines(file, map); map.clear(); } } public static void tokenize(String line, ArrayList<String> tokens) { StringTokenizer strTok = new StringTokenizer(line); while (strTok.hasMoreTokens()) { String token = strTok.nextToken(); tokens.add(token); } } public static void print(ArrayList<?> tokens) { for (int i = 0; i < tokens.size(); i++) { System.out.print(tokens.get(i) + " "); } System.out.print("\n"); } // HashMap Operations public static void printHash(HashMap<String, Integer> hashMap) { Set<?> s = hashMap.entrySet(); Iterator<?> it = s.iterator(); while (it.hasNext()) { Map.Entry m = (Map.Entry) it.next(); System.out.println(m.getKey() + "\t" + m.getValue()); } } public static ArrayList<String> getHashMap(HashMap<?, ?> hm) { ArrayList<String> a = new ArrayList<String>(); Set<?> s = hm.entrySet(); Iterator<?> it = s.iterator(); while (it.hasNext()) { Map.Entry m = (Map.Entry) it.next(); a.add(m.getKey() + "\t" + m.getValue()); } return a; } public static String getKeysFromValue(HashMap<Integer, String> hm, String value) { Set<?> s = hm.entrySet(); // Move next key and value of HashMap by iterator Iterator<?> it = s.iterator(); while (it.hasNext()) { // key=value separator this by Map.Entry to get key and value Map.Entry m = (Map.Entry) it.next(); if (m.getValue().equals(value)) return m.getKey() + ""; } System.err.println("Error, can't find the data in Hashmap!"); return null; } public static void readHash(String type_map, HashMap<String, String> typeMap) { ArrayList<String> types = new ArrayList<String>(); ArrayList<String> tokens = new ArrayList<String>(); if (type_map != null) { readLines(type_map, types); for (int i = 0; i < types.size(); i++) { if (!types.get(i).isEmpty()) { FileUtil.tokenize(types.get(i), tokens); if (tokens.size() != 0) { if (tokens.size() != 2) { for (int j = 0; j < tokens.size(); j++) { System.out.print(tokens.get(j) + " "); } System.err .println(type_map + " Error ! Not two elements in one line !"); return; } if (!typeMap.containsKey(tokens.get(0))) typeMap.put(tokens.get(0), tokens.get(1)); else { System.out.println(tokens.get(0) + " " + tokens.get(1)); System.err.println(type_map + " Error ! Same type in first column !"); return; } } tokens.clear(); } } } } public static void readHash2(String type_map, HashMap<String, Integer> hashMap) { ArrayList<String> types = new ArrayList<String>(); ArrayList<String> tokens = new ArrayList<String>(); if (type_map != null) { readLines(type_map, types); for (int i = 0; i < types.size(); i++) { if (!types.get(i).isEmpty()) { FileUtil.tokenize(types.get(i), tokens); if (tokens.size() != 0) { if (tokens.size() != 2) { for (int j = 0; j < tokens.size(); j++) { System.out.print(tokens.get(j) + " "); } System.err .println(type_map + " Error ! Not two elements in one line !"); return; } if (!hashMap.containsKey(tokens.get(0))) hashMap.put(tokens.get(0), new Integer(tokens.get(1))); else { System.out.println(tokens.get(0) + " " + tokens.get(1)); System.err.println(type_map + " Error ! Same type in first column !"); return; } } tokens.clear(); } } } } public static void readHash3(String type_map, HashMap<String, Integer> hashMap) { ArrayList<String> types = new ArrayList<String>(); ArrayList<String> tokens = new ArrayList<String>(); if (type_map != null) { readLines(type_map, types); for (int i = 0; i < types.size(); i++) { if (!types.get(i).isEmpty()) { FileUtil.tokenize(types.get(i), tokens); if (tokens.size() != 0) { if (tokens.size() < 2) { for (int j = 0; j < tokens.size(); j++) { System.out.print(tokens.get(j) + " "); } System.err .println(type_map + " Error ! Not two elements in one line !"); return; } String key = tokens.get(0); String value = tokens.get(tokens.size() - 1); for (int no = 1; no < tokens.size() - 1; no++) { key += " " + tokens.get(no); } if (!hashMap.containsKey(key)) hashMap.put(key, new Integer(value)); else { System.out.println(key + " " + value); System.err.println(type_map + " Error ! Same type in first column !"); return; } } tokens.clear(); } } } } /** * Create a directory by calling mkdir(); * * @param dirFile */ public static void mkdir(File dirFile) { try { // File dirFile = new File(mkdirName); boolean bFile = dirFile.exists(); if (bFile == true) { System.err.println("The folder exists."); } else { System.err .println("The folder do not exist,now trying to create a one..."); bFile = dirFile.mkdir(); if (bFile == true) { System.out.println("Create successfully!"); } else { System.err .println("Disable to make the folder,please check the disk is full or not."); } } } catch (Exception err) { System.err.println("ELS - Chart : unexpected error"); err.printStackTrace(); } } public static void mkdir(File file, boolean b) { if(b) {// true delete first deleteDirectory(file); mkdir(file); } else { mkdir(file); } } /** * * @param path * @return */ static public boolean deleteDirectory(File path) { if (path.exists()) { File[] files = path.listFiles(); for (int i = 0; i < files.length; i++) { if (files[i].isDirectory()) { deleteDirectory(files[i]); } else { files[i].delete(); } } } return (path.delete()); } /** * List files in a given directory * * */ static public String[] listFiles(String inputdir) { File dir = new File(inputdir); String[] children = dir.list(); if (children == null) { // Either dir does not exist or is not a directory } else { for (int i = 0; i < children.length; i++) { // Get filename of file or directory String filename = children[i]; } } return children; } /** * List files in a given directory * * */ static public String[] listFilteredFiles(String inputdir, final String filterCondition) { File dir = new File(inputdir); String[] children = dir.list(); // It is also possible to filter the list of returned files. // This example does not return any files that start with `.'. FilenameFilter filter = new FilenameFilter() { public boolean accept(File dir, String name) { return name.endsWith(filterCondition); } }; children = dir.list(filter); return children; } /** * List files recursively in a given directory * * */ static public void listFilesR() { File dir = new File("directoryName"); String[] children = dir.list(); // The list of files can also be retrieved as File objects File[] files = dir.listFiles(); // This filter only returns directories FileFilter fileFilter = new FileFilter() { public boolean accept(File file) { return file.isDirectory(); } }; files = dir.listFiles(fileFilter); } /** * Frequently used functions * */ static public int count(String a, String contains) { int i = 0; int count = 0; while (a.contains(contains)) { i = a.indexOf(contains); a = a.substring(0, i) + a.substring(i + contains.length(), a.length()); count++; } return count; } public static void print(String[] files) { for (int i = 0; i < files.length; i++) { System.out.print(files[i] + " "); } System.out.print("\n"); } public static void print(int[] c1) { for (int i = 0; i < c1.length; i++) { System.out.print(c1[i] + " "); } System.out.println(); } public static void test() { String a = "fdsfdsaf"; a += "\nfdsaf fd fd"; a += "\nfd sf fd fd\n"; System.out.println(a); a = a.replaceAll("\n+", " "); System.out.println(a); System.exit(0); } public static void readHash(String type_map, HashMap<String, String> typeMap, boolean flag) { ArrayList<String> types = new ArrayList<String>(); ArrayList<String> tokens = new ArrayList<String>(); if(type_map != null) { readLines(type_map, types); for (int i = 0; i < types.size(); i++) { if (!types.get(i).isEmpty()) { FileUtil.tokenize(types.get(i), tokens); if(tokens.size() != 0) { if (tokens.size() != 2) { for(int j = 0; j < tokens.size(); j++) { System.out.print(tokens.get(j)+" "); } System.err .println(type_map + " Error ! Not two elements in one line !"); return; } String tokens0 = ""; String tokens1 = ""; if(flag) { tokens0 = tokens.get(0).trim(); tokens1 = tokens.get(1).trim(); } else { tokens0 = tokens.get(1).trim(); tokens1 = tokens.get(0).trim(); } if (!typeMap.containsKey(tokens0)) typeMap.put(tokens0, tokens1); else { System.err.println(tokens0 + " " + tokens1); System.err .println(type_map + " Ignore this one ! Same type in first column !"); } } tokens.clear(); } } } } public static String filter4tokenization(String inputstring) { // inputstring = "fds fds Won't won't can't Can't ain't"; // aggregate common tokenization error inputstring = inputstring.replaceAll("(?i)won't", "will not"); inputstring = inputstring.replaceAll("(?i)can't", "can not"); inputstring = inputstring.replaceAll("(?i)shan't", "shall not"); inputstring = inputstring.replaceAll("(?i)ain't", "am not"); return inputstring; } public static void tokenizeAndLowerCase(String line, ArrayList<String> tokens) { // TODO Auto-generated method stub StringTokenizer strTok = new StringTokenizer(line); while (strTok.hasMoreTokens()) { String token = strTok.nextToken(); tokens.add(token.toLowerCase().trim()); } } } 运行结果显示:The folder exists. wordMap size 0 1 Initialize the model ... 2 Learning and Saving the model ... Iteration 0 Iteration 1 Iteration 2 Saving model at iteration 80 ... Exception in thread "main" java.lang.IndexOutOfBoundsException: Index: 0, Size: 0 at java.util.ArrayList.rangeCheck(ArrayList.java:604) at java.util.ArrayList.get(ArrayList.java:382) at liuyang.nlp.lda.main.LdaModel.saveIteratedModel(LdaModel.java:228) at liuyang.nlp.lda.main.LdaModel.inferenceModel(LdaModel.java:102) at liuyang.nlp.lda.main.LdaGibbsSampling.main(LdaGibbsSampling.java:89)。 请问是什么原因呢?
Stanford NLP或者其他NLP能不能根据文本生成问题,求指教
例如文本是:浣熊体长在42-60厘米之间,它们的脚觉发达,经常用前爪捕食和吃食,使用前爪几乎同猴子一样灵活。 希望生成类似下面的问题: 浣熊体长多少 浣熊怎样捕食 浣熊前爪灵活吗
如何用python对英文文本进行分句?
刚入门nlp,最近需要设计一个文本分句工具,本来以为很简单,但是想了一下需要考虑的问题很多,因为英文的句号容易和小数点,人名地名缩写,省略号等等混淆。尤其在句号前后没有空格的情况下,感觉很难准确判定英文句号处是否需要进行断句。我现在的思路就是列举所有可能的情况(小数点,缩写),对每一个句号的上下文进行检查,用正则表达式判断是否为句号,再进行分句。但是这样做有两个问题:一是可能发生歧义的情况很难列举wan,二是类似于“my age is 13.13 is my age." 这种句子单纯依靠规则很难识别。我之前使用的是nltk的sent__tokenize方法,但是这个工具没有办法处理句号前后无空格的情况。所以想问一下大佬们一般在对文本分句的时候是怎么做的?
怎样实现对短文本的主题分析?python3实现
NLP新手求问 python3实现对短文本的主题分类,就是文本要匹配的目标主题我已经限定了某几类, 目标是把很多短文本区分出来是属于哪个或者哪几个主题,用LDA主题模型做过,但效果不好,好像是不能限定主题的,所以区分出来的东西都不知道属于哪个主题。 希望能得到的结果是:每个短文本对每个主题都有对应的相关程度,类似于推荐模型的相似度,然后根据需要选取相似程度较高的主题进行归类,不知道能不能实现,望论坛里面能有大神赐教。 由于数据涉及保密性,只需要大神们提供方法思路和实现的python库就好,就此谢过
哪位大神可以指教一下叨叨记账应用的底层原理?
关于叨叨记账已知: 1. 从使用经验来看,肯定是有一个众包的语料库 2. 通过关键字来检索语料库进行回复 3. 并非传统意义上的chatbot,一方面,用户无法提问;另一方面,用户的回复并不会激发角色的二次回复 问题:既然没有实现交互,那底层实现需要进行自然语言理解、情感分析或者机器学习吗?仅仅只是关键字匹配然后检索知识库吗?(我只是个刚刚开始研究NLP的小白,如果哪里说错了还请多多指教)
Python怎么删除文本中的所有标点符号?
想要把一大段中文文本中所有的标点符号删除掉,然后分词制作语料库使用,大神们有没有办法呢?或者哪位大神有中文语料库给个链接好不好?我想做新闻的文本相似度分析,提取关键词的时候需要语料库。 谢谢大神们~~~~~
zeromq 服务端多线程在数据量大一点的情况下出现问题,跪求大神解答
zeromq 服务端开启了20个线程,客服端会发送6000个请求过来; 在处理1000个请求的时候,速度很快,一口气就跑完了, 在处理一千到三千的请求的时候,中间总是停一会,跑一会, 到了三千以后停的时间越来越长,到四千左右就不动了. 有时候会报"gc开销过大",调了gc之后.还是没有多大的作用, 但是呢:当我把服务端的线程只开启一个的时候,就能顺利跑完, 下面是服务端的代码 ``` /** * 多线程 NLP 服务器 */ public class mtserver { /*默认为20个NLP线程*/ static Integer WORKERNUM = 20; private static class HeronlpWorker extends Thread { private ZContext context; private MyUncaughtExceptionhandler myUncaughtException; public void setMyUncaughtException(MyUncaughtExceptionhandler myUncaughtException) { this.myUncaughtException = myUncaughtException; } private HeronlpWorker(ZContext context) { this.context = context; } @Override public void run() { Socket socket = context.createSocket(SocketType.REP); myUncaughtException.setSkt(socket); socket.connect("inproc://workers"); HeroNLP heroNLP = new HeroNLP(); String result = null; String msgType = ""; while (true) { try { //接收命令 String command = socket.recvStr(0).trim(); System.out.println(Thread.currentThread().getName() + " Received request: [" + command + "]"); String content = null; switch (command){ //分词 case "SEGMENT": content = socket.recvStr(0).trim(); List<Term> terms = NLP.segment(content); result = listToString(terms, " "); break; default: while (socket.hasReceiveMore()){ socket.recvStr(0).trim(); } result = "FAILED: 未匹配到命令!"; break; } } catch (Exception e) { result = "FAILED:" + e.getMessage(); } // 给客户端返回结果(C字符串) System.out.println("是否有异常: " + result.contains("FAILED:")); if(result.contains("FAILED:")){ msgType = "FAILED"; } socket.send(msgType, 2); socket.send(result, 0); } } } public static void main(String[] args) { try (ZContext context = new ZContext()) { //前端--router Socket clients = context.createSocket(SocketType.ROUTER); boolean bind = clients.bind("tcp://*:9002"); //后端--dealer Socket workers = context.createSocket(SocketType.DEALER); workers.bind("inproc://workers"); //后端启动20个服务线程 for (int thread_nbr = 0; thread_nbr < WORKERNUM; thread_nbr++) { Thread nlpworker = new HeronlpWorker(context); MyUncaughtExceptionhandler myUncaughtExceptionhandler = new MyUncaughtExceptionhandler(); ((HeronlpWorker) nlpworker).setMyUncaughtException(myUncaughtExceptionhandler); nlpworker.setUncaughtExceptionHandler(myUncaughtExceptionhandler); nlpworker.start(); } ZMQ.proxy(clients, workers, null); } } ```
使用gesim.downloader.load()加载数据集出现URLError
使用gesim.downloader.load()加载数据集出现URLError,入门小白,求大佬指示 代码: ``` import gensim.downloader as api model = api.load("glove-twitter-25") ``` 报错情况: ``` E:\Anaconda\lib\site-packages\gensim\utils.py:1197: UserWarning: detected Windows; aliasing chunkize to chunkize_serial warnings.warn("detected Windows; aliasing chunkize to chunkize_serial") Traceback (most recent call last): File "E:\Anaconda\lib\urllib\request.py", line 1317, in do_open encode_chunked=req.has_header('Transfer-encoding')) File "E:\Anaconda\lib\http\client.py", line 1229, in request self._send_request(method, url, body, headers, encode_chunked) File "E:\Anaconda\lib\http\client.py", line 1275, in _send_request self.endheaders(body, encode_chunked=encode_chunked) File "E:\Anaconda\lib\http\client.py", line 1224, in endheaders self._send_output(message_body, encode_chunked=encode_chunked) File "E:\Anaconda\lib\http\client.py", line 1016, in _send_output self.send(msg) File "E:\Anaconda\lib\http\client.py", line 956, in send self.connect() File "E:\Anaconda\lib\http\client.py", line 1384, in connect super().connect() File "E:\Anaconda\lib\http\client.py", line 928, in connect (self.host,self.port), self.timeout, self.source_address) File "E:\Anaconda\lib\socket.py", line 707, in create_connection for res in getaddrinfo(host, port, 0, SOCK_STREAM): File "E:\Anaconda\lib\socket.py", line 748, in getaddrinfo for res in _socket.getaddrinfo(host, port, family, type, proto, flags): socket.gaierror: [Errno 11004] getaddrinfo failed During handling of the above exception, another exception occurred: Traceback (most recent call last): File "C:/Users/lenovo/Desktop/NLP/test.py", line 113, in <module> model = api.load("glove-twitter-25") File "E:\Anaconda\lib\site-packages\gensim\downloader.py", line 411, in load _download(name) File "E:\Anaconda\lib\site-packages\gensim\downloader.py", line 287, in _download urllib.urlretrieve(url_load_file, init_path) File "E:\Anaconda\lib\urllib\request.py", line 247, in urlretrieve with contextlib.closing(urlopen(url, data)) as fp: File "E:\Anaconda\lib\urllib\request.py", line 222, in urlopen return opener.open(url, data, timeout) File "E:\Anaconda\lib\urllib\request.py", line 531, in open response = meth(req, response) File "E:\Anaconda\lib\urllib\request.py", line 641, in http_response 'http', request, response, code, msg, hdrs) File "E:\Anaconda\lib\urllib\request.py", line 563, in error result = self._call_chain(*args) File "E:\Anaconda\lib\urllib\request.py", line 503, in _call_chain result = func(*args) File "E:\Anaconda\lib\urllib\request.py", line 755, in http_error_302 return self.parent.open(new, timeout=req.timeout) File "E:\Anaconda\lib\urllib\request.py", line 525, in open response = self._open(req, data) File "E:\Anaconda\lib\urllib\request.py", line 543, in _open '_open', req) File "E:\Anaconda\lib\urllib\request.py", line 503, in _call_chain result = func(*args) File "E:\Anaconda\lib\urllib\request.py", line 1360, in https_open context=self._context, check_hostname=self._check_hostname) File "E:\Anaconda\lib\urllib\request.py", line 1319, in do_open raise URLError(err) urllib.error.URLError: <urlopen error [Errno 11004] getaddrinfo failed> ```
nlp = spacy.blank("en") 这条语句是什么含义,为什么要用这条语句呢
在Python中这条语句的含义是什么呢,为什么要用这条语句呢? ``` import spacy nlp = spacy.blank("en") ```
做NLP的语义正负面判断,能够用CNN网络模型来做吗
做NLP的语义正负面判断,能够用CNN网络模型来做吗 做NLP的语义正负面判断,能够用CNN网络模型来做吗 做NLP的语义正负面判断,能够用CNN网络模型来做吗
新手用2层LSTM做NLP时遇到一个问题
本来是想把文章输入后,第一层lstm取每个句子的最后作为输出,输入到第二层的LSTM,但是这样一想,每篇文章句子数不一样,是不是要按句子padding,然后每个句子字数也不一样,还要按单词做padding,一下子感觉好蠢。请问有没有简单明了点的方法? 如果用句向量的话,是不是也要按句子padding?目前了解的句向量是相当于这句话的词向量的平均值,这样padding的句向量是一个[embedding size,1]的0矩阵吗?
python的nlp中,有没有给句子的完整性打分的模型?
请问在python中,有没有可以给汉语一句话的完整性(语义通顺)进行处理的,比如打分等
python利用jieba分词出现乱码问题,求指教
用一段新闻作分词,先用正则表达式去除标点符号re.sub(r,'',pos_news[0]),其中pos_news[0]是一段新闻。 print 之后是去除标点的一段新闻。 print " ".join(jieba.cut(re.sub(r,'',pos_news[0])))打出来乱码: 涵 閬 涓 婁簡 杩 欎 唤 鐙 壒 鐨 勭 ょ 墿 濞 绀 句 氬 悇 鐣 鍟 璧 蜂 簡 搴 鐑 堢 殑 鍙 但是如果直接print " ".join(jieba.cut(pos_news[0])) 是正常的分词后的新闻 “ 我 经常 和 孩子 们 说 , 要 记住 每 一个 帮助 过 我们 的 人 , 日后 有 能力 了 要 记得 报答 人家 ! ” 走访 结束 后 , 赵继 ( 化名 ) 母亲 的话 依然 在 e 租宝 志愿者 的 耳畔 回绕 。 不知道为什么我去除标点后分词就是乱码。。。NLP小白求指教!
Jar在spark-shell上运行报错:主类找不到
scala IntelliJ的项目,sbt打好包在spark-shell上运行后报错:主类找不到;使用了两个中文分词包(ansj_seg-2.0.8.jar,nlp-lang-0.3.jar),但是已经加入到 External libraries里去了;打包没问题,运行报错 ![![图片说明](https://img-ask.csdn.net/upload/201601/26/1453780626_723163.jpg)![图片说明](https://img-ask.csdn.net/upload/201601/26/1453780648_659305.jpg) spark-shell 提交命令: [gaohui@hadoop-1-2 test]$ spark-submit --master yarn --driver-memory 5G --num-executors 20 --executor-cores 16 --executor-memory 10G --conf spark.serializer=org.apache.spark.serializer.KryoSerializer --class NLP_V6.Nlp_test --jars /home/gaohui/test/NLP_v6_test.jar /home/gaohui/test/NLP_v6_test.jar 报错图片: ![图片说明](https://img-ask.csdn.net/upload/201601/26/1453780776_603750.jpg)
关于用gensim训练word2vec
求助各位大神,小弟最近在用python的gensim训练word2vec词向量, 发现速度比之前在tensorflow上训练快多了,而且只用到一句Word2Vec( )方法, 小弟对于这么轻松简单深感惶恐,请问各位大神用gensim训练词向量就这么简单吗 还有小弟觉得这个gensim训练出来的词向量效果一般,发现model有一个train( )方法, 求助各位大神这个方法具体应该怎么调用啊!!!
终于明白阿里百度这样的大公司,为什么面试经常拿ThreadLocal考验求职者了
点击上面↑「爱开发」关注我们每晚10点,捕获技术思考和创业资源洞察什么是ThreadLocalThreadLocal是一个本地线程副本变量工具类,各个线程都拥有一份线程私有的数
程序员必须掌握的核心算法有哪些?
由于我之前一直强调数据结构以及算法学习的重要性,所以就有一些读者经常问我,数据结构与算法应该要学习到哪个程度呢?,说实话,这个问题我不知道要怎么回答你,主要取决于你想学习到哪些程度,不过针对这个问题,我稍微总结一下我学过的算法知识点,以及我觉得值得学习的算法。这些算法与数据结构的学习大多数是零散的,并没有一本把他们全部覆盖的书籍。下面是我觉得值得学习的一些算法以及数据结构,当然,我也会整理一些看过...
《奇巧淫技》系列-python!!每天早上八点自动发送天气预报邮件到QQ邮箱
此博客仅为我业余记录文章所用,发布到此,仅供网友阅读参考,如有侵权,请通知我,我会删掉。 补充 有不少读者留言说本文章没有用,因为天气预报直接打开手机就可以收到了,为何要多此一举发送到邮箱呢!!!那我在这里只能说:因为你没用,所以你没用!!! 这里主要介绍的是思路,不是天气预报!不是天气预报!!不是天气预报!!!天气预报只是用于举例。请各位不要再刚了!!! 下面是我会用到的两个场景: 每日下
死磕YOLO系列,YOLOv1 的大脑、躯干和手脚
YOLO 是我非常喜欢的目标检测算法,堪称工业级的目标检测,能够达到实时的要求,它帮我解决了许多实际问题。 这就是 YOLO 的目标检测效果。它定位了图像中物体的位置,当然,也能预测物体的类别。 之前我有写博文介绍过它,但是每次重新读它的论文,我都有新的收获,为此我准备写一个系列的文章来详尽分析它。这是第一篇,从它的起始 YOLOv1 讲起。 YOLOv1 的论文地址:https://www.c...
知乎高赞:中国有什么拿得出手的开源软件产品?(整理自本人原创回答)
知乎高赞:中国有什么拿得出手的开源软件产品? 在知乎上,有个问题问“中国有什么拿得出手的开源软件产品(在 GitHub 等社区受欢迎度较好的)?” 事实上,还不少呢~ 本人于2019.7.6进行了较为全面的回答,对这些受欢迎的 Github 开源项目分类整理如下: 分布式计算、云平台相关工具类 1.SkyWalking,作者吴晟、刘浩杨 等等 仓库地址: apache/skywalking 更...
20行Python代码爬取王者荣耀全英雄皮肤
引言 王者荣耀大家都玩过吧,没玩过的也应该听说过,作为时下最火的手机MOBA游戏,咳咳,好像跑题了。我们今天的重点是爬取王者荣耀所有英雄的所有皮肤,而且仅仅使用20行Python代码即可完成。 准备工作 爬取皮肤本身并不难,难点在于分析,我们首先得得到皮肤图片的url地址,话不多说,我们马上来到王者荣耀的官网: 我们点击英雄资料,然后随意地选择一位英雄,接着F12打开调试台,找到英雄原皮肤的图片...
简明易理解的@SpringBootApplication注解源码解析(包含面试提问)
欢迎关注文章系列 ,关注我 《提升能力,涨薪可待》 《面试知识,工作可待》 《实战演练,拒绝996》 欢迎关注我博客,原创技术文章第一时间推出 也欢迎关注公 众 号【Ccww笔记】,同时推出 如果此文对你有帮助、喜欢的话,那就点个赞呗,点个关注呗! 《提升能力,涨薪可待篇》- @SpringBootApplication注解源码解析 一、@SpringBootApplication 的作用是什...
西游记团队中如果需要裁掉一个人,会先裁掉谁?
2019年互联网寒冬,大批企业开始裁员,下图是网上流传的一张截图: 裁员不可避免,那如何才能做到不管大环境如何变化,自身不受影响呢? 我们先来看一个有意思的故事,如果西游记取经团队需要裁员一名,会裁掉谁呢,为什么? 西游记团队组成: 1.唐僧 作为团队teamleader,有很坚韧的品性和极高的原则性,不达目的不罢休,遇到任何问题,都没有退缩过,又很得上司支持和赏识(直接得到唐太宗的任命,既给袈...
Python语言高频重点汇总
Python语言高频重点汇总 GitHub面试宝典仓库 回到首页 目录: Python语言高频重点汇总 目录: 1. 函数-传参 2. 元类 3. @staticmethod和@classmethod两个装饰器 4. 类属性和实例属性 5. Python的自省 6. 列表、集合、字典推导式 7. Python中单下划线和双下划线 8. 格式化字符串中的%和format 9. 迭代器和生成器 10...
究竟你适不适合买Mac?
我清晰的记得,刚买的macbook pro回到家,开机后第一件事情,就是上了淘宝网,花了500元钱,找了一个上门维修电脑的师傅,上门给我装了一个windows系统。。。。。。 表砍我。。。 当时买mac的初衷,只是想要个固态硬盘的笔记本,用来运行一些复杂的扑克软件。而看了当时所有的SSD笔记本后,最终决定,还是买个好(xiong)看(da)的。 已经有好几个朋友问我mba怎么样了,所以今天尽量客观
程序员一般通过什么途径接私活?
二哥,你好,我想知道一般程序猿都如何接私活,我也想接,能告诉我一些方法吗? 上面是一个读者“烦不烦”问我的一个问题。其实不止是“烦不烦”,还有很多读者问过我类似这样的问题。 我接的私活不算多,挣到的钱也没有多少,加起来不到 20W。说实话,这个数目说出来我是有点心虚的,毕竟太少了,大家轻喷。但我想,恰好配得上“一般程序员”这个称号啊。毕竟苍蝇再小也是肉,我也算是有经验的人了。 唾弃接私活、做外
ES6基础-ES6的扩展
进行对字符串扩展,正则扩展,数值扩展,函数扩展,对象扩展,数组扩展。 开发环境准备: 编辑器(VS Code, Atom,Sublime)或者IDE(Webstorm) 浏览器最新的Chrome 字符串的扩展: 模板字符串,部分新的方法,新的unicode表示和遍历方法: 部分新的字符串方法 padStart,padEnd,repeat,startsWith,endsWith,includes 字...
Python爬虫爬取淘宝,京东商品信息
小编是一个理科生,不善长说一些废话。简单介绍下原理然后直接上代码。 使用的工具(Python+pycharm2019.3+selenium+xpath+chromedriver)其中要使用pycharm也可以私聊我selenium是一个框架可以通过pip下载 pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple/ 
阿里程序员写了一个新手都写不出的低级bug,被骂惨了。
你知道的越多,你不知道的越多 点赞再看,养成习惯 本文 GitHub https://github.com/JavaFamily 已收录,有一线大厂面试点思维导图,也整理了很多我的文档,欢迎Star和完善,大家面试可以参照考点复习,希望我们一起有点东西。 前前言 为啥今天有个前前言呢? 因为你们的丙丙啊,昨天有牌面了哟,直接被微信官方推荐,知乎推荐,也就仅仅是还行吧(心里乐开花)
Java工作4年来应聘要16K最后没要,细节如下。。。
前奏: 今天2B哥和大家分享一位前几天面试的一位应聘者,工作4年26岁,统招本科。 以下就是他的简历和面试情况。 基本情况: 专业技能: 1、&nbsp;熟悉Sping了解SpringMVC、SpringBoot、Mybatis等框架、了解SpringCloud微服务 2、&nbsp;熟悉常用项目管理工具:SVN、GIT、MAVEN、Jenkins 3、&nbsp;熟悉Nginx、tomca
Python爬虫精简步骤1 获取数据
爬虫的工作分为四步: 1.获取数据。爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。 2.解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。 3.提取数据。爬虫程序再从中提取出我们需要的数据。 4.储存数据。爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析。 这一篇的内容就是:获取数据。 首先,我们将会利用一个强大的库——requests来获取数据。 在电脑上安装
作为一个程序员,CPU的这些硬核知识你必须会!
CPU对每个程序员来说,是个既熟悉又陌生的东西? 如果你只知道CPU是中央处理器的话,那可能对你并没有什么用,那么作为程序员的我们,必须要搞懂的就是CPU这家伙是如何运行的,尤其要搞懂它里面的寄存器是怎么一回事,因为这将让你从底层明白程序的运行机制。 随我一起,来好好认识下CPU这货吧 把CPU掰开来看 对于CPU来说,我们首先就要搞明白它是怎么回事,也就是它的内部构造,当然,CPU那么牛的一个东
破14亿,Python分析我国存在哪些人口危机!
2020年1月17日,国家统计局发布了2019年国民经济报告,报告中指出我国人口突破14亿。 猪哥的朋友圈被14亿人口刷屏,但是很多人并没有看到我国复杂的人口问题:老龄化、男女比例失衡、生育率下降、人口红利下降等。 今天我们就来分析一下我们国家的人口数据吧! 更多有趣分析教程,扫描下方二维码关注vx公号「裸睡的猪」 即可查看! 一、背景 1.人口突破14亿 2020年1月17日,国家统计局发布
web前端javascript+jquery知识点总结
Javascript javascript 在前端网页中占有非常重要的地位,可以用于验证表单,制作特效等功能,它是一种描述语言,也是一种基于对象(Object)和事件驱动并具有安全性的脚本语言 ,语法同java类似,是一种解释性语言,边执行边解释。 JavaScript的组成: ECMAScipt 用于描述: 语法,变量和数据类型,运算符,逻辑控制语句,关键字保留字,对象。 浏览器对象模型(Br
Qt实践录:开篇
本系列文章介绍笔者的Qt实践之路。
在家远程办公效率低?那你一定要收好这个「在家办公」神器!
相信大家都已经收到国务院延长春节假期的消息,接下来,在家远程办公可能将会持续一段时间。 但是问题来了。远程办公不是人在电脑前就当坐班了,相反,对于沟通效率,文件协作,以及信息安全都有着极高的要求。有着非常多的挑战,比如: 1在异地互相不见面的会议上,如何提高沟通效率? 2文件之间的来往反馈如何做到及时性?如何保证信息安全? 3如何规划安排每天工作,以及如何进行成果验收? ......
作为一个程序员,内存和磁盘的这些事情,你不得不知道啊!!!
截止目前,我已经分享了如下几篇文章: 一个程序在计算机中是如何运行的?超级干货!!! 作为一个程序员,CPU的这些硬核知识你必须会! 作为一个程序员,内存的这些硬核知识你必须懂! 这些知识可以说是我们之前都不太重视的基础知识,可能大家在上大学的时候都学习过了,但是嘞,当时由于老师讲解的没那么有趣,又加上这些知识本身就比较枯燥,所以嘞,大家当初几乎等于没学。 再说啦,学习这些,也看不出来有什么用啊!
这个世界上人真的分三六九等,你信吗?
偶然间,在知乎上看到一个问题 一时间,勾起了我深深的回忆。 以前在厂里打过两次工,做过家教,干过辅导班,做过中介。零下几度的晚上,贴过广告,满脸、满手地长冻疮。   再回首那段岁月,虽然苦,但让我学会了坚持和忍耐。让我明白了,在这个世界上,无论环境多么的恶劣,只要心存希望,星星之火,亦可燎原。   下文是原回答,希望能对你能有所启发。   如果我说,这个世界上人真的分三六九等,
为什么听过很多道理,依然过不好这一生?
记录学习笔记是一个重要的习惯,不希望学习过的东西成为过眼云烟。做总结的同时也是一次复盘思考的过程。 本文是根据阅读得到 App上《万维钢·精英日课》部分文章后所做的一点笔记和思考。学习是一个系统的过程,思维模型的建立需要相对完整的学习和思考过程。以下观点是在碎片化阅读后总结的一点心得总结。
B 站上有哪些很好的学习资源?
哇说起B站,在小九眼里就是宝藏般的存在,放年假宅在家时一天刷6、7个小时不在话下,更别提今年的跨年晚会,我简直是跪着看完的!! 最早大家聚在在B站是为了追番,再后来我在上面刷欧美新歌和漂亮小姐姐的舞蹈视频,最近两年我和周围的朋友们已经把B站当作学习教室了,而且学习成本还免费,真是个励志的好平台ヽ(.◕ฺˇд ˇ◕ฺ;)ノ 下面我们就来盘点一下B站上优质的学习资源: 综合类 Oeasy: 综合
雷火神山直播超两亿,Web播放器事件监听是怎么实现的?
Web播放器解决了在手机浏览器和PC浏览器上播放音视频数据的问题,让视音频内容可以不依赖用户安装App,就能进行播放以及在社交平台进行传播。在视频业务大数据平台中,播放数据的统计分析非常重要,所以Web播放器在使用过程中,需要对其内部的数据进行收集并上报至服务端,此时,就需要对发生在其内部的一些播放行为进行事件监听。 那么Web播放器事件监听是怎么实现的呢? 01 监听事件明细表 名
3万字总结,Mysql优化之精髓
本文知识点较多,篇幅较长,请耐心学习 MySQL已经成为时下关系型数据库产品的中坚力量,备受互联网大厂的青睐,出门面试想进BAT,想拿高工资,不会点MySQL优化知识,拿offer的成功率会大大下降。 为什么要优化 系统的吞吐量瓶颈往往出现在数据库的访问速度上 随着应用程序的运行,数据库的中的数据会越来越多,处理时间会相应变慢 数据是存放在磁盘上的,读写速度无法和内存相比 如何优化 设计
一条链接即可让黑客跟踪你的位置! | Seeker工具使用
搬运自:冰崖的部落阁(icecliffsnet) 严正声明:本文仅限于技术讨论,严禁用于其他用途。 请遵守相对应法律规则,禁止用作违法途径,出事后果自负! 上次写的防社工文章里边提到的gps定位信息(如何防止自己被社工或人肉) 除了主动收集他人位置信息以外,我们还可以进行被动收集 (没有技术含量) Seeker作为一款高精度地理位置跟踪工具,同时也是社交工程学(社会工程学)爱好者...
作为程序员的我,大学四年一直自学,全靠这些实用工具和学习网站!
我本人因为高中沉迷于爱情,导致学业荒废,后来高考,毫无疑问进入了一所普普通通的大学,实在惭愧...... 我又是那么好强,现在学历不行,没办法改变的事情了,所以,进入大学开始,我就下定决心,一定要让自己掌握更多的技能,尤其选择了计算机这个行业,一定要多学习技术。 在进入大学学习不久后,我就认清了一个现实:我这个大学的整体教学质量和学习风气,真的一言难尽,懂的人自然知道怎么回事? 怎么办?我该如何更好的提升
前端JS初级面试题二 (。•ˇ‸ˇ•。)老铁们!快来瞧瞧自己都会了么
1. 传统事件绑定和符合W3C标准的事件绑定有什么区别? 传统事件绑定 &lt;div onclick=""&gt;123&lt;/div&gt; div1.onclick = function(){}; &lt;button onmouseover=""&gt;&lt;/button&gt; 注意: 如果给同一个元素绑定了两次或多次相同类型的事件,那么后面的绑定会覆盖前面的绑定 (不支持DOM事...
相关热词 c#怎么获得线程名 c# usb 采集器 c# csv 读取 c# sort() c# 关闭io流 c# 响应函数 插入 c#面对对象的三大特性 c# 打印 等比缩放 c#弹出右键菜单 c#1如何搞成01
立即提问