在该限制下，如何使用最短代码的java实现该词频统计

#!/usr/bin/env python
import re, sys, collections

stops = open(’../stop_words.txt’).read().split(’,’)

words = re.findall(’[a-z]{2,}’, open(sys.argv[1]).read().lower())

counts = collections.Counter(w for w in words if w not in stops)

for (w, c) in counts.most_common(25):

print w, ’-’, c

上述示例代码为python版本的词频统计。功能如下：
导入stopwords和源文件，之后进行统计并输出。

问题：使用尽可能少的java代码来实现相同的功能，尽可能的调用函数

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

threenewbee 2019-10-13 09:30

关注

文件输入的功能你自己实现下，别的完全改写了。

import java.util.HashMap;
import java.util.regex.*;
import java.util.Map;
import java.util.*;

class HelloWorld {
    public static void main(String []args) {
        String s = "someone says: hello world! hello, this website hello the people this is the java language.";
        Pattern pattern = Pattern.compile("[a-z]{2,}");
        Matcher matcher = pattern.matcher(s);
        Map<String, Integer> map = new HashMap<>();
        while (matcher.find()) {
            String word = matcher.group(0).toLowerCase();
            if(!map.containsKey(word))
            {
                map.put(word, 1);
            }
            else
            {
                int times = map.get(word) + 1;
                map.remove(word);
                map.put(word, times);
            }
        }

        //System.out.println(map);
        List<Map.Entry<String, Integer>> list = new ArrayList<Map.Entry<String, Integer>>(map.entrySet());
        list.sort(new Comparator<Map.Entry<String, Integer>>() {
          @Override
          public int compare(Map.Entry<String, Integer> o1, Map.Entry<String, Integer> o2) {
              return o2.getValue().compareTo(o1.getValue());
          }
      });
        for (Map.Entry<String, Integer> mapping : list){
            System.out.println(mapping.getKey()+" - "+mapping.getValue());
        }    
    }
}

hello - 3
the - 2
this - 2
website - 1
world - 1
java - 1
someone - 1
is - 1
language - 1
says - 1
people - 1

报告相同问题？

关注问题

java实现迷宫问题 java 有问必答
2021-06-13 10:33

回答 2 已采纳 /** * @author cuiods */ public class MazeCell { private int x; private int y; private
Java 和 C 语言在内存使用和速度上有多少差别？ c语言 java
2021-04-10 21:13

回答 1 已采纳 java代码我在博文贴了，可以参考一下《如何在64m内存的运行环境下，靠Java完成旅游规划问题》,https://blog.csdn.net/BEYONDMA/article/details/115
Java语言迷宫鼠详解 java
2022-06-08 17:50

回答 1 已采纳 java实现老鼠迷宫游戏_小小寂寞的城的博客-CSDN博客_老鼠迷宫java 最近学java,在递归部分看到老鼠迷宫游戏,感觉挺有意思,记
Java实现哈夫曼编码与解码
2022-02-08 20:55

HairLossException的博客 Huffman于1952年提出一种编码方法，该方法完全依据字符出现概率来构造异字头的平均长度最短的码字，有时称之为最佳编码，一般就叫做Huffman编码（有时也称为霍夫曼编码）。思路分析以压缩字符串为例 1、计算各个...
空指针异常 java.lang，如何解决？ java 算法
2023-03-14 11:22

回答 4 已采纳你看下这篇博客吧, 应该有用👉 ：java中的空指针异常
这个保留小数为什么运行报错啊还有为什么JAVA保留个小数都这么磨叽找了好几种方法就这个最短哭了 java
2022-05-26 08:54

回答 2 已采纳 d没传进去，还有类名、包名最好不要用汉字哈 public static void main(String[] args) { double d = 3.1415926;
蚁群算法寻找最短路径的问题 java
2016-03-21 04:28

回答 2 已采纳 TSP问题本质和城市间最短路径寻优问题一样，都是求两个点的最优路径，这种问题你要把这些实际数据想成是图的操作 http://www.cnblogs.com/biaoyu/archive/2012/0
python词频统计_用Python实现一个词频统计(词云+图）
2020-11-21 01:07

weixin_39608394的博客在电脑cmd后台下载安装如下工具：（有一些是安装好python电脑自带有哦）有一些会出现一种情况就是安装不了词云展示库有下面解决方法，需看请复制链接查看：https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud第...
求java笔试面试题目大神们 java
2017-09-08 08:00

回答 4 已采纳 http://download.csdn.net/download/zy841958835/9913574
求最短哈密尔顿回路怎么实现？ c++ java 算法
2015-01-07 10:28

回答 2 已采纳参考：http://zhidao.baidu.com/link?url=z6bWEi7X6DVMTYXYi-nAxUD26klYLPcH2_n5XQNzL6rID2MlmPa-7Ws5AOaNqscH
使用正则表达式在数组中查找某个值的最短代码？ php
2014-01-08 15:46

回答 2 已采纳 <?php $items = [ 'whatever', 'something else', 'foobar' ]; $matches = preg_grep
java实现二叉排序统词频_无敌！全面对标字节跳动2-2：算法与数据结构突击手册(leetcode)...
2021-03-08 18:15

柳子元的博客 m*n矩阵口之字形打印 m*n矩阵口从右上角到左下角打印 n*n 矩阵口从左上角到右下角打印 n*n矩阵概率两强相遇概率蚂蚁碰头随机函数随机01 随机数组打印海量数据哈希函数 Map-Reduce 词频统计——哈希表词频...
使用Astar找最短路径 c++ mfc
2022-07-08 11:00

回答 1 已采纳 https://github.com/daancode/a-star，可以参考这个项目如有帮助，请采纳，谢谢。
Huffman压缩的Java实现
2021-05-01 17:28

WhaleFallWjl的博客 Huffman压缩的Java实现一、Huffman编码编码动机编码树编码反编码二、Java实现简单说下Java文件的读取和写入（一）压缩读写文件类的选取统计字频建立编码树，生成编码生成压缩文件（二）解压缩读写文件...
哈夫曼编码细解& Java 实现
2021-10-26 13:01

爱编程的小旦的博客该方法完全依据字符出现概率来构造异字头的平均长度最短的码字，有时称之为最佳编码，一般就叫做Huffman编码（有时也称为霍夫曼编码）简单来说，若在一个字符串中，知道每个字母各自出现的频率，通过将出现频率较...
没有解决我的问题, 去提问

悬赏问题

¥20 ML307A在使用AT命令连接EMQX平台的MQTT时被拒绝
¥20 腾讯企业邮箱邮件可以恢复么
¥15 有人知道怎么将自己的迁移策略布到edgecloudsim上使用吗？
¥15 错误 LNK2001 无法解析的外部符号
¥50 安装pyaudiokits失败
¥15 计组这些题应该咋做呀
¥60 更换迈创SOL6M4AE卡的时候，驱动要重新装才能使用，怎么解决？
¥15 让node服务器有自动加载文件的功能
¥15 jmeter脚本回放有的是对的有的是错的
¥15 r语言蛋白组学相关问题

码龄粉丝数原力等级 --

在该限制下，如何使用最短代码的java实现该词频统计

1条回答默认最新

码龄粉丝数原力等级 --

悬赏问题

在该限制下，如何使用最短代码的java实现该词频统计

1条回答 默认 最新

悬赏问题

1条回答默认最新