懒回顾,半缘君 2021-11-10 09:06 采纳率: 50%
浏览 17

python数据分析的项目,请指点

这是要求:

用自己的姓名或学号新建一个文件夹,在文件夹中新建一个文本文件“111.txt”。

从网上复制网页中的文章( 网 址:http://www.xinhuanet.com/2021-09/13/c_1127858064.htm%EF%BC%89%E2%80%9D%E4%B8%AD%E7%9A%84%E6%96%87%E6%9C%AC%E5%86%85%E5%AE%B9%E4%BF%9D%E5%AD%98%E5%88%B0%E2%80%9C111.txt%E2%80%9D%E4%B8%AD%E3%80%82

将“111.txt”文件中的内容的中文提取到“222.txt”文档中(使用 re方法)。

使用 jieba 对提取的中文文档(222.txt)进行分词处理,并统计出现频率最高的前 100 个。

使用 wordcloud 和 matplotlib.pyplot
方法对“222.txt”中的分词制作分词云图,并保存为“分词云图 1.png”。

使用“222.txt”中出现频率最高的前 10 个词语,制作条形图,X 轴对应10 个词语,y
轴对应每个词语的频率值,保存成“条形图 2.png”。

请指点,我是一点头绪也没有,不知道从哪里开始学,也不知道怎么构建整个程序

  • 写回答

1条回答 默认 最新

  • 喂猪吃鸡腿 2021-11-10 09:34
    关注

    一:
    先看看python的文件操作,

      https://www.runoob.com/python3/python3-file-methods.html
      open('a','111.txt'): # 写入txt
    

    二:
    看正则

    https://www.runoob.com/python3/python3-reg-expressions.html (正则教程)
    https://c.runoob.com/front-end/854/(正则测试)
    

    三:
    后面的jieba,wordcloud ,matplotlib.pyplot是python 的第三方库,你直接搜索库的教程,csdn上一大堆新手教程

    评论

报告相同问题?

问题事件

  • 修改了问题 11月13日
  • 创建了问题 11月10日

悬赏问题

  • ¥15 速帮,学校需要在外上班没空
  • ¥15 人在外地出差,速帮一点点
  • ¥15 如何使用canvas在图片上进行如下的标注,以下代码不起作用,如何修改
  • ¥15 Windows 系统cmd后提示“加载用户设置时遇到错误”
  • ¥50 vue router 动态路由问题
  • ¥15 关于#.net#的问题:End Function
  • ¥15 无法import pycausal
  • ¥15 VS2022创建MVC framework提示:预安装的程序包具有对缺少的注册表值的引用
  • ¥15 weditor无法连接模拟器Local server not started, start with?
  • ¥20 6-3 String类定义