m0_51796621 2023-07-17 20:34 采纳率: 0%
浏览 59
已结题

一个50G的数据集该如何用聚类算法处理

我需要对一个50G的数据(纯文本)进行聚类处理,想问问大概需要多长时间。
另外,有没有什么办法(比如租服务器、分段读入、用一个高端算法之类的)在保证一定质量的情况下能尽可能提快建模的速度(什么方法都可以!当然这些我都不会,希望解惑)
本人只用过高斯混合聚类,且之前只试过几个MB的数据集。
希望能详细一点点,没有详细代码也希望能放个链接或者有关文献之类的。

  • 写回答

12条回答 默认 最新

  • threenewbee 2023-07-17 20:40
    关注
    获得1.80元问题酬金

    搞一个二手的x79服务器主板,带16个内存槽的(200-300元),2块普通的服务器cpu(比如2690,25一块),买16条16GB的DDR3服务器条,每条25,400元,组成256GB,以上不到1000块钱。事实证明,与其编程上琢磨怎么弄算法,不如来个暴力狠活,内存足够大,一次性读取处理。

    评论

报告相同问题?

问题事件

  • 系统已结题 7月25日
  • 创建了问题 7月17日

悬赏问题

  • ¥15 校内二手商品转让网站
  • ¥20 高德地图聚合图层MarkerCluster聚合多个点,但是ClusterData只有其中部分数据,原因应该是有经纬度重合的地方点,现在我想让ClusterData显示所有点的信息,如何实现?
  • ¥100 求Web版SPC控制图程序包调式
  • ¥20 指导如何跑通以下两个Github代码
  • ¥15 大家知道这个后备文件怎么删吗,为啥这些文件我只看到一份,没有后备呀
  • ¥15 C++为什么这个代码没报错运行不出来啊
  • ¥15 一道ban了很多东西的pyjail题
  • ¥15 关于#r语言#的问题:如何将生成的四幅图排在一起,且对变量的赋值进行更改,让组合的图漂亮、美观@(相关搜索:森林图)
  • ¥15 C++识别堆叠物体异常
  • ¥15 微软硬件驱动认证账号申请