lalei615 2011-10-19 09:23
浏览 335
已采纳

新手提问,做一个Web 文本挖掘 开源程序的选择 Heritrix? WebLech? Web-Harvest?......

[size=large]我以前是学嵌入式的,本专业还没学深呢,导师让搞数据挖掘,还是Web的文本挖掘......

要做一个小项目,比如同仁、协和、301之类的知名医院,把他们的主任医师的信息爬下来,分类为内科、儿科、耳鼻喉...... 然后按姓名、出生年月,毕业院校,擅长治疗方向,和大体的介绍分门别类的抽取、入库,然后搞个展示界面显示出来,方便患者选择。

个人感觉像我这样的新手,本身在程序方面悟性又差,时间又紧,自己从头写代码估计会被导师吃了,都怕所里不让我毕业了,心里很焦虑啊。

在open-open上看到了十几个开源项目,不知道选哪个好?Heritrix? WebLech? Web-Harvest? 其他的? 或者就不该从open-open的开源程序里选?

请有空理会这个没有营养的烂帖的好心前辈们根据[color=blue]新手易上手,开发门槛低,能满足我前面说的项目要求[/color]的角度给个推荐!

太谢谢了!![/size]

  • 写回答

4条回答 默认 最新

  • aini3456 2011-10-21 09:57
    关注

    jsoup 是一个java操作html的类库
    [url]www.jsoup.org[/url]
    有例子的
    jsoup的引用 直接把jsoup.jar拷贝到myeclipse中的项目目录下的web-inf/lib/下就可以了

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论
查看更多回答(3条)

报告相同问题?

悬赏问题

  • ¥15 HFSS 中的 H 场图与 MATLAB 中绘制的 B1 场 部分对应不上
  • ¥15 如何在scanpy上做差异基因和通路富集?
  • ¥20 关于#硬件工程#的问题,请各位专家解答!
  • ¥15 关于#matlab#的问题:期望的系统闭环传递函数为G(s)=wn^2/s^2+2¢wn+wn^2阻尼系数¢=0.707,使系统具有较小的超调量
  • ¥15 FLUENT如何实现在堆积颗粒的上表面加载高斯热源
  • ¥30 截图中的mathematics程序转换成matlab
  • ¥15 动力学代码报错,维度不匹配
  • ¥15 Power query添加列问题
  • ¥50 Kubernetes&Fission&Eleasticsearch
  • ¥15 報錯:Person is not mapped,如何解決?