起个马甲好困难 2010-12-16 14:36
浏览 209
已采纳

如何将Html文本转换成不含控制标签或脚本的纯文本?

毕业设计需要爬取一些网站的博客文章,然后对这些文章的标题、内容、日期等有用信息放到数据库中,同时用Lucene对它们添加索引。

这样问题就来了,因为我用爬虫爬到的是整个HTML文件,里头包含了很多对我来说没用的信息,如HTML的头部、各种标签、脚本等,这些都是应该去掉的,否则不仅数据库要占用大量空间,而且Lucene也会将这些没用的信息也添加索引。这是不应该的。

同时还有一些特殊的控制符如 ,
等,这些都应该相应地转化成空格、逗号和回车换行等,然后才可以保存到数据库中。

请问Java(其它语言也行)有没有类似的方法,或者有没有现成的软件能实现这种功能?

谢谢。。。。

  • 写回答

1条回答 默认 最新

  • weixin_42532992 2010-12-16 17:51
    关注

    用 htmlparser 吧!

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 程序不包含适用于入口点的静态Main方法
  • ¥15 素材场景中光线烘焙后灯光失效
  • ¥15 请教一下各位,为什么我这个没有实现模拟点击
  • ¥15 执行 virtuoso 命令后,界面没有,cadence 启动不起来
  • ¥50 comfyui下连接animatediff节点生成视频质量非常差的原因
  • ¥20 有关区间dp的问题求解
  • ¥15 多电路系统共用电源的串扰问题
  • ¥15 slam rangenet++配置
  • ¥15 有没有研究水声通信方面的帮我改俩matlab代码
  • ¥15 ubuntu子系统密码忘记