毕业设计需要爬取一些网站的博客文章,然后对这些文章的标题、内容、日期等有用信息放到数据库中,同时用Lucene对它们添加索引。
这样问题就来了,因为我用爬虫爬到的是整个HTML文件,里头包含了很多对我来说没用的信息,如HTML的头部、各种标签、脚本等,这些都是应该去掉的,否则不仅数据库要占用大量空间,而且Lucene也会将这些没用的信息也添加索引。这是不应该的。
同时还有一些特殊的控制符如 ,
等,这些都应该相应地转化成空格、逗号和回车换行等,然后才可以保存到数据库中。
请问Java(其它语言也行)有没有类似的方法,或者有没有现成的软件能实现这种功能?
谢谢。。。。