[size=medium]请教一下大家,我想做一个系统页面抓取系统,这个功能就是可以把我这内网局域网的
其他正运行着的web系统的某个链接得到以后可以把该页面的显示的表格等数据内容抓取出来并显示在我的
系统页面上,相当于可以是个系统功能结果的汇集吧。
不知道采取什么样的技术实现,需要用到搜索引擎的爬虫技术吗??望有经验者赐教!感谢![/size]
[b]问题补充:[/b]
[size=small]我只是想知道我这样的需求,是否需要采用搜索引擎技术?还是单独获取每个页面的HTML然后解析HTML就可以呢?[/size]
[b]问题补充:[/b]
[size=medium]MASHUP需要每个需要柔和的系统提供相应的API,我这里还有一些老系统,难道要对每个系统都进行适应性的改造吗?不太现实啊,可能我需要的只是每个系统页面的结果HTML信息提取再重新重组吧,如何实现呢?[/size]