最近再做个小项目,需要按人名在百度里爬下来网页,再综合起来,形成这个人的摘要。这些人的相关信息都是只言片语,散落在各个网页。现在遇到了一些问题:
1、如果把整个html的文本取出来,很多信息是无用的。
2、如果只取含有人名的句子,有可能后面有很多内容都与人名相关。
3、如果按照段落来取,很多段落在html里都是被切开成一句一句的,甚至标点符号都被切开。
4、如果网页包含人名的简介,但通常都是与人名的标签或简介等字样的标签分开的,这部分不好提取出来,怎么办?
有没有什么好的思路?
最近再做个小项目,需要按人名在百度里爬下来网页,再综合起来,形成这个人的摘要。这些人的相关信息都是只言片语,散落在各个网页。现在遇到了一些问题:
1、如果把整个html的文本取出来,很多信息是无用的。
2、如果只取含有人名的句子,有可能后面有很多内容都与人名相关。
3、如果按照段落来取,很多段落在html里都是被切开成一句一句的,甚至标点符号都被切开。
4、如果网页包含人名的简介,但通常都是与人名的标签或简介等字样的标签分开的,这部分不好提取出来,怎么办?
有没有什么好的思路?
可是想做类似于人物画像一样的功能?还是大而全的那种?
如果是我来问你几个问题:
1. 同名的怎么处理,机器能识别吗?
2. 不同的网站结构完全不一样,爬虫怎么写?(涵盖你问题的1.2.3.4)
3. 大量重复内容怎么合并?
我的问题是有前提的:大而全。如果在这个前提下,我认为你的问题针对个人或小团体来说无解,对大公司也是个麻烦事。
有一个替代方案是:小而精。找到几个知名或常用的目标站点,针对几个站点分别写爬虫,最后做综合,即使如此,你还要解决问题1和3