百度爬来的人名的网页，如何更有效的清洗和提取？有没有什么好的逻辑？

最近再做个小项目，需要按人名在百度里爬下来网页，再综合起来，形成这个人的摘要。这些人的相关信息都是只言片语，散落在各个网页。现在遇到了一些问题：

1、如果把整个html的文本取出来，很多信息是无用的。
2、如果只取含有人名的句子，有可能后面有很多内容都与人名相关。
3、如果按照段落来取，很多段落在html里都是被切开成一句一句的，甚至标点符号都被切开。
4、如果网页包含人名的简介，但通常都是与人名的标签或简介等字样的标签分开的，这部分不好提取出来，怎么办？

有没有什么好的思路？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

1条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Yajun-Z 2019-04-11 14:22
关注
可是想做类似于人物画像一样的功能？还是大而全的那种？

如果是我来问你几个问题：
1. 同名的怎么处理，机器能识别吗？
2. 不同的网站结构完全不一样，爬虫怎么写？（涵盖你问题的1.2.3.4）
3. 大量重复内容怎么合并？

我的问题是有前提的：大而全。如果在这个前提下，我认为你的问题针对个人或小团体来说无解，对大公司也是个麻烦事。

有一个替代方案是：小而精。找到几个知名或常用的目标站点，针对几个站点分别写爬虫，最后做综合，即使如此，你还要解决问题1和3

解决无用
评论打赏
分享
举报

评论

按下Enter换行，Ctrl+Enter发表内容

报告相同问题？

关注问题

悬赏问题

¥15 有赏，i卡绘世画不出
¥15 如何用stata画出文献中常见的安慰剂检验图
¥15 c语言链表结构体数据插入
¥40 使用MATLAB解答线性代数问题
¥15 COCOS的问题COCOS的问题
¥15 FPGA-SRIO初始化失败
¥15 MapReduce实现倒排索引失败
¥15 ZABBIX6.0L连接数据库报错，如何解决？(操作系统-centos)
¥15 找一位技术过硬的游戏pj程序员
¥15 matlab生成电测深三层曲线模型代码

百度爬来的人名的网页，如何更有效的清洗和提取？有没有什么好的逻辑？

1条回答 默认 最新

悬赏问题

1条回答默认最新