kickfick123 2019-04-11 13:59 采纳率: 100%
浏览 384
已结题

百度爬来的人名的网页,如何更有效的清洗和提取?有没有什么好的逻辑?

最近再做个小项目,需要按人名在百度里爬下来网页,再综合起来,形成这个人的摘要。这些人的相关信息都是只言片语,散落在各个网页。现在遇到了一些问题:

1、如果把整个html的文本取出来,很多信息是无用的。
2、如果只取含有人名的句子,有可能后面有很多内容都与人名相关。
3、如果按照段落来取,很多段落在html里都是被切开成一句一句的,甚至标点符号都被切开。
4、如果网页包含人名的简介,但通常都是与人名的标签或简介等字样的标签分开的,这部分不好提取出来,怎么办?

有没有什么好的思路?

  • 写回答

1条回答 默认 最新

  • Yajun-Z 2019-04-11 14:22
    关注

    可是想做类似于人物画像一样的功能?还是大而全的那种?

    如果是我来问你几个问题:
    1. 同名的怎么处理,机器能识别吗?
    2. 不同的网站结构完全不一样,爬虫怎么写?(涵盖你问题的1.2.3.4)
    3. 大量重复内容怎么合并?

    我的问题是有前提的:大而全。如果在这个前提下,我认为你的问题针对个人或小团体来说无解,对大公司也是个麻烦事。

    有一个替代方案是:小而精。找到几个知名或常用的目标站点,针对几个站点分别写爬虫,最后做综合,即使如此,你还要解决问题1和3

    评论

报告相同问题?

悬赏问题

  • ¥15 有赏,i卡绘世画不出
  • ¥15 如何用stata画出文献中常见的安慰剂检验图
  • ¥15 c语言链表结构体数据插入
  • ¥40 使用MATLAB解答线性代数问题
  • ¥15 COCOS的问题COCOS的问题
  • ¥15 FPGA-SRIO初始化失败
  • ¥15 MapReduce实现倒排索引失败
  • ¥15 ZABBIX6.0L连接数据库报错,如何解决?(操作系统-centos)
  • ¥15 找一位技术过硬的游戏pj程序员
  • ¥15 matlab生成电测深三层曲线模型代码