kickfick123 2019-04-11 13:59 采纳率: 100%
浏览 384
已结题

百度爬来的人名的网页,如何更有效的清洗和提取?有没有什么好的逻辑?

最近再做个小项目,需要按人名在百度里爬下来网页,再综合起来,形成这个人的摘要。这些人的相关信息都是只言片语,散落在各个网页。现在遇到了一些问题:

1、如果把整个html的文本取出来,很多信息是无用的。
2、如果只取含有人名的句子,有可能后面有很多内容都与人名相关。
3、如果按照段落来取,很多段落在html里都是被切开成一句一句的,甚至标点符号都被切开。
4、如果网页包含人名的简介,但通常都是与人名的标签或简介等字样的标签分开的,这部分不好提取出来,怎么办?

有没有什么好的思路?

  • 写回答

1条回答 默认 最新

  • Yajun-Z 2019-04-11 14:22
    关注

    可是想做类似于人物画像一样的功能?还是大而全的那种?

    如果是我来问你几个问题:
    1. 同名的怎么处理,机器能识别吗?
    2. 不同的网站结构完全不一样,爬虫怎么写?(涵盖你问题的1.2.3.4)
    3. 大量重复内容怎么合并?

    我的问题是有前提的:大而全。如果在这个前提下,我认为你的问题针对个人或小团体来说无解,对大公司也是个麻烦事。

    有一个替代方案是:小而精。找到几个知名或常用的目标站点,针对几个站点分别写爬虫,最后做综合,即使如此,你还要解决问题1和3

    评论

报告相同问题?

悬赏问题

  • ¥15 oracle集群安装出bug
  • ¥15 关于#python#的问题:自动化测试
  • ¥20 问题请教!vue项目关于Nginx配置nonce安全策略的问题
  • ¥15 教务系统账号被盗号如何追溯设备
  • ¥20 delta降尺度方法,未来数据怎么降尺度
  • ¥15 c# 使用NPOI快速将datatable数据导入excel中指定sheet,要求快速高效
  • ¥15 再不同版本的系统上,TCP传输速度不一致
  • ¥15 高德地图2.0 版本点聚合中Marker的位置无法实时更新,如何解决呢?
  • ¥15 DIFY API Endpoint 问题。
  • ¥20 sub地址DHCP问题