Nutsh 2010-06-25 22:09
浏览 510
已采纳

[小说内容]爬虫爬下来的数据,如何进行分析

小说内容存在文件里

写道
第**章 标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章 标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章 标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章 标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章 标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章 标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

 
要分析出来 然后分出 章节 标题 正文 三个字段保存......


小弟思路受阻,求各位大牛不吝赐教,给出我一个解决思路或者方案.
THX!

 

  • 写回答

1条回答 默认 最新

  • xanpeng 2010-06-26 00:02
    关注

    内容简单的话, 可能的话, 用正则表达式, 或者如果有特定样式的话, 最好根据样式来提取
    如果页面内容复杂, 又没有特定的HTML格式声明, 我觉得基本上不可能做到完全自动化的提取.

    本回答被题主选为最佳回答 , 对您是否有帮助呢?
    评论

报告相同问题?

悬赏问题

  • ¥15 为啥画版图在Run DRC会出现Connect Error?可我Calibre的hostname和计算机的hostname已经设置成一样的了。
  • ¥20 网站后台使用极速模式非常的卡
  • ¥20 Keil uVision5创建project没反应
  • ¥15 mmseqs内存报错
  • ¥15 vika文档如何与obsidian同步
  • ¥15 华为手机相册里面的照片能够替换成自己想要的照片吗?
  • ¥15 陆空双模式无人机飞控设置
  • ¥15 sentaurus lithography
  • ¥100 求抖音ck号 或者提ck教程
  • ¥15 关于#linux#的问题:子进程1等待子进程A、B退出后退出(语言-c语言)