入门新手,上百页的文档txt或pdf怎么快速提取。如'a'后面的n个字符、a、b之间的字符。用什么方法,速度快?
收起
这个只写一下个人思路,我知识有限,我的办法是:既然你提到你的文档数据量很大,那你可以每次只读取一部分,如果这部分出现了”a“,那就从这个”a“作为起点读取。因为我觉得你描述的问题不是你不会读取,而是因为你觉得一次性把一堆内容加载读取到内存中不太好。至于效率问题python就多用用封装好了东西吧比如正则,毕竟西语言写的比python切片应该快很多。
报告相同问题?