最近小菜鸟在使用Python爬虫的过程中遇到一些问题,我想爬取一些老师的简历,并提取其中的关键字文本,如姓名、职称。
在一个简历网址中匹配出来可以,但是如果想在多个简历网址中匹配出这些关键字应该怎么做呢。我爬取到了60个网址,在这些网址中的关键字位置不一定相同,请问怎样做到批量匹配?
还请各位前辈不吝赐教。
如两种不同情况,一种是较规范的标好了关键字:姓名:黄xx
性别:男
职称:教授
专业:档案学
E-mailxxxxxx@126.com
博士生导师
还有一种不太规范,未标明关键字:
王xx,1966年生,山东沂南人。xx历史学院教授(二级岗位)、博士生导师。南开大学、临沂大学、陕西师范大学等多所高校兼职研究员、兼职教授。请问应该如何适应情况呢。