目前是杭州某研一新生入学一个多月,项目组是做自然语言处理和计算社会学的。导师给我的课题大致概括是“全球科学家流动性分析”。里面关键的一个步骤是,我需要识别一段语料中,是否有科学家发生了地理位置上的变换,从哪里出发到达了哪里。
我现在是跟着机器学习的课学到了RNN,CNN,LSTM,word2vec,bert这些模型,底层的数学原理没有深究,只停留在会用的阶段。
目前想到的解决方案是用双向LSTM+CRF的模型,先人工的给语料中的“人名”,“动词”,“地名”打上标签,再模型训练,再用模型去预测新的语料中是否存在标签。
比如这个语料里我用brat这个上标签的软件打上了四种标签,希望模型训练完以后能够预测标签,之后再做处理。
(我们组里都是做英文语料,这个中文的我是用来举例)