最近在做课题
想用neo4j图数据库搞个基于论文关系出来的文章推荐系统出来 基本思路是用论文的DOI编号与引用论文DOI编号 确定论文间的关系引用关系用来连接两个节点关系。但预处理部分卡壳了 我发现虽然通过代码可以把被引用论文DOI抽出来但是抽出来的数据是单独保存的这样就不能确定他被哪篇论文引用了。详细看代码:
import pandas as pd
import numpy as np
import re
pd.set_option('display.max_columns', None)
pd.set_option('display.expand_frame_repr',False)
data =pd.read_csv(r'E:\tushujv\savedrecs.csv')
#引用论文的列
cr= data['CR']
for i in cr:
i=i.split(',')
print(i)
for j in i :
if 'DOI' in j:
j=re.findall(".*DOI(.*);.*",j)
for m in j:
print(m)
打印出来的是下面的形式:
10.1109/ICASSP.2012.6288864
10.1109/ICCV.2015.13
10.1016/j.patcog.2016.12.005
10.1109/CVPR.2014.259
10.1142/S0218001493000339
10.1016/j.patcog.2016.01.027
10.1109/ICCV.2015.338
10.1109/CVPR.2015.7299020
10.1016/j.asoc.2015.06.048
如果这样的话我怎么这些DOI编码 是被哪篇论文引用的呢?
原始 论文数据 上面代码可以把作者名字 时间日期 之类的删除抽取出DOI但是完全按顺序排列的 与原本的论文关系不匹配了。现在希望可以匹配知道这些DOI是被哪篇论文引用的。希望获得解答 我自己弄好几天了 头疼。不知道怎么搞。