你好,准研二,下学期开题
毕设方向是知识图谱,导师希望可以做疫情推理,但这是今年新开的方向,现在收集到的数据有以下
本土病例
主要收集的特征就是:1.检测日期,2.检测报告为阳性日期,3.转至定点医院日期,4.确诊为患者日期,5.临床分型,6.居住地址,7.办公地址,8.职业,9.自述 真正比较完整的数据可能就50个以内
前面的数据集还有比较多,但后面数据很多特征都是空的(就只有编号,确诊为患者的时间,居住地址),也可能只有确诊为患者的时间
自述部分
无症状感染者
主要收集的特征就是:1.检测日期,2.检测报告为阳性日期,3.转至定点医院日期,4.确诊为感染者日期,5.临床分型,6.居住地址,7.办公地址,8.职业,9.自述
前面的数据集还有比较多,但后面数据集很多特征都是空的(就只有编号,确诊为感染者,居住地址)
境外输入
主要收集的特征就是:1.检测报告为阳性日期,2. 转至定点医院日期,3. 确诊为感染者日期,4. 临床分型,5.来源,6.国籍,7.抵京机场,8.抵达日期
这个数据相对完整,没有特征稀疏的情况。
做推理我思考的是
在构建数据集的时候,在思考如何把时间信息关联上,推理可能可以推理出某个确诊病例是由某个无症状感染者转成确诊的,由此可以补全部分信息 感觉这里的推理就像是规则匹配了(而且意义可能不大)
如何尽可能最大化特征,把居住地址分成好几维度,然后通过地址交集是不是可能推断出谁去过哪,但这里的信息太少,而且不知道自己现在 算监督学习还是无监督
关于部分有自述 想知道这个自述可以怎么利用上,自述太混乱了,有写什么时候去过哪,也有没写明时间去过哪,如何将这里的特征最大化,这样能否推理出 传染事件图,其中是不是需要使用上具体的地理位置(部分没有写完整地址 是不是想办法补全成一定格式的地址), 而且这里的数据稀疏性很大。 想着这里是不是可以使用聚类来大致推断某些人可能去过哪
境外输入的考虑是不是可以通过抵京时间和来源推理是否乘坐一趟飞机(可能意义也不大)
本科学的是广播,现在有点跨专业,代码能力有一定欠缺,研一之前看的一直是图神经网络,事件推理,和知识推理的综述
现在在看pytorch使用教程和GNN模型视频,想用图做知识推理,另外是否需要看看自然语言理解的部分(方便处理自述部分),请问对于可以做的有没有什么建议,有没有推荐的文章,需要学习的技术。 关于自己该从哪开始学习有点迷茫