医疗知识图谱数据清洗部分
“基于中文电子病历的医疗知识图谱研究”中的数据处理部分 将半结构化的html格式的电子病历文件进行数据清洗转化为结构化的xml文件
-
ChangeFileFolders:把html文件按照科室文件夹分类
-
HtmlToTxt:把html文件转为txt文件,对于病程记录只保留首次病程记录
-
TxtPreprocess:对txt数据进行清洗,格式处理;按照";"和"。"进行分句。
- 病程记录:病例特点+初步诊断+诊疗计划(病例特点中的查体去掉)
- 出院小结:入院情况+入院诊断+诊疗经过+出院诊断+出院情况+出院医嘱
-
TxtToXml:把清洗后的txt文件转化为xml文件
-
PickEntRel:在病程记录和出院小结的文件夹中挑选出实体文件.xml.ent和实体关系文件.xml.rel
-
RelProcess:标记后的实体关系文件.xml.rel中为实体组之间的关系 把实体组之间关系转为实体之间关系
-
CountEntRel:统计出院小结和病程记录的实体、实体修饰和实体关系数量
如上
- 因为去掉了“诊断及依据”这一项,导致某些诊断丢失,“初步诊断”里就为空
- 分句时,由于电子病历撰写格式不规范,会把原本一个句子分成好几个句子 比如。在“”里面时会分成两个句子: 患者因“纳差、全身浮肿2天。”入院。 变成: 患者因“纳差、全身浮肿2天。 ”入院。
- 对于这两个问题暂时是人工