Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
src/main/java		src/main/java
target/classes		target/classes
MedKnowGraphDataProcessing.iml		MedKnowGraphDataProcessing.iml
README.md		README.md
pom.xml		pom.xml

Repository files navigation

MedKnowGraphDataProcessing

医疗知识图谱数据清洗部分

项目含义

“基于中文电子病历的医疗知识图谱研究”中的数据处理部分将半结构化的html格式的电子病历文件进行数据清洗转化为结构化的xml文件

具体程序含义如下：

ChangeFileFolders：把html文件按照科室文件夹分类
HtmlToTxt：把html文件转为txt文件，对于病程记录只保留首次病程记录
TxtPreprocess：对txt数据进行清洗，格式处理；按照"；"和"。"进行分句。

病程记录：病例特点+初步诊断+诊疗计划（病例特点中的查体去掉）
出院小结：入院情况+入院诊断+诊疗经过+出院诊断+出院情况+出院医嘱

TxtToXml：把清洗后的txt文件转化为xml文件
PickEntRel：在病程记录和出院小结的文件夹中挑选出实体文件.xml.ent和实体关系文件.xml.rel
RelProcess：标记后的实体关系文件.xml.rel中为实体组之间的关系把实体组之间关系转为实体之间关系
CountEntRel：统计出院小结和病程记录的实体、实体修饰和实体关系数量

已解决问题

如上

未解决问题

因为去掉了“诊断及依据”这一项，导致某些诊断丢失，“初步诊断”里就为空
分句时，由于电子病历撰写格式不规范，会把原本一个句子分成好几个句子比如。在“”里面时会分成两个句子：患者因“纳差、全身浮肿2天。”入院。变成：患者因“纳差、全身浮肿2天。 ”入院。

对于这两个问题暂时是人工

About

医疗知识图谱数据清洗部分

Report repository

Releases

No releases published

Packages

No packages published

Languages

Java 100.0%