本站提供专业的[留学生论文]定制业务,如需服务请,联系电话:13671516250.
本文是在职硕士论文,本文针对医学指南数据的特征分析,总结出医学指南事件不同于一般的动作事件,它是医学指南数据中有关诊疗过程里能对治疗产生重要影响的一些状态子集。
第 1 章 绪 论
医学指南作为一种系统的临床指导意见,是临床医师在进行疾病诊断、治疗时的重要参考数据。随着临床医学不断地发展进步,其工作实践范围逐渐扩大,同时伴随着相关的医学指南数量的迅速增长,单纯依靠人工管理和记忆变得十分困难,这也给临床医师们带来了巨大的压力。医师给病人进行治疗、用药时容易产生某些知识的疏漏,这样导致了不合理用药因素大大增加[1-4]。在这样的背景下,利用计算机来处理这些医学指南数据,将医学指南中与诊疗相关的信息整理归类,则能够更好的管理医学诊疗信息。在医学指南信息中,与临床治疗密切相关的则是医学指南事件。医学指南事件是医学诊疗过程中一些重要状态的子集,比如:用药的注意事项,药品的副作用,疾病治疗等等。本文的研究方向是将医学指南事件从众多的医学指南文本中抽取出来,并形成规范化描述,建立一个医学指南事件数据集。目前,事件抽取作为信息抽取研究的重要任务之一,旨在从自然语言描述的文本中提取出重要的、对人们有意义的信息[5]。事件抽取多应用于自动文摘[6]、自动问答[7]、数据挖掘和信息检索[8]等领域。同样地,医学指南事件的抽取可以更加准确合理的管理医学指南信息,同时也为临床诊疗、用药的信息检索、自动化监控等提供了数据基础,减少医师在治疗中的疏漏,对提高临床诊疗水平有着重要意义。
.......
第 2 章 医学指南事件分析
2.1 医学指南
医学指南是一种规范化的医学知识,是一种系统的、多学科的临床指导意见。它可以帮助医生、患者对特定的临床问题做出恰当处理和决策。自 20 世纪 80 年代以来,人们发现,在处理同样的临床问题时候,不同国家、地区存在着很大差异。大约有四分之一的处理措施是没有必要的,甚至还有些处理措施存在误用、错用的现象。这些问题的出现使得临床医学指南的制定变得十分迫切。医学指南制定需要领域专家、制药企业、医疗工作者、使用者等的共同参与。制定过程中首先需要对临床实践问题如何筛选以及要达到的目的和指导范围做详细说明;其次,还要提出推荐意见的可信度;同时,要保证医学指南的学术水平、公平性和可操作性;最后,还需要领域专家、基层医疗工作者、使用者的共同评价[26]。因此,医学指南不同于医学教科书中的规范的知识,也不同于现有医学文献中各类新发现的医学知识。相对于前者,医学指南中的知识具有更新的时效性,相对于后者,医学指南中的知识更具有权威性。它对临床诊疗工作的顺利进行有着十分重要的指导意义[27]。
2.2 医学指南事件与表示模型
通过对医学指南数据的分析,本文总结出医学指南事件是医学指南数据中有关诊疗过程里能对治疗产生重要影响的一些状态子集。它较普通的事件而言具有重要性的特征。在医学领域中,有一个共同的约定是事件是我们全力避免的状态,或者叫做事故。或者是在诊疗过程中,必须要做的状态。在 SNOMED[28-30]中,就有一个事件类,专门是一系列的事故列举,专门确定在事故领域。但是在医学指南处理中,没有更多的事故。医学指南是一个诊疗集合,面临一种状态,什么是可以做的,什么是绝对禁止做的,什么是不应该做的,什么是必须做的。由此可知,在医学指南中,事件是非常重要的状态判定。医学指南事件的抽取对计算机化的诊疗系统与临床决策支持系统的研究有着十分重要的意义。
第 3 章 医学指南事件及事件关系抽取方案...........................8
3.1 方案设计................................ 8
3.2 指南数据预处理 ........................... 8
3.3 基于谓词的指南事件抽取 .......................... 9
第 4 章 医学指南事件及关系抽取系统实现..............24
4.1 系统的开发环境及扩展工具 ................. 24
4.2 系统模块........................... 25
第 5 章 工作总结与展望.............................32
5.1 工作总结.................... 32
5.2 工作展望..................... 33
第 4 章 医学指南事件及关系抽取系统实现
4.1 系统的开发环境及扩展工具
词法分析模块中,系统用了 java 的开源中文分词器 Jcseg 来进行医学指南句子的分词处理。Jcseg 是一个开源的轻量级的分词工具,它采用的是基于词典匹配MMSEG 中文分词算法,分词的准确率可以达到 98.41%。Jcseg 中文分词器支持词库的多目录加载,支持中英混合词及特殊符号的识别,同时还支持分词词库的扩展。这一点对于本文进行医学指南句子的分词工作十分有用,因为指南数据里包含大量领域名词,如果单纯依靠分词工具自带的词库来进行分词,很难识别。本文基于这一点问题,在中文分词模块中对分词词库进行领域词库扩展。系统爬取了多个医学网站中的领域名词 27897 条(其中主要包括药品、疾病、治疗等中文词条等信息),将其导入到 Jcseg 扩展词库中。然后利用 Jcseg 的词库多目录加载功能,同时加载本地词库与扩展词库进行分词工作。在对医学指南文本进行分词时,分词的准确率接近 95%,达到了较为理想的效果。
4.2 系统模块
系统的事件识别模块中首先需要对指南句子进行分词工作。系统在进行词法分析时用到了基于词典匹配的中文分词算法的中文分词工具 jcseg,同时本文还在分词工具的基础上添加了医学领域的扩展词库,利用词库多目录加载来完成分词工作。对于领域数据的分词工作,加入领域扩展词库可以明显提升分词的效率,下面举一个医学指南数据里的例子来说明。对于《抗菌药物临床指导原则》中的这一条描述语句“两性霉素 b 所致肾功能损害常见,少数患者可发生肝毒性、低钾血症、血液系统毒性”,在没有扩展领域的分词结果如图 4.1 所示。
........
第 5 章 工作总结与展望
5.1 工作总结
本文对指南事件及事件关系的提取主要做了以下几点工作:(1) 本文针对医学指南数据的特征分析,总结出医学指南事件不同于一般的动作事件,它是医学指南数据中有关诊疗过程里能对治疗产生重要影响的一些状态子集。并且总结出了医学指南数据总的几种基本事件类型:疾病情况、药物选用、用药效果、患者症状、疾病治疗。同时还总结了医学指南事件中的几种事件关系类型:因果关系、顺序关系、并列关系。并阐述了它们对指南数据处理的重要性。(2) 指南数据要进行事件抽取首先需要对无结构的指南数据进行预处理。本文首先将医学指南数据利用计算机编码处理进行格式装换,将其统一转换成纯文本的格式。然后以句子为单位对文本数据进行切分,同时对不利于句法分析的超长句子进行判断。若为几个子句组成的超长分句,则进一步将子句切分,最后得到完整的预处理数据。
5.2 工作展望
本文虽然实现了医学指南事件及事件关系的提取,但是由于时间的关系,本文在指南事件及事件关系提取的准确度和可靠性上还有一定的提升空间。(1) 本文在对指南句子进行句法分析时,目前利用了斯坦福大学开发的句法分析工具 Stanford Parser 来进行句法分析工作,该工具能够较好地分析出中文句子中的各种句法关系。但是对于某些有句法歧义的单词短语还是会出现分析偏差的情况。由于该句法分析中的训练语料是工具中定义好的,不好扩展。且句法分析工具没有提供人工修改句法树的接口,只能根据它固有的分析来生成句法树。这样就影响了句法分析的灵活性。因此,课题下一步的工作需要对句法分析的准确性、灵活性进行改善。
..............
参考文献(略)
