本站提供专业的[留学生论文]定制业务,如需服务请,联系电话:13671516250.
本文是在职硕士论文。本文简要介绍了词语语义相关度计算的研究背景以及经典的研究方法,并根据经典计算方法挖掘影响相关度计算的因素。深入研究领域本体的构建过程,构建面向儒学领域的本体实验片段,并将本体映射存储到关系数据库中的数据表。
第1章绪论
语义相关度计算广泛应用于自然语言处理技术中,对相关度计算的相关研究具有十分重要的意义。面向领域的知识本体发展迅速,基于知识本体的概念相关度计算在信息处理中具有一定的重要性和紧迫性。目前有很多针对相关度计算的研究并且产生很多的经典算法,但也存在一些不足,这也为本文提供了基础和必然性。
1.1研究背景与意义
信息化社会海量文档、各种音视频资料充斥着人们的生活,网络上更是充葡各种各样的信息资源,如图像、图形、文本及音视频等等,随着网络的发展,信息每天都在增加。海量数据,人工查找已然成为不可能的事情,对大量信息的智能化处理显得尤为迫切,相关度计算是自动化处理的核心技术之一,该技术可以快速定位与关键字密切相关的信息。
相关是对两个有关系的对象关系的定性分析,比如一对父子相关,存在父与子的关系;孔子、孟子是相关的,他们不仅都是古代思想家更是儒家代表人物。相关度就是对相关性的定量分析,用一个数值表示两个对象间的关联程度的大小这个数值介于0-1之间,相关度与关联程度成正比例的关系,即关联程度大的两个概念间的相关度越大,反之,亦成立。相关度在信息智能化处理中应用十分广泛,比如在词义消岐⑴、文本分类语义扩展、机器翻译信息过滤、自动问答系统等。
随着领域本体的广泛应用,更多的学者幵始重视面向领域的知识本体在文本处理技术中的应用,期待通过构建领域本体,挖掘本体概念关系提高信息自动化处理的效率,因此基于领域本体的概念相关度计算和应用研究就显得更有现实意义。
1.2国内外研究现状
长期以来,中文信息处理的研究者们在相关和相似的概念上少有区分,往往看使用情况区别名称对待,使用的算法都是相似度计算算法。相关和相似存在着区别,“相似”强调的是两个对象相像,比如父子的长相相像,称这对父子长相相似。而“相关”强调的是词语间存在着关系,这种关系包含相似和关联,所以相关和相似有着非常密切的联系。
Resnik曾举了一个非常经典的例子,他用轿车、汽车和自行车的关系途释了两者之间的区别:轿车依靠汽油才能行使,而轿车和自行车都属于车,都是行使工具,这两个概念包含很多共同属性,这些属性是行驶工具的基本属性,比如都有车轮,都可以载人行使。如果按相似度计算模型来计算,则会认为轿车和自行车的相关度要大于轿车与汽油的相关度,然而从实际生活中,我们知道轿车非常大程度地依赖汽油,轿车与汽油的相关度应更大些。因此,Resnik的例子很好的说明了相似性和相关性的特殊关系。相似的词语相关度相对高一些,此外,词语间的关联关系也影响着相关度。
目前,针对词语间相关性计算的研究和方法比较多,如基于语料库统计的计算方法、特征计算方法等利用各种信息资源进行词语相关度的衡量。这种方法不依赖外部知识源,独立性好,不易受到应用词典的质量的影响。而利用语义词典计算相关度的方法,计算结果更多地依赖于人工构造的知识库词典的质量,常见的应用词典有、《知网》、现代汉语语义词以及《同义词词林》,这些应用词典在相关度计算中得到了广泛的应用,也产生了很多有效的计算模型。但是,随着语言的发展和丰富,一些热词或是词语间关系更加密切,而这些变化不能很好地在应用词典中体现出来,如果个性化”、“搜索”这两个词语,在网络发展并没有这么快的时候,网络更多地是强调信息的共享,而随着网络信息膨胀,个性化被越来越多地为研究者和学者所关注,所以个性化和很多类似于“搜索”这样的词汇有了关系,所以相关度也相应提高。此外,网络信息量过大,越来越多的领域倾向于构造自己领域的本体知识,而在某领域中,两个词语间的相关度往往也不同于应用词典中的结果或是其他领域的情况。
第2章相关工作及研究进展
现在的很多自然语言处理方法都要用到词语间语义相关度的计算,如信息检索⑴、机器翻译、语义扩展词汇消岐等应用,因此针对词语相关度的研究是十分必要和意义深远的。语义相关度计算需要一定的背景知识,不同背景下应用的相关度计算方法也不同。目前常用的相关度计算方法主要有基于编辑距离的方法、基于语料库的方法、基于词典的方法和基于网络或本体的方法基于编辑距离的方法主要是参考编辑步骤进而转化为相关度。基于语料库的方法通过大规模分析语料库,获取的语义知识非常全面、客观,效果比较好,但是也要依赖所选语料库的质量,缺陷也很明显。语义词典是人工编辑而成,英文词库、中文词库都取得了很大的成功,然而语义词典本身也存在着世界知识少、更新难度大等缺点。而基于网络或本体的方法称为相关度研究的热点。这些方法都是相关度计算中的经典算法,不乏新颖之处,本章将针对这几种方法做出详细介绍为本文课题的研究提供参考。
2.1语义相关度測评
2.1.1语义相关度的概念
研究基于本体的词语相关度的过程中,由于词语可能有多重语义,本文得出的结果是这一对词语间相关度的最大值。在本体领域,词语往往使用“概念”一词表述,即本文所计算的语义相关度为本体概念间的语义相关度。
语义相关度是指两个词语的关联程度,这两个词语可以是同义词、近义词、反义词,可以是具有明显包含关系的两个词语,比如“森林”和“植被”,也可以具有层次关系的一对词语,比如“动物”和“哺乳动物”等等关系。除了这些常见的基本关系外,还存在某领域两个词语间的关联关系,这种关联关系往往是领域中公认的某种关系,而如果按着一般的计算相关度的方法这两个词语相关度很低,可实际上这对词汇存在着某种关联关系。语义相关度正式针对词语间的关系、本体中所处的位置计算本体概念间的相关性进行定量分析得出的结果。
2.2本体及其描述语言
2.2.1本体定义
本体最早应用于哲学范畴,用于描述客观世界的本源。计算机领域进行人工智能处理得到启发,从而将本体概念引入开发知识领域系统。在取得了很好的成效后,本体成为计算机领域研究中一个热点。本体在计算机领域是随着人们对本体概念的认识程度的加深和更强调专业化领域化发展的。Studer提出将本体结构分解为“概念模型”、“形式化”、“明确”和共享,这种分解模式得到了很多学者的认可。本体是对某个领域的特有的知识进行抽象表示,不仅能够描述知识本身,也要对概念间错综复杂的关系给予明确,能够将专家的专业知识转换为机器可以识别的存储形式,能使本领域的知识实现共享,不仅有利于领域内人士对领域知识的学习借鉴,也能传播领域知识,扩大本领域影响力。
2.2.2本体的组成
下面介绍日常应用当中是如何描述本体概念的。在计算机科学中,本体库代表某一个研究领域的知识及所有关系结构,本体被广泛地应用到领域信息检索、人工智能、信息构建等。本体库模型有以下四个基本组成部分:
类概念是对领域中对象的抽象表示和本质反映;
实例表示某个类概念的具体实例对象,某个例元素。
属性—个本体概念能够由它的特征去描述表示,每个属性可以说明概念或实例的某一特征。比如属性可以是描述性的名称如果重量、密度大小等,也可以是形容词性的描述词语,比如色泽、颜色、优雅气质的等形容外在或内在的特质。
第3章面向领域的知识本体研究......14
3.1常用领域本体的构建方法.......14
3.1.1构建原则........14
3.1.2本体的构建流程.......15
第4章基于领域本体的概念相关度计算......22
4.1概念相似度计算..........22
4.1.1相似度影响因素的探究........22
4.1.2概念相似度算法........24
第5章概念相关度在语义扩展中的应用及实现.......33
5.1语义扩展.......33
5.2语义扩展的必要性.......35
第5章概念相关度在语义忙展中的应用及实现
前面章节从领域本体的角度介绍了概念相关度的重要意义,在众多相关度计算研究的基础上给出了本体概念相关度计算方法。该方法综合考虑了基于语义词典的相关度模型中的多种因素,也从侧面结合了语料库的共现率,综合来讲,上述章节给出的概念相关度计算方法是众多优秀相关度研究的结晶,更能结合本体概念及构建的精髓深入分析。相关度应用十分广泛,众多文本处理项目中都是以相关度计算为核心技术,比如机器翻译、自然语言处理、自动化测评系统、机器学习、文本挖掘、语义扩展等多种文本处理技术中都涉及相关度计算。下面就相关度计算在语义扩展方面的应用简要说明,并在实际中检验相关度计算模型的实用性,并提出改进意见。
5.1语义扩展
语义扩展是信息检索中的关键技术,随着网络信息大规模膨胀,导致人们搜索出自己需要的信息的难度越来越大,这也给信息检索提出了个难题,如何能够满足不同用户的搜索需求也很大程度地推动了信息搜索的发展。Google和百度相继提出个性化搜索,并取得了一定的成绩,但是网络信息量过大,即使个性化也很难满足不同领域的用户的个性化搜索需求。这其中也不乏一些研究者积极探索领域本体内的信息搜索的研究,随着信息化的广泛提出,本体的发展,越来越多的本体领域中构建了自身的检索系统,比如高校的论文数据库,农业领域数据库等等多种本体数据库中都存在检索系统。
将信息分类聚拢到一个领域本体中,再根据相应的检索方法在本领域内检索相关信息,这种方法在一定程度上缓解了搜索领域面临的严峻形势,但是本体领域中的信息量还是比较大的,检索出的结果或是无用信息偏多,或是无法查询到用户真正需要的信息,导致检索结果不理想。用户无法得到很好的搜索体验,网络信息量巨大却不能真正的帮助用户。
查准率低,即搜索结果包含过多无用信息,占用了有限资源也给用户分辨有用信息制造了困难,影响用户的查询效率。查全率低,即搜索结果包含的有用信息较少,搜索引擎并没有从众多的信息中检索出与用户查询目标一致的信息。之所以会出现查准率和查全率过低的现象一方面是由于用户自身缺乏专业知识,不能很好地表达搜素需求,即不能提供精确的查询关键词;另一方面是因为搜索引擎并不能明白用户的搜素需求,即搜索引擎将用户输入的关键字看成孤立的词语,并不能明确其确切含义,往往根据词语的表面意思查询数据库,这也是造成搜索查准率和查全率过低的主要现象。
参考文献(略)
