技术详细介绍
本项目来源为河南省基础与前沿技术研究计划,项目编号112300410200。基于本体的问答系统的普适性理论和方法研究涉及自然语言处理、知识工程、机器学习等多个学科和领域。基于该理论和方法可以构建各种智能自动问答系统。自动问题系统可以让用户使用自然语言提问,直接为用户返回简洁、准确的答案;它克服目前互联网传统搜索引擎只是返回多个页面链接,让用户在多个页面中寻找所需信息的缺陷,可以更加智能、高效地满足人们对知识和信息的检索要求。所以该项目的研究内容是互联网新一代商业应用研究的重要课题。 本项目主要研究内容包括问句分类、聚类方法,问句的分析与答案的抽取算法,本体在自动问答系统中应用与领域本体的自动构建方法等。主要采用的技术原理为: 针对传统问句分类中标准难以制定,并且标准不断变化的缺点,确定了采用问句聚类的技术路线,首先从大量的问句语料库中抽取问句的关键词以及词之间的关系,利用知网和人工构建的问句本体,抽取和扩充问句中特征,然后利用谱聚类进行问句聚类处理。在谱聚类中利用矩阵特征值之间的差异自动确定聚类的个数。 针对问句分析的难点,首先采用基于问句语义场的方法对问句进行分析,抽取出问句焦点,然后从本体知识库抽取问句中的问点和语义信息,提取用户真正感兴趣的疑问点。在利用本体知识库形式化地表示领域知识的基础上,设计了多渠道、分层筛选的答案抽取策略。渠道之一是从本体知识库和FAQ中抽取答案,采用的策略是利用领域本体查询和推导进行答案抽取;渠道之二是从采用搜索引擎从互联网中抽取答案,采用的策略是根据问句分析得到的关键词进行检索和答案提取。 在整个自动问答系统中采用本体知识库的形式表示问句和答案中的领域知识。利用基于语言特性的中文领域术语自动抽取算法进行领域术语和关键词的抽取。利用基于知网和术语相关度的本体关系抽取算法进行领域概念之间关系的抽取,首先通过句法分析提取术语的上下文特征,结合自然语言特征和互信息的方法计算术语之间的相关度,然后使用术语的义原和动态角色作为关键词,在知网语义关系框架中定位关系,并为关系指定明确的语义标签。通过以上方法构建问句本体库和领域知识本体库。 在国外本体在问答系统中的应用研究中,Zajac提出基于本体的自动问答框架,问题和知识库中的句子被解析为逻辑谓词的语义表示;语义谓词和断言用本体定义;问题使用本体规则表示;答案抽取通过使用包含性和一致性查询实施。Roberto Basili等人也提出一个基于本体的QA系统,该系统首先从网站抽取数据构建本体知识库,问题映射为本体的概念与概念之间的关系。 目前国内基于本体知识库的问答系统处于起步阶段,台湾的Sheng-Yuan Yang等提出了本体作为关键技术的FAQ系统,在该系统首先把FAQ中的知识转化为本体知识库的形式,在FAQ系统的用户问题查询过程中,利用本体提高匹配的精度;并且利用本体减少FAQ数据的冗余性,增强数据的一致性;提高系统查询的语义表达能力;可以更好的理解用户问句的语义。 本项目其主要成果与创新之处体现在如下三个方面: (1)提出了基于谱聚类和问句本体的问句聚类算法。 (2)提出了基于问句语义场和多策略匹配的答案抽取的算法。 (3)提出了本体知识在自动问答系统的应用框架以及应用于自动问答系统的本体学习算法。
本项目来源为河南省基础与前沿技术研究计划,项目编号112300410200。基于本体的问答系统的普适性理论和方法研究涉及自然语言处理、知识工程、机器学习等多个学科和领域。基于该理论和方法可以构建各种智能自动问答系统。自动问题系统可以让用户使用自然语言提问,直接为用户返回简洁、准确的答案;它克服目前互联网传统搜索引擎只是返回多个页面链接,让用户在多个页面中寻找所需信息的缺陷,可以更加智能、高效地满足人们对知识和信息的检索要求。所以该项目的研究内容是互联网新一代商业应用研究的重要课题。 本项目主要研究内容包括问句分类、聚类方法,问句的分析与答案的抽取算法,本体在自动问答系统中应用与领域本体的自动构建方法等。主要采用的技术原理为: 针对传统问句分类中标准难以制定,并且标准不断变化的缺点,确定了采用问句聚类的技术路线,首先从大量的问句语料库中抽取问句的关键词以及词之间的关系,利用知网和人工构建的问句本体,抽取和扩充问句中特征,然后利用谱聚类进行问句聚类处理。在谱聚类中利用矩阵特征值之间的差异自动确定聚类的个数。 针对问句分析的难点,首先采用基于问句语义场的方法对问句进行分析,抽取出问句焦点,然后从本体知识库抽取问句中的问点和语义信息,提取用户真正感兴趣的疑问点。在利用本体知识库形式化地表示领域知识的基础上,设计了多渠道、分层筛选的答案抽取策略。渠道之一是从本体知识库和FAQ中抽取答案,采用的策略是利用领域本体查询和推导进行答案抽取;渠道之二是从采用搜索引擎从互联网中抽取答案,采用的策略是根据问句分析得到的关键词进行检索和答案提取。 在整个自动问答系统中采用本体知识库的形式表示问句和答案中的领域知识。利用基于语言特性的中文领域术语自动抽取算法进行领域术语和关键词的抽取。利用基于知网和术语相关度的本体关系抽取算法进行领域概念之间关系的抽取,首先通过句法分析提取术语的上下文特征,结合自然语言特征和互信息的方法计算术语之间的相关度,然后使用术语的义原和动态角色作为关键词,在知网语义关系框架中定位关系,并为关系指定明确的语义标签。通过以上方法构建问句本体库和领域知识本体库。 在国外本体在问答系统中的应用研究中,Zajac提出基于本体的自动问答框架,问题和知识库中的句子被解析为逻辑谓词的语义表示;语义谓词和断言用本体定义;问题使用本体规则表示;答案抽取通过使用包含性和一致性查询实施。Roberto Basili等人也提出一个基于本体的QA系统,该系统首先从网站抽取数据构建本体知识库,问题映射为本体的概念与概念之间的关系。 目前国内基于本体知识库的问答系统处于起步阶段,台湾的Sheng-Yuan Yang等提出了本体作为关键技术的FAQ系统,在该系统首先把FAQ中的知识转化为本体知识库的形式,在FAQ系统的用户问题查询过程中,利用本体提高匹配的精度;并且利用本体减少FAQ数据的冗余性,增强数据的一致性;提高系统查询的语义表达能力;可以更好的理解用户问句的语义。 本项目其主要成果与创新之处体现在如下三个方面: (1)提出了基于谱聚类和问句本体的问句聚类算法。 (2)提出了基于问句语义场和多策略匹配的答案抽取的算法。 (3)提出了本体知识在自动问答系统的应用框架以及应用于自动问答系统的本体学习算法。