[00302369]分布式索引构建及检索方法
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201510481248.9
交易方式:
技术转让
技术转让
技术入股
联系人:
桂林电子科技大学
进入空间
所在地:广西壮族自治区桂林市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了一种分布式索引构建及检索方法,实现检索的快速高效性。索引构建方法包括:执行Map过程,读取HDFS上经过预处理后的文件,通过正则读取有效数据并进行封装;执行Reduce过程,读取经过Combine过程处理后的数据,初始化Lucene,将有效信息封装成索引数据结构,利用全文检索引擎工具构建索引;对分块的索引文件进行分别储存。检索方法包括:1.从互联网上获取原始数据,进行聚类与去重处理,并上传到分布式文件系统上。2.利用前述分布式索引构建方法对预处理后的数据分块并行构建索引。3.将索引文件分别储存到集群的各个节点。4.系统分发检索请求到各个节点。5.各个节点根据请求执行检索并返回检索结果。6.系统对节点返回的结果进行排序。
本发明公开了一种分布式索引构建及检索方法,实现检索的快速高效性。索引构建方法包括:执行Map过程,读取HDFS上经过预处理后的文件,通过正则读取有效数据并进行封装;执行Reduce过程,读取经过Combine过程处理后的数据,初始化Lucene,将有效信息封装成索引数据结构,利用全文检索引擎工具构建索引;对分块的索引文件进行分别储存。检索方法包括:1.从互联网上获取原始数据,进行聚类与去重处理,并上传到分布式文件系统上。2.利用前述分布式索引构建方法对预处理后的数据分块并行构建索引。3.将索引文件分别储存到集群的各个节点。4.系统分发检索请求到各个节点。5.各个节点根据请求执行检索并返回检索结果。6.系统对节点返回的结果进行排序。