X为了获得更好的用户体验,请使用火狐、谷歌、360浏览器极速模式或IE8及以上版本的浏览器
关于我们
欢迎来到科易网(仲恺)技术转移协同创新平台,请 登录 | 注册
尊敬的 , 欢迎光临!  [会员中心]  [退出登录]
成果 专家 院校 需求
当前位置: 首页 >  科技成果  > 详细页

[00303096]基于CHI和分类别关联规则算法的短文本分类方法

交易价格: 面议

所属行业: 分析仪器

类型: 发明专利

技术成熟度: 正在研发

专利所属地:中国

专利号:CN201610583443.7

交易方式: 技术转让 技术转让 技术入股

联系人: 桂林电子科技大学

进入空间

所在地:广西壮族自治区桂林市

服务承诺
产权明晰
资料保密
对所交付的所有资料进行保密
如实描述
|
收藏
|

技术详细介绍

本发明一种基于CHI和分类别关联规则算法的短文本分类方法,将不同类别文本的频繁词集出现频繁度进行了度量,引入了类别频繁因子(LFF),通过LFF合理分配了各文本类别的最小支持度阈值,克服了传统的FP‑Growth算法挖掘出的频繁词集类别出现偏斜的情况,同时在对频繁词集进行类别倾向判断上,采取了CHI检验算法去衡量特征词与类别之间的关联程度,而非采取简单的词语频率统计去衡量,避免了人工设参和实验确定最佳参数的步骤,增强了分类系统的可控制性。

同时还提出了基于Hadoop/MapReduce大数据计算平台的并行特征扩展短文本分类算法,对类别频繁因子的计算和特征扩展方法进行了MapReduce并行化设计,提升了短文本分类准确率以及分类效率,提高了系统的可控性。

本发明一种基于CHI和分类别关联规则算法的短文本分类方法,将不同类别文本的频繁词集出现频繁度进行了度量,引入了类别频繁因子(LFF),通过LFF合理分配了各文本类别的最小支持度阈值,克服了传统的FP‑Growth算法挖掘出的频繁词集类别出现偏斜的情况,同时在对频繁词集进行类别倾向判断上,采取了CHI检验算法去衡量特征词与类别之间的关联程度,而非采取简单的词语频率统计去衡量,避免了人工设参和实验确定最佳参数的步骤,增强了分类系统的可控制性。

同时还提出了基于Hadoop/MapReduce大数据计算平台的并行特征扩展短文本分类算法,对类别频繁因子的计算和特征扩展方法进行了MapReduce并行化设计,提升了短文本分类准确率以及分类效率,提高了系统的可控性。

推荐服务:

Copyright © 2015 科易网 版权所有 闽ICP备07063032号-5