[01756218]广播电视新闻语料自动分词与频率统计系统
交易价格:
面议
所属行业:
广播电视
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
该系统总体设计合理,语料取样恰当,既遵循了国家统一的分词规范,又照顾到新闻用词的特点。其分词系统先进,所用词频统计方法能较真实地反映词条的平均使用频度,是一个较为先进的实用系统。所用分词系统,采用联想规则,缩小了分词用词库,提高了词库利用率,并较好地解决了歧义字段的切分问题,使分词准确率达到98·6%,在PS/2机器上的平均分词速度为每分钟480词。是我国首次研制成的专门对新闻语料全文进行自动分词的实用系统。对70万字的电视新闻语料进行词频、分散度和标准频度指数的统计,在国内尚属首次,为建立新闻词库提供了可靠的依据,对汉语教学等领域也有使用价值。
该系统总体设计合理,语料取样恰当,既遵循了国家统一的分词规范,又照顾到新闻用词的特点。其分词系统先进,所用词频统计方法能较真实地反映词条的平均使用频度,是一个较为先进的实用系统。所用分词系统,采用联想规则,缩小了分词用词库,提高了词库利用率,并较好地解决了歧义字段的切分问题,使分词准确率达到98·6%,在PS/2机器上的平均分词速度为每分钟480词。是我国首次研制成的专门对新闻语料全文进行自动分词的实用系统。对70万字的电视新闻语料进行词频、分散度和标准频度指数的统计,在国内尚属首次,为建立新闻词库提供了可靠的依据,对汉语教学等领域也有使用价值。