[00272955]一种面向移动互联网自适应增量的内容聚合方法及系统
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
正在研发
专利所属地:中国
专利号:CN201610847428.9
交易方式:
技术转让
技术转让
技术入股
联系人:
南京邮电大学
进入空间
所在地:江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了一种面向移动互联网自适应增量的内容聚合方法及系统,对m个目标源网站预处理,记录m个目标源网站的导航页面数据,建立关于长度和数量的二维数学模型;爬取m个目标源网站,向下爬取每个目标源网站所存在的多个页面,计算每个页面的二维正态分布置信概率;并将按照降幂次序排列,及将每个页面下对应url地址的目标页面进入url地址池;爬取url地址池中位于顶部的url地址所对应目标页面,将所有url地址并进入url地址池,向量化计算相似度;判断是否异常;对url地址池中所有目标页面分析,爬取所需信息及进入信息所在页面;通过贝叶斯选择筛选并更新二维分布权重。本发明大大提高信息获取效率,减小了服务器负载量,保证了获得信息的完整性。
本发明公开了一种面向移动互联网自适应增量的内容聚合方法及系统,对m个目标源网站预处理,记录m个目标源网站的导航页面数据,建立关于长度和数量的二维数学模型;爬取m个目标源网站,向下爬取每个目标源网站所存在的多个页面,计算每个页面的二维正态分布置信概率;并将按照降幂次序排列,及将每个页面下对应url地址的目标页面进入url地址池;爬取url地址池中位于顶部的url地址所对应目标页面,将所有url地址并进入url地址池,向量化计算相似度;判断是否异常;对url地址池中所有目标页面分析,爬取所需信息及进入信息所在页面;通过贝叶斯选择筛选并更新二维分布权重。本发明大大提高信息获取效率,减小了服务器负载量,保证了获得信息的完整性。