联系人:
所在地:
课题来源与背景:本项目是甘蔗优良新品种选育及推广部分内容,编号为桂科AA17202042-6
研究目的与意义:对NGS重测序分析,由于测序得到的原始数据是短序列(fq read),通常需要把这些短序列比对到物种组装得到的基因组上面,得到比对结果SAM/Bam,得到比对Bam文件后,往往第一件分析就是基于Bam比对结果进行统计,统计中最为重要的两个指标主是测序深度和覆盖度。
如何通过Bam结果快速统计出基因组的平均深度和覆盖度,同时又不占用太多计算资源,就是本程序就研发的重点。Bam Coverage可以直接读入Bam/Sam格式的文件,快速统计基因组的平均深度和覆盖度,同时以压缩格式输出各位点的深度信息。
主要论点与论据:程序是读Bam统计各位点的深度信息,给出各位点的深度和给全基因组的平均深度和覆盖度,由于了bam的header信息各条染色体的长度,所以不必过多输入参考基因组的信息,添加一个参数,把比对质量差的read过滤掉。然后输出相关信息。
创见与创新:快速高效,不占内存。兼容读压缩格式
社会经济效益及存在的问题:快速将对Bam/Sam格式文件进行统计,输出基因组的平均深度和覆盖度。
快速高效低内存,兼容读压缩格式,输出结果是以压缩格式,可以节省空间。
历年获奖情况:未进行报奖和获奖。
成果简介向社会公开:本程序实现了将基于Bam比对结果,快速统计其深度情况,给出各位点的深度和给全基因组的平均深度和覆盖度,由于bam的header信息有各条染色体的长度,根据这长度动态生成了二维数组,然后每读一条比对的read后,对应的区域深度累加。
其中程序读bam/Sam时直接调动了samtools里面的hstlib相关函数,可快速读入。
程序功能目的明确单一,没有过多参数,用户一看即明,容易上手使用。
Copyright © 2015 科易网 版权所有 闽ICP备07063032号-5