技术详细介绍
课题来源与背景:本项目是甘蔗优良新品种选育及推广部分内容,编号为桂科AA17202042-6 研究目的与意义:对NGS重测序分析,由于测序得到的原始数据是短序列(fq read),通常需要把这些短序列比对到物种组装得到的基因组上面,很多分析都是基于比对结果来分析的。其中常用的短序列比对软件有SOAP,BWA,bowtie的比对软件,主要对应的比对输出格式是SOAP格式和Sam/Bam格式,为了下流软件能够对两种比对结果同时处理,通常做法是把其中一种比对转为另一种,由于Bam占用的盘阵存放空间比SOAP少,所以急需要开发一个软件,把比对结果SOAP格式转为另一种,为此,特为此开发这一软件,可以直接读入SOAP格式的文件,兼容压缩格式,并结果基因组上的信息,可将SOAP文件转为Bam格式。 主要论点与论据:本程序实现了将两大主流的比对格式SOAP和Bam结果进行转化,由于同样的read比对后,Bam格式占用的盘阵存入空间较少,故本程序以soap转bam为主,更符合大家的需求。 创见与创新:快速高效,不占内存。兼容读压缩格式 社会经济效益及存在的问题:快速将SOAP格式文件转化为Bam/Sam格式文件。快速高效低内存,兼容读压缩格式,输出结果是以压缩格式Bam存放,可以节省空间。 历年获奖情况:未进行报奖和获奖。 成果简介向社会公开:程序是将SOAP转为Bam格式的,比较了这两个文件,Bam格式的头文件包含基因组的各染色体的长度,故须要将基因组的信息作为输入文件,同时由于测序的read的质量体系有ASCII33和ASCII64的区别,可以添加一个参数,可用于准许用户对这两文件进行转换。同时考序到SOAP的文件巨大,须要每读两行信息,即一条read的比对信息,对其进行换化为Bam后,及时输出释放内存空间。由于程序功能简易单一,没有过多参数,分析人员易用。程序采用一边读入一边处理边输出的方式,即不占用内存。
课题来源与背景:本项目是甘蔗优良新品种选育及推广部分内容,编号为桂科AA17202042-6 研究目的与意义:对NGS重测序分析,由于测序得到的原始数据是短序列(fq read),通常需要把这些短序列比对到物种组装得到的基因组上面,很多分析都是基于比对结果来分析的。其中常用的短序列比对软件有SOAP,BWA,bowtie的比对软件,主要对应的比对输出格式是SOAP格式和Sam/Bam格式,为了下流软件能够对两种比对结果同时处理,通常做法是把其中一种比对转为另一种,由于Bam占用的盘阵存放空间比SOAP少,所以急需要开发一个软件,把比对结果SOAP格式转为另一种,为此,特为此开发这一软件,可以直接读入SOAP格式的文件,兼容压缩格式,并结果基因组上的信息,可将SOAP文件转为Bam格式。 主要论点与论据:本程序实现了将两大主流的比对格式SOAP和Bam结果进行转化,由于同样的read比对后,Bam格式占用的盘阵存入空间较少,故本程序以soap转bam为主,更符合大家的需求。 创见与创新:快速高效,不占内存。兼容读压缩格式 社会经济效益及存在的问题:快速将SOAP格式文件转化为Bam/Sam格式文件。快速高效低内存,兼容读压缩格式,输出结果是以压缩格式Bam存放,可以节省空间。 历年获奖情况:未进行报奖和获奖。 成果简介向社会公开:程序是将SOAP转为Bam格式的,比较了这两个文件,Bam格式的头文件包含基因组的各染色体的长度,故须要将基因组的信息作为输入文件,同时由于测序的read的质量体系有ASCII33和ASCII64的区别,可以添加一个参数,可用于准许用户对这两文件进行转换。同时考序到SOAP的文件巨大,须要每读两行信息,即一条read的比对信息,对其进行换化为Bam后,及时输出释放内存空间。由于程序功能简易单一,没有过多参数,分析人员易用。程序采用一边读入一边处理边输出的方式,即不占用内存。