中国科学院遗传与发育生物学钻研所焦雨铃钻研组与中国科学院大学汪颖组竞争

拟南芥(Arabidopsis thaliana)做为被普遍使用的模式动物,其基因组序列加速了动物生物学研究。正在首个基因组发布二十余年后,仍存正在大量未填补的缺口区域。正在常用的TAIR10/Araport11版本的基因组序列中,存正在165个缺口。这些缺失区域可能由高度反复的序列构成,包罗端粒、着丝粒、5S rDNA簇和含有45S rDNA的核仁组织区(NORs)。近年来,ONT和PacBio等长读段测序手艺的成长为拆卸高复杂度序列供给了无力东西。近期颁发的两个高完整度基因组Col-CEN和Col-XJTU填补了着丝粒等缺失区域,但这两个新的拆卸仍不完整且有彼此矛盾之处。

为供给更好的参考基因组,即添加了12.4%的序列。中国科学院遗传取发育生物学研究所焦雨铃研究组取中国科学院大学汪颖研究组合做,Col-PEK拆卸填补了包罗五个着丝粒正在内各区域中的绝大大都缺口。Col-CEN中5号染色体中的缺口均已正在Col-PEK中补齐。Col-PEK拆卸总长度133.92 Mb,仅2号和4号染色体的多拷贝NORs区域尚不完全。正在填补缺口之外,完成了1、3、5号染色体从端粒到端粒的完整拆卸,例如,比TAIR10拆卸长14.77 Mb,Col-PEK还修订了Col-CEN等拆卸中的拼接错误。Col-PEK为目前最为完整的基因组拆卸,连系长读ONT、高保实的长读PacBio HiFi和短读Illumina NovaSeq测序数据获得了接近完整的拟南芥Col-0生态型的参考基因组Col-PEK。

Col-PEK拆卸具有较高的序列完整度,对Col-PEK的正文了反复序列的分布纪律,出格是着丝粒区域的CENH3连系区域分布纪律和CEN180反复序列分布特征。对编码基因的正文还发觉了145个新的“躲藏基因反复”,其取已知基因序列高度类似,可能是由新近的反复等基因组扩增机制所发生。

Col-PEK拆卸补全了所有着丝粒序列及绝大部门其它缺口,改正了之前的错误拆卸。该研究的初步阐发展现了反复序列的分布纪律,并了一批新基因。Col-PEK参考基因组为动物学科研工做者供给了新的参照序列和主要数据资本。