8月23日,两篇发表在《自然》杂志的论文宣告:科学家组装了人类Y染色体的第一个完整序列,补齐了人类基因组这部“生命天书”。多年以来,“生命天书”初稿被科学家反复打磨、拾遗补阙。等待了20多年后,Y染色体的完整“章节”姗姗来迟。而这还只是一个开始,未来,有关遗传、生育、疾病、进化的诸多密码有望被一一破解。
好消息传来。美国国家人类基因组研究所领导美国约翰斯·霍普金斯大学、加州大学圣克鲁斯分校等多家机构的科学家组装了人类Y染色体的第一个完整序列。这是最后一个被完全测序的人类染色体,新序列填补了Y染色体长度的一半以上的空白。两篇相关论文于8月23日发表在《自然》杂志上。
几十年来,Y染色体作为人类两性染色体之一,由于其结构的复杂性,一直是基因组学界难啃的“硬骨头”。现在,这一难以捉摸的基因组区域已经被完整测序,这意味着,人类泛基因组的最后一块“拼图”被补上了。
这次测序为当前人类参考基因组增加了逾3000万个碱基对,揭示了多个基因家族的完整结构,并确认了41个新的蛋白质编码基因,为研究生殖、进化和人口变化相关的重要问题提供了关键信息。
Y染色体测序困难重重
深圳华大生命科学研究院副院长金鑫在接受科技日报记者采访时说:“人类基因组测序是理解人类疾病、健康和进化的关键。通过将个体基因序列与参考基因组进行比对,科学家可以找到与疾病相关的基因,进而为个体提供更精准的诊断和治疗方案。”
深圳华大生命科学研究院研究员周旸介绍说,完整人类基因组中约有30亿个碱基对,科学家其实很难通过直接测序把序列测通,所以在测序的时候,需要将大片段的DNA进行随机打断再进行测序。对于常染色体是如此,对于X和Y染色体亦然。所以在测序结束后,科学家需要通过对测序数据进行拼接来得到完整真实的基因组序列。
1999年,人类首次成功完成对人体染色体完整基因序列的测定。科学家使用“短读长”测序技术来做到这一点,将DNA切成大约一百个碱基的小片段,然后像拼拼图一样重新组装它们。
2022年,最新版人类参考基因组(T2T-CHM13)问世。该基因组包含22条常染色体和X染色体的无间隙序列,共有30.55亿对碱基,比之前的人类参考基因组(GRCh38)增加了近2亿碱基对的遗传信息,约等于整个基因组8%的序列信息,达到了前所未有的完整程度。然而,人类参考基因组中的Y染色体,仍有约一半序列是缺失的。
Y染色体的测序为什么如此棘手?周旸说:“这些未知区域主要集中在异染色质区域。该区域主要由微卫星序列组成。要通过测序数据确定其序列是一件非常困难的事情。”
微卫星序列通常属于重复序列,是一种在基因组中广泛存在的特殊DNA序列重复单元。金鑫表示,由于Y染色体包含大量重复或“回文”序列,共有多达百万个碱基对。而“短读长”技术无法跨越这么长的重复序列,从而无法确定正确的序列顺序,也就无法绘制出完整序列。
组装测序数据就像尝试阅读一本被切成条状的长书,每一条都是书中的一句话。如果书中的所有句子都是唯一的,那么就更容易确定句子的顺序。但是,如果同一句话重复了数千或数百万次,那么这些句子的原始顺序就没有那么清楚了。Y染色体上约有3000万个碱基字母是重复序列,就好像这本书的一半篇幅都重复着同样的几句话。
技术“组合拳”助力测序
如果把染色体比作一本书,那么被称为“短读长”的DNA测序技术一次只能读取相对较短的序列,但现在,“长读长”DNA测序技术可在不影响准确性的情况下生成更长的DNA序列读数,甚至可一次阅读整个“句子”或“段落”。这样,研究人员能够更准确地判断“句子”“段落”之间的排列顺序,从而更有助于完成完整的测序。
得益于“长读长”DNA测序技术和创新的序列组装方法,科学家们终于实现了对Y染色体的无间隙读取。
周旸说:“科学家利用‘长读长’DNA测序技术,一定程度上降低了组装Y染色体的难度。另外,科学家也针对新技术的测序数据开发了新的组装算法进行自动化组装,提升了组装效率。”
今年2月,美国国立卫生研究院研究人员发布了一种创新的软件工具Verkko,用于组装来自各种物种的真正完整的基因组序列。研究人员称,有了Verkko,研究人员现在只需按下一个按钮就能自动获取完整的基因组序列。
英国《新科学家》杂志网站8月23日报道,研究人员还运用了英国牛津纳米孔公司所开发的纳米孔(Nanopore)测序技术。当单个DNA分子穿过一个纳米孔时,就能读取该分子的序列,产生数百万个DNA碱基字母的片段,而不仅仅是几百个。
在本次研究中,得益于上述方法,团队能够应对Y染色体测序中的种种挑战。
Y染色体上的新发现
此次发表的一篇论文称,Y染色体包含62460029个碱基对序列。该数字比参考基因组GRCh38里的Y染色体数据多了3000万个碱基对,标志着测序完整性的显著进步。
通过改进GRCh38中的错误并阐明DAZ和RBMY等基因家族的结构(这两个基因家族都有助于精子的产生),该团队增进了对Y染色体遗传结构的理解。
此外,这条完整的Y染色体有106个蛋白质编码基因,比参考基因组多了41个。但几乎所有这些额外的基因都只是一种被称为TSPY的基因的副本。他们还辨识出以前被误解为是细菌DNA的序列,这些序列其实是之前未知的人类Y染色体序列。
在另一篇论文中,包括美国杰克逊基因组医学实验室在内的联合团队组装了代表世界21个不同人群的43名男性的Y染色体。这些组装结果更详细地阐释了Y染色体在人类演化历史中的遗传差异。研究结果揭示了新的DNA序列、保守区域的特征,以及促进Y染色体复杂结构的分子机制。
金鑫表示,去年公布的T2T-CHM13完整基因组样本取自一个葡萄胎的单倍基因组(完全性葡萄胎是一种罕见的妊娠并发症,由来源于胎盘的细胞异常生长引起),而此次样本取自健康的人类个体。
上海交通大学长聘教轨副教授毛亚飞告诉记者,目前来看,这个数目的样本已经是人类基因组测序上很大的突破。不过,下一步还应该选择更广泛的样本,包括不同种族、地理区域和人群,这样才能更好地代表全球人类遗传多样性,进而有助于揭示人类种群之间的遗传差异和相似性,从而提供更准确的基因组参考。
完整基因测序意义非凡
Y染色体通常与生理性别为男性的个体相关联,但它也可能存在于雌雄同体者中。尽管Y染色体上的基因相对较少,但这些基因复杂且处在动态变化中,并具有编码精子生成等重要功能。完整的Y染色体参考序列将使科学家能够以前所未有的方式更好地研究人类基因组中Y染色体的各种特征。
研究发现,不同个体含有10到40个TSPY基因拷贝。例如,一名男子的Y染色体有与精子形成有关的TSPY基因的23个拷贝,而另一名男子则有39个拷贝。现在,科学家可以使用新的参考图谱和已建立的Y染色体测序方法更好地研究这种进化。这可能是未来体外受精领域或其他生殖和不孕症领域的研究焦点。
完整的、无间隙的Y染色体序列对于研究人类群体进化和迁移至关重要。毛亚飞补充说:“我们与猴子、黑猩猩等有共同的演化线索,通过解析基因组变化,可以了解人类是如何演化而来的。”
“此前,人们其实已经根据Y染色体的基因组草图定位了许多与雄性发育、精子生成等过程相关的基因,也发现了Y染色体与诸如癌症等疾病的关联;而最近发表的Y染色体完整序列将会为探索这些区域序列的功能提供扎实的数据基础。”周旸指出,“新研究也进一步揭示了个体间Y染色体的差异。这些Y染色体上的变异以及与人类性状的关联分析将有助于人群演化、遗传、疾病等方面的研究。”
总之,完整的人类Y染色体将为许多新发现打开大门。下一步,研究人员计划通过将Y染色体纳入未来版本的人类泛基因组参考图谱来进一步改善Y染色体的研究。泛基因组是一种新的基因组参考,它将来自不同祖先背景的多个人的基因组信息结合起来,最终可以实现更客观的研究和临床发现,如帮助诊断疾病、预测医疗效果和指导治疗等。
受访专家均相信,目前发表的Y染色体的组装结果只是一个开始。随着技术的不断发展,总有一天全世界的每一个人都可以对自己的基因进行测序。
金鑫展望道:“现在,我们去医院都是做血常规、尿常规等检测,未来有了临床基因测序技术后,我们可能要先做个基因常规检测,把最主要的遗传信息跟疾病的关系、药物的禁忌都先了解清楚,医生再对症下药。所以,基因组测序会对整个人类,尤其是对了解我们自身的健康起到非常重要的作用。”
(编辑:映雪)