生物信息学习的正确姿势

NGS系列文章包括NGS基础、高颜值在线绘图和分析、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。

“ 

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

△本期嘉宾:胡松年教授

中国科学院北京基因组研究所研究员,博士生导师

由测序中国发起的NGS接龙第二季活动正在进行中,本期NGS接龙的嘉宾为中国科学院北京基因组研究所胡松年教授,作为行业的佼佼者,让我们听听他与测序之间的故事。

测序相伴的二十六年

从1991年至今,我和测序打了二十六年的交道。做测序对我似乎是注定的事,测序于我,与其说情缘不如说是命运。

我于1991年在中国农业大学攻读硕士,入学一个月后,在10月份走进实验室,从那一刻起,测序一直伴随我走到现在。在我毕业以后去协和从事科研工作,包括后来参与人类基因组计划的1%,以及在北京基因组研究所重建NGS的平台等,二十几年间几乎接触了所有的测序机型。从青葱的学生时代到步入工作,从最初简陋的手工测序到如今与日俱进的NGS以及三代测序,我的研究一直与测序密不可分,可以说见证了测序技术发展的历程。

早期,我所进行的研究主要基于一代测序技术,而将重心从一代测序逐渐转移到NGS,是客观因素和主观因素共同作用的结果。2005—2006年期间,基于NGS技术的测序平台逐渐出现在市场,华大最先引进了Solexa的二代测序平台。虽然NGS在当时还存在诸多技术问题,但就测序技术未来的发展方向而言,通量及成本的优化是必然的过程,则是测序技术必然的发展与过渡。同时,在2007年的下半年,基因组所与华大分开以后,物理位置的分开让基因组研究所也面临着整个测序平台的重建问题。在当时,NGS的主流机器已出现于市场,而基因组所也确实需要引入NGS的平台从事研究。在客观因素的推动下,我的工作重心从一代测序逐渐转移到了NGS上,从此真正踏上了NGS的道路。

添麻烦”的NGS

NGS除了带来通量的增加和成本的降低,另一方面,其出现也给进行组学研究的科研人员添了不少“麻烦”。

从科研的角度,基因组学领域格外看中组学相关实验方案的设计,而NGS和一代测序在组学的实验方案设计完全不同:一代测序后期主要应用的机型较为单一,针对不同的项目测序的方案差异较小;而NGS则与一代测序完全不同,不同NGS测序平台的原理不同,每个平台适用的物种、研究项目也不一样,分析手段也有很大差异,甚至在人员配备上也有很大不同。企业为了节约成本或提高效率会使用单一的平台进行各类项目,而在研究所中,除了进行科研外,还需要客观地对每个平台的优劣性及适用性进行评估。也就是说,必须根据项目及成本找到最适合的机型。

在我看来,除了通量等方面带来的进步,NGS和一代测序最大的差别在于NGS平台的复杂性,而正是其平台的复杂性与多元性带动了NGS应用性的发展,进而使得测序技术在生物学领域得到了更广泛的拓展。在研究的深度上,基于NGS的发展带动的转录组测序等领域如今也成了很热门的研究方向,NGS的建库的策略使得我们可以非常快速地鉴定大量基因组中的非编码RNA,而在一代测序中可能很少有人关注这部分内容。

基因组学作为生物学的基础学科,以往却并不受人“待见”,早期只有一代测序技术的时候,所有人都觉得这是最“烧钱”的项目。自NGS技术出现以后,科研人员对基因组学的接受程度越来越高,其应用的范围也越来越广。现在进行绝大多数生物学研究,不管是生态领域还是食品领域,越来越多的研究人员头脑中有了基因组学的意识,并将其视为常规的工具去使用,通过组学的结果辅助后续的研究。从过去“为了研究而研究”变成了“通过研究指导后续研究”,将基因组学整合到研究中,而不是单纯地为了发一篇“大文章”而进行基因组学研究。

可以说,正是NGS让基因组学从研究的终点变成了研究过程中必不可少的环节,就这方面而言,NGS也间接推动了整个生物领域的发展。

过度解读不容忽视

如今精准医学飞速发展,如何将基因技术更好地应用于临床、造福病人是目前行业内广泛探讨的话题。很多病人在应用了某些基因检测服务后并没有达到预期的效果,造成这种现象主要有两方面原因。

第一,当前相关机构对于基因检测的内容存在过度解读的问题。对于任何一个个体,我们无法通过一个或几个基因解读出所有的信息、解决任何问题。而多度解读也让临床医生和患者等对这项技术造成了更多的误解,这不利于基因技术向临床的推广与转化。

第二,很多公司在设计产品时没有与临床紧密结合,并未从医生的角度来去设计产品。从科研的角度设计产品必然是希望其功能尽可能全面,但很多时候这些设计并不是医生所需要的。临床医学从诊断到治疗以及后期的追踪是一个完善的体系,若想将一个新技术加进去,唯一可行的方案是将此技术无缝地嵌入到体系中,而不是在这个闭合的体系上“节外生枝”。

同时,当前很多临床医生对生物信息学不甚了解,并不清楚检测后续的应用,如果一个公司仅仅是得出了检测报告就撒手不管,那么这个产品就很难进行后续的推广,因此关于信息解读之后的工作,众多企业和公司还需要更加全面的跟踪与服务。

打破数据共享“桎梏”还需国家发力

目前,国内的基因大数据庞大而丰富,且来源非常广泛。中国人口基数庞大,国内每年仅各个高校、研究所产生的数据都是异常惊人的,所积累的原始数据在世界上更是最丰富的。此外,中国的数据具有其他国家难以匹及的多样性,有着独特的多元化特点。中国每年开展了众多的农业项目,很多动植物新物种的测序工作都是中国进行的,所积累的农业大数据同样不容忽视。

虽然中国的大数据在各个方面都是处于世界领先地位,但目前中国还没有像NCBI、EBI这样得到世界公认的综合数据中心。目前虽然多方人员在积极搭建中国的数据共享平台,但仍需要突破诸多难点。

从国内自身的硬件来讲,面对中国庞大的数据量,建立如此复杂的中心,对硬件、软件等都是巨大的挑战。中国每年会产生海量的数据,如果都递交到一个中心,则需要一个庞大的实体来承接这些数据,其网络、带宽、存储能力都是空前庞大的。同时,维持这样庞大的数据库需要充裕的人力资源。这样精密而庞大的工程是很难由一个研究所承担。所以我们应该回过头思考,我们有没有准备好建立这样一个共享中心?建立这样庞大的中心必然是国家行为,其维护与运营的成本也是巨大的。在我看来,最大的影响因素是国家对生物数据的态度,但目前国家现在没有这样的相关政策。从长远来看,一定需要专门的机构专职进行此方面工作,与之配套的则是国家的政策支持,对大数据管理也要上升到国家的层面上。

此外,从外向内来看,如果中国建立了这样一个数据共享的中心,虽然它承载了中国庞大数据量,但如何将其展现给世人并让世人接受也是值得深思的问题。与其他数据库直接应该以怎样的方式存在或进行数据共享,这同样涉及到政策的问题。综上所述,若想建立中国自己的数据共享中心,对内、对外都有很长的路要走,这更需要国家发力。

人才资源是未来的竞争关键

随着多种高通量DNA分析技术的不断发展和高性能计算能力的持续提高,基因组科学正在以前所未有的速度产生着大量的基因组数据和生物学信息,为科学研究提供了大量宝贵的原始数据。由数据到信息再到知识,它正在革命性地改变着基因学研究思想和方法论。中国科学院基因组科学与信息重点实验室也因此应运而生。

目前实验室大致有三个研究方向。第一个方向偏理论方面,主要进行机理等科学研究。近些年实验室在表观组学方面,在DNA级RNA水平都取得了很多颇有影响的成果。第二个方向就是纯粹的基因组学的工作,如我们的课题组进行的复杂、疑难基因组的新方法、新策略的建立等。第三个方向是偏向应用方面的,即利用组学的数据、组学平台和分析手段,解决实际问题,如法医、肠道微生物及药物基因组学方面的研究。

2006年底实验室成立,在当时也算是走在全国前列。虽然实验室成立的时间短,但已经硕果累累,但从实验室运行的角度,其实最大的压力现在还是在人才的资源的匮乏。目前人员的竞争十分激烈,如何吸引高水平的国内外的人才是十分重要的问题,所领导也十分重视人才引进的问题。

对于年轻人而言,很多年轻人愿意尝试新鲜的事物,同时生活的压力也很大,很多人会考虑先满足自身的基本生存,所以从高校或研究所毕业的学生直接去工作的越来越多,这无可厚非。作为老师,会为每个学生给出一些未来的建议,但也会尊重每个学生做出的决定,只要学生所做的决定是在“正路”上,老师唯一能做的就是尽自己的能力来支持。

自精准医学的概念被提出后,精准医学至今依然十分火热,紧随其后的就是创业的热潮,创业机会众多。很多年轻的有志青年人才纷纷创业,人才的流动造成了研究所及高校人才资源的严重不足,这也从侧面说明了行业目前的火热程度。在未来,人才的流动会区域多元化,人才资源的竞争在未来也会更加严峻。没有人,一切都无从谈起。

研究型测序与应用型测序

说起测序的未来趋势,在当前的环境下,就测序技术的未来发展,我认为会出现两个迥然不同的方向:研究型的测序及应用型测序,其区分也会在未来愈加明显。

对于研究型测序,其追求的方向是绝对的低成本及高通量。如今年Illumina推出的NovaSeq测序仪,其以高通量、低成本以及标准化的分析为导向,其发展方向即是以更低的成本,测序更多的人群或样本。对于这种高通量的测序,很显然更适合进行科学研究,如进行国家大人群的基因组测序和已知物种的测序。而单分子测序势必会在未来发挥更大的作用,成为未来发展的方向。

与研究型测序不同的应用型测序,其目的性与时效性则会更强。如近两年格外火热的肠道微生物宏基因组领域等,其直接对应的就是临床的应用市场,因此基于这方面的测序会更有针对性。此外,测序系统的时效性也是重要的影响因素,目前测序的周期需要一周或更长的时间,在未来的应用市场,必将开发出整合型、低通量的快速测序技术。同时,应用型测序的数据的分析解读也将在未来变得更加标准化、智能化。目前,测序数据仍有大量内容靠人工解读。随着生物信息学等多学科的交融与发展,势必会产生更加有针对性、快速且精准的解读系统。但对于应用型测序,并不是单纯把通量降低就万事大吉了,还要考虑到成本、时效性等多方面因素,让其更适合临床应用,这则需要在最初的设计上根据其目的作出全面的规划。

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

往期精品(点击图片直达文字对应教程)

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家

 NGS接龙丨中科院北京基因组所胡松年:测序相伴二十六年,解读“添麻烦”的NGS…-编程之家