杨剑,西湖大学生命科学学院教授,2003年本科毕业于浙江大学,2008年于浙大取得博士学位,同年赴澳大利亚昆士兰医学研究所从事博士后研究工作。2012年加入澳大利亚昆士兰大学,历任研究员、高级研究员、副教授、教授(2017)。2020年9月加入西湖大学生命科学学院。曾获得澳大利亚百年学院劳伦斯创新奖(2012),澳大利亚科学院Ruth Stephens Gani人类遗传学奖章(2015),澳大利亚总理科学奖(2017年度生命科学家),2018年入选国家海外高层次人才引进计划(创新长期项目)。主要致力于统计遗传学、基因组学研究,以及人类复杂性状和疾病(如:身高、肥胖、精神分裂和癌症)的大数据分析。截至2022年10月,总共发表了200多篇学术论文,所发表的论文共被引用45,000多次(数据来自Web of Science)。2018至2021连续四年被列入Clarivate Highly Cited Researchers。杨剑实验室主页:https://yanglab.westlake.edu.cn/

本次访谈由统计之都组织(第44期)。王健桥、边蓓蕾、邱怡轩和魏太云于2022年4月8日对杨剑老师进行了线上访谈,王健桥与边蓓蕾主笔采访大纲。以下是访谈正文。

结缘生物统计

统计之都:可以首先介绍下您的成长、教育和工作经历吗?又是何种契机从生物背景转变到目前交叉领域研究(统计遗传,生物统计,软件和计算)?

杨剑:我是浙江大学四校合并后的第一届本科生,专业是生物科学。专业学习内容包括动物学、植物学、微生物学、细胞生物学、生物化学等传统生物学课程。其中有一门看起来有点特殊的课程叫生物统计学,在我的印象中好像很少有老师上课带助教,但这位任课老师一次就带了两位助教。最后的考试也很独特,是唯一一门开卷考的必修课。后来我才知道这位老师是时任农业与生物技术学院的院长朱军教授。这门课的难点是对统计方法内在逻辑的理解。在大学这么多课程中,最令我感兴趣的、投入最多思考的课程,就是这门生物统计课。这是我开始接触统计的第一步。

另外一个契机是大学四年级选择毕业设计导师的时候。我先是找了我们学院(生命科学学院)一位做分子生物学的老师,然而在那个实验室待了不到半天,我就意识到自己并不适应那个环境。经过慎重的考虑,我后来选择去了我们生物统计学老师朱军教授的实验室,这也是我科研生涯的起点。

朱老师的研究领域是数量遗传学。我选择这个领域除了对生物统计的兴趣之外,另外一个原因是我喜欢计算机编程(这是我在大学里另一门非常感兴趣的课程)。数量遗传学的研究工作主要在计算机上进行,同时涉及大量的统计方法研究。正因为这两个因素,使得我本科毕业后选择留在朱老师实验室攻读博士学位(2003-2008)。

统计之都:当时生物信息或者统计遗传方向在国内是比较少见吗?

杨剑:是比较少,在我读博的过程当中,中国的生物信息学已经开始兴起,但做统计遗传学的人比较少,主要集中在动植物育种领域。直到现在,也很少有团队专门做人类统计遗传学研究。

统计之都:所以是有风险的选择?

杨剑:我当时没想那么多,就觉得喜欢。我的这种观念一直持续到现在,不会过分权衡利弊,觉得喜欢、合适就行。

去澳洲做博后

统计之都:后面去澳大利亚做博后是什么契机?

杨剑:在2007年的时候,我的导师组织了第三届国际数量遗传学大会。当时我作为志愿者去帮忙接待。这里有个插曲是我在博士期间访问过澳大利亚默多克大学李承道教授的实验室。

在李老师实验室访问三个月后,我对澳大利亚的印象不错,想着博士毕业之后可以来这里做博后,于是开始关注澳大利亚做统计遗传学的教授。2006年访问结束后,我回去参与国际数量遗传学大会的组织。在我关注的澳大利亚统计遗传学教授中,有两位是那次大会的特邀报告人,其中一位叫Peter Visscher。

在会议期间,我碰到了Peter,交谈中,我向他介绍了我博士期间的研究工作。他问我之后的打算,我说博士毕业之后大概率会出国做博后。他便让我把简历和最近发表的论文发给他。会议结束以后我发了一封邮件,之后他邀请我去昆士兰做学术报告。

于是2008年初,也就是农历年底,我去昆士兰做了一个报告。做完报告之后Peter就给了我一个口头offer。自然而然等我博士毕业后,就去昆士兰做博后,这一去就是12年。

统计之都:您在澳洲的科研工作获得高度认可,斩获很多大奖,包括澳洲总理科学奖(2017年度生命科学家)。是什么因素促使您从昆士兰大学全职回到西湖大学?

杨剑:我出国的目的就是希望有朝一日能学成回国(只是在国外的时间由最初设想的5年变成最后的12年),所以我是时刻准备回来的。

各种机缘巧合下,终于在2020年8月回来了。

统计之都:感觉您还是有意地跳过获奖的那段经历,当然这段经历也被采访过很多次了。

杨剑:对,我在澳洲还是非常被认可的,晋升、基金以及各种奖项申请都比较顺利。在澳大利亚这几年过得确实不错,但总感觉还是要回来。

在西湖大学创建统计遗传学实验室

统计之都:可以介绍下您在西湖大学现在的研究方向、品位风格和团队吗?

杨剑:我们是一个统计遗传学实验室,团队现有1位副研究员、1位助理研究员,6位博后、9名博士生、2名硕士研究生、2位科研助理,主要研究统计学方法在生命科学特别是遗传学中的应用。

我们的研究领域是基因组变异和群体健康,研究人类DNA变异与健康或疾病的关联。其中一个主要的研究方向是常见性状或疾病的基因定位。通过人群基因组和多组学大数据再加上不断创新的统计学方法,定位常见性状或疾病的易感基因。在博士研究生期间,我的研究对象是模式生物,如水稻、小鼠,现在的研究对象是人类群体。我们发现人类绝大多数性状都是复杂性状,比如头发的卷曲程度、肤色、眼睛的颜色,看上去好像和红花白花那样的简单性状类似,但其实要复杂得多。

即使是单基因突变的疾病,也有很多其他小效应位点,只是他们不容易被检测到而已。我经常会问,难道所有的巨人症患者都一样高吗?一定不是,他们的身高也是呈现正态分布的。在主效突变位点之外,还有很多小效应的遗传位点在起作用。

当然我们更关注的是常见疾病,如肥胖、糖尿病、癌症、精神类疾病、神经退行性疾病等。我们试图探究它们到底有多少基因参与,这些基因在哪,哪些基因可以被我们用来做新的治疗靶点?

我们做疾病基因定位一般分两步,首先是通过人群基因组学大数据定位与疾病关联大致的基因组区域,然后结合多组学的信息(如染色质的开关状态、DNA或组蛋白修饰、基因表达等)精细定位真正的功能变异位点及其对应的基因,从而有助于理解DNA变异影响疾病易感性的生物学机制。

我们另一个研究方向是癌症基因组学。我们身体里有那么多的细胞,每个细胞核内的遗传信息,几乎都完全相同,因为我们都是从一个受精卵发育成的个体。当然也有例外。一种例外是癌症发生以后,肿瘤细胞会发生大量的DNA突变(也被称为体细胞突变)。当前的主流观点认为就是因为这种体细胞突变使得我们本来正常的细胞变成癌细胞。细胞中的遗传信息作为它的核心指挥部,发生突变后,发出的指令不一样了。经过体内的“自然选择”,有些突变的细胞以后会被免疫系统消灭,但有些细胞经过不断地突变逃过了免疫系统的清除,最后发展成肿瘤,形成的肿瘤甚至会转移。对于这些变异,我们也展开了一些研究。

统计之都:这种肿瘤细胞测序似乎需要学习新的测序技术,和群体遗传数据明显不同。

杨剑:这些方面我们都有涉及,我们的态度是拥抱新技术,只要新技术、新方法能够解决问题,我们都会积极地去学习。我们之前的研究项目绝大部分都是用别人已经发表过的数据:我们发展新的方法,对已有的数据进行重新挖掘,从一个新的角度去理解数据,得到新的发现。回国以后,我们有了更多的机会,使得我们可以自己产生一些数据。

统计之都:建立新的实验室,一切都要从零开始,遇到哪些困难?比如如何去跟这些生物数据提供方合作?您是如何克服困难的?

杨剑:刚刚回来那段时间,像你说的那样有从零开始的感觉。只有一位成员从原来实验室跟着我回国,从最初的两人到现在的近20人,整个过程一开始还是有一些困难。幸好西湖大学是一所新型的研究型大学,有一些灵活的机制,为我们团队建设提供了很多便利。总体来说,虽然过程一定是困难的,但困难时间很短。

我们其中的一个困难是:在国外使用的数据都不能带回国,只能在国内重新申请。我们当时在国外使用的数据大部分来自公共数据库,比如说UK Biobank。我一回国就马上开始申请数据,首先向学校的伦理委员会提出申请做人类遗传学研究。伦理委员会批准以后,我们提交申请材料到UK Biobank,从提交申请到被批准需要一段时间。获得批准以后我们再开始下载数据。另外不止UK Biobank,还有很多其他的数据。因为数据量很大,所以整个过程需要方方面面的支持。回国不到半年,主要数据都到位了,实验室开始正常运转。

杨剑老师的团队

打造统计遗传软件工具

统计之都:刚才提到,您的大框架是研究基因组变异与人类复杂性状疾病的关联。但我们也注意到您的绝大多数工作都集成在GCTA (Genome-wide Complex Trait Analysis) 软件中,这个软件也算是您的代表作。

杨剑:是的,GCTA集成了我们多年开发的一系列统计遗传学分析方法。GCTA软件的源代码已在GitHub上公开了,我们非常希望各类人才能够帮我们不断改进代码,让GCTA软件变得更好。

统计之都:您设计了一个软件论坛,让大家来提问讨论。这份“售后”服务,已经超过绝大多数工作了。

杨剑:你知道有关GCTA的邮件我们回了多少封吗?早期有些邮件我没有保存,保存的邮件就有近5000封,这还不包括论坛上面的回复,所以我们确花了很多时间去做这件事情。很多时候我想着别人来问,如果没有得到回复是很不好的感觉,推己及人,所以尽量都给予回复。

因为自己的工作逐渐变得繁重,我的代码贡献逐渐减少,之后开始由实验室的其他成员开发和维护。刚回国的时候,国内的Linux开源操作系统OpenEuler社区的生信团队联系我,说想把GCTA改为可在ARM架构的系统上运行。他们花了一些时间完成了这个项目,现在网上开源的GCTA版本,就是可以直接在ARM架构的系统上编译运行。类似这种贡献,我们特别欢迎。特别希望最终整个社区都能参与GCTA的开发和维护。

统计之都:您是怎么走向打造生物统计软件这条“不归路”的?有什么故事吗?

杨剑:我的博士导师曾说过这么一句让我终身受用的话:如果你开发了一个新的统计方法,就一定要把它写成计算机软件。这个原则我一直沿用至今,只要我们开发了一个有价值的方法,就一定会把它写成一个用户界面友好的计算机软件。

我的软件开发“生涯”始于本科毕业设计。当时导师让我做一个图形界面软件,而我在这方面没有任何基础,所以一开始有点懵。后来我在各大论坛上询问用什么样的软件,什么库去做这事。最后有人推荐我用MFC库来开发。我买了一本书叫《21天教你学会C++》,坚持了19天后,我开始做项目,后来真的把软件给做出来。现在回想这件事情我还觉得有点不可思议。

对于GCTA,2010年的时候(我当时还在Peter Visscher实验室做博士后),我们发表了一篇重要论文,提出了SNP遗传率(SNP-based heritability)这个概念,某种程度上解决了丢失遗传率(missing heritability)问题。当时整个领域都很困惑,因为通过全基因组关联研究(GWAS)定位到的与性状关联的DNA变异只能解释很少一部分性状方差,但大家又知道有些性状比如身高,遗传因素其实占(性状方差)很大的比重。比如当时GWAS定位到的遗传位点只能解释5%的身高方差,而我们所知的身高遗传率绝对不止5%,这就是丢失遗传率问题。

当时那个文章发表以后,我完成了GCTA的第一个版本和使用手册。

统计之都:越重要的工作受到的关注、讨论越多。对于您估计遗传率文章,当时有很多讨论,甚至有文章都发到PNAS上。您怎么看待这个事?

杨剑:是的,但那篇PNAS文章可以忽略,因为是他们理解错了,我们后来清楚地解释他们的疑问。但一个关于模型假设的争论一直存在,就是假设遗传因子对性状的效应服从单一的正态分布,这个假设不能完全刻画遗传效应的异质性。对于这个问题,我们2015年的论文提出了一个解决方案,即根据等位基因频率和连锁不平衡值将变异位点分层。

软件、数据建设和评价体系

统计之都:写一个好软件很费精力,还要不断维护、更新,却很难得到学术界的认可?

杨剑:目前的评价标准确实对写软件的学者不太有利,除非这个软件的相关论文能在顶级期刊发表。

统计之都:目前很多优秀软件的开发维护都是出于作者自己的热情。那么您觉得是否有可能设计一种激励机制,可以鼓励更多研究者投身于软件的开发,系统的维护等等。

杨剑:我认为是很困难的,主要还是评价体系的问题。就现在的评价体系而言,期刊的影响因子权重太。不过,评价体系也一直在变,从早期看数量,到后来看影响因子,是一个慢慢变化的过程。我觉得最终我们会发展到多元化的评价,比如同行评议。

统计之都:数据集是生物信息研究中非常重要的资料,您了解这方面国内的发展状况吗?您提到国内很少有大队列(Cohort)数据,您对此有什么期待和建议?

杨剑:国内的大队列数据确实相对较少。我们目前可能有两个主要问题需要解决。第一,激励机制包括评价体系不再局限于个人发表论文,而是考虑对整个领域的贡献。建立优质的数据集本身就是非常重要的贡献,其他人用该数据集产生的成果都应该给数据建立者记功(即使他们不在作者列表里),这样能形成一个良性循环。第二,在合乎伦理、法规情况下的数据共享。我觉得这两者相辅相成,一旦有个良好的激励机制,后续的数据共享也就是自然而然的,也会促进更多数据的产生。

生物和统计的合作

统计之都:不同的学者看问题的角度会不一样,大家应该如何合作?比如说有统计出身的同学,他想尝试遗传相关的一些工作,但因为没有相关领域知识就不敢轻易尝试。您能不能谈一些经验,如何更有效地去开展合作。

杨剑:统计出身的同学做生命科学研究应该会大有可为。当代生命科学研究已经进入高通量时代,现在任何一个生物学实验里基本上都有高通量数据。统计学和生物学的结合会有意想不到的加成。一个经典例子是Eric Lander 和David Botstein,Eric Lander是数学出身,不懂生物,而David Botstein是一个很纯粹的生物学家。他们两个人在一起工作,在1989年做出了一项里程碑式的成果(注:两人在2013年获得生命科学突破奖,奖金300万美元)。

统计学家能在大量的数据里面找到规律,这可能是生物学家做不到的。生命科学之前的研究范式是通过实验验证假设,但很多情况下我们并不知道应该去验证怎么样的假设。那么假设是怎么来的呢?可以从数据中来,数据往往是新假设产生的源泉,而且有些现象只能在海量的数据中才能被观测到。当我们看到了一个新的现象,然后我们再去思考这个现象背后可能的原因是什么,提出假设,再(跟别人合作)设计实验来验证。

广阔、深入的合作需要学校的支持,光靠个人很难。如果学校没有相关组织和机制,你连人都碰不到。假如一个大学里面统计系的人只跟统计系的人在一起,生物系的人只跟生物系的人在一起,平时碰不到一起,很难有深入合作的可能。一定要有某种学科交叉机制,把他们拉到一起经常接触、反复讨论,才有可能碰撞出火花。

生物统计在中国还需大力发展,目前国内的生物统计系屈指可数,没有这样的交叉学科平台让生物、统计的人泡在一起,很多海外做生统的人想回来的人都没地方去。

八卦时刻

统计之都:您有什么爱好?

杨剑:我在生活上是一个比较无趣的人,没啥八卦。爱好的话,就是看看体育比赛。

统计之都:统计之都成立16年了,致力于统计学知识的传播,您想对统计之都说些什么?

杨剑:我觉得有这么一个平台跟大家交流非常新颖。坦白讲,我觉得统计之都宣传还不够,至少之前我还没有听说过,我希望更多的人,至少在中国做生物统计,跟统计有关的人都知道,然后就会有更多人参与。另外我希望它能够回归大众,因为有时候我们太学术,影响力不够。

统计之都:最后,广告下西湖大学和学院?有哪些独特之处?您对来西湖大学读书的青年学子有什么寄语?

杨剑:西湖大学是一所社会力量举办的、国家重点扶持的、新型研究型大学,办学特色是小而精、高起点、研究型。因为我们是新型研究型大学,像研究生招生我们完全采用申请考核制,唯一的硬性要求是英语。英语过线后,就可以进入初试,然后是复试(面试)。最近几年我们招的博士生质量也非常高。让我印象很深刻的点就是,很多在国外读完本科或硕士再回到国内西湖大学来读博士研究生,比例特别高。每年都有百分之十几来自海外院校,这在我们当年是不可想象的。

我们今年第一次招生本科生,可能只招60个,目标是小而精。我今后可能也会参与生物统计课程的教学,我希望这些学生在上过生物统计课之后能有一些基本的统计思维和数据分析能力,有助于他们将来的研究或者工作。

统计之都:感谢您接受采访!

发表/查看评论