“蛋白质结构预测”问题描述

相信很多学CS的同学之前都没听说过“蛋白质结构预测”这个问题,直到2018年12月初,一则劲爆消息瞬间引爆了CSer的朋友圈,那就是Google Deepmind团队开发的AlphaFold一举拿下当年的CASP比赛冠军,而且远远甩开了第二名。我当时就转载过类似的公众号文章,大家可以阅读并想象当时朋友圈的欢呼声:阿尔法狗再下一城 | 蛋白结构预测AlphaFold大胜传统人类模型。 当时,很多同学也转载过类似的文章,但其实很少有人真正明白“蛋白质结构预测”这个问题是什么,它的难度有多大,CASP是个什么比赛,以及AlphaFold的内部原理是什么。当然,对于这一连串的问题,我当时也是懵逼的。不过自己好歹也是个跟蛋白质有关的PhD,如此热点事件,自然是要关注的。不过之后一直没时间,直到今年相关顶级文章再次爆出,我就借着准备文献讲评的机会了解了相关的知识,在这里跟大家分享一下。 https://upload.wikimedia.org/wikipedia/commons/a/a9/Protein_folding.png 蛋白质结构分为四级,分别是一级结构、二级结构、三级结构和四级结构,下面分别描述。 一级结构 蛋白质的一级结构可以理解为一条线性的字符串,比如MSFIKTFSGKHFYYDKINKDDIVINDIAVSLSNICR。其基本组成单元是一个个的氨基酸,即一个个的字母。氨基酸有单字母表示和三字母表示,为了简洁,本文使用单字母表示,下图的例子是三字母表示。常见的氨基酸只有20种,所以一级结构的字符串通常只包含20种字母,不包含的6种字母是BJOUXZ。 http://oregonstate.edu/instruct/bb450/450material/schedule450s17e.html 本文大部分蛋白质基础知识都来源于此 20种氨基酸的结构符合一个通式,如下图所示,中间的碳原子称为Cα碳原子,表示它处在α位;左边连了一个氨基-NH2,称为N端;右边连了一个羧基-COOH,称为C端。20种不同氨基酸的差别就在于Cα上连接的侧链基团R,具体的差别网上一搜就能查到。 https://upload.wikimedia.org/wikipedia/commons/c/ce/AminoAcidball.svg 20种氨基酸连接的方式为脱水缩合,即一个氨基酸的羧基-COOH和另一个氨基酸的氨基-NH2反应,丢掉一个H2O,形成一个肽键-CO-NH-,如下图所示。丢掉了羧基和氨基的氨基酸被称为氨基酸残基,这个名词很形象,氨基酸缺胳膊少腿,所以变成了“残”基。 二级结构 二级结构就是在一级结构的字符串的基础上,肽链怎样进行盘旋、折叠等变换,形成一种局部的三维结构,这种局部的三维结构通常由氢键支撑。常见的二级结构有α螺旋和β折叠,如下图所示。其中α螺旋的每个残基的-NH的H和临近的第4个残基的-CO的O形成氢键,由此支撑α螺旋的结构稳定性,如下图的箭头所指虚线。β折叠则是两条肽链,平行排列,对应残基的-NH的H和-CO的O形成氢键,由此形成两股β折叠的结构,多股β折叠形成类似手风琴的样子。β折叠分为平行和反平行排列,我们前面介绍到肽段分为N端和C端,如果形成β折叠的两股链都是从N到C(或从C到N),则称为平行排列,否则是反平行排列。每股β折叠都有一个大箭头表示其方向。 细分的话,蛋白质的二级结构总共有8种,包括转角、无规则卷曲等。目前常采用DSSP的分类方法,有些文献会把8种结构粗分为α螺旋、β折叠和转角这三种结构。 由上图可知,蛋白质的二级结构极大的决定了其三级结构(下面介绍),所以有很多工作是研究怎样准确预测蛋白质的二级结构的,即预测每个氨基酸残基处于哪一种二级结构中。形式化表示就是,对于一个蛋白质一级结构字符串\(A_1A_2A_3A_4A_5…\),输出\(a_1a_2a_3a_4a_5…\),其中\(a_i\)∈{α螺旋,β折叠,转角}。所以,蛋白质的二级结构是一个端到端的问题,很像机器翻译,目前很多文章都会用深度学习NLP的方法来预测蛋白质的二级结构。 三级结构 简单理解,三级结构就是把多个二级结构拼接到一起,折叠成一个完整的蛋白质三维结构,如下图所示。维持蛋白质三级结构的力比较多样,除了氢键之外,还有二硫键、金属键等。 四级结构 简单理解,四级结构就是多个三级结构分子组合成一个复合物,就是四级结构。 https://en.wikipedia.org/wiki/Protein_quaternary_structure 对于CSer来说,由于四级结构仅仅是多个三级结构组合到一起,我们常说的蛋白质三维结构预测问题,通常是指预测蛋白质的三级结构。问题是,构成蛋白质链的原子非常多,我们怎样形式化描述一条蛋白质的三维结构呢?这还要从最原始的一级结构说起。 蛋白质结构预测问题 前面提到,两个氨基酸通过脱水缩合的方式形成肽键从而连接到一起形成一级结构(本文图四),肽键虽然是单键,但它具有类似双键的特点,即难以旋转(比如羧基中的-C=O键就是双键,无法旋转)。所以,由肽键及周围的6个原子形成了一个固定的肽键平面,这6个原子分别是-C-CO-NH-C-,如下图所示,箭头所指的红色键就是肽键,它周围画出了一个平面,就是肽键平面。 肽键平面的存在极大的简化了蛋白质结构,可以认为这6个原子的相对位置是固定的了!另一方面,跟这个平面相连的左右两个C原子的两个键是单键,所以他们可以旋转,旋转的角度称为扭转角ϕ和ψ,为了更直观的感受肽链的肽键平面和两个扭转角,可以看下面的动画:K0045879-Rotation_around_amide_bonds_in_protein.mp4(来自https://www.sciencephoto.com/media/639617/view) 事实上,扭转角ϕ和ψ并不是在360°范围内随机均匀分布的,1963年就有科学家统计过扭转角ϕ和ψ的分布,他们发现稳定的蛋白质结构的ϕ和ψ通常只分布在一小部分区域,如下图的拉氏图所示,这些区域正好对应了常见的α螺旋和β折叠的结构。 最后,我们还需要介绍一个角度,那就是ω。前面提到,虽然肽键具有双键的特点,难以旋转,但它在少数情况下还是可以旋转的。假设通常情况下,肽键的角度定义为ω=0°,如下图所示,红色的键即为肽键,这种结构的好处是它能让形成肽键的两个残基的侧链R(图中黑色基团)离得尽量的远,这样能保持比较稳定的结构。如果肽键旋转为ω=180°,变为下图的样子,则两个侧链R很靠近,就产生位阻效应,就不稳定,所以这种情况比较少见。但不管怎么说,肽键的扭转角ω也是一个变量因素。 综上所述,对于一条肽链,如果知道每个残基的三个扭转角ϕ、ψ和ω,则可以重构出肽链的主干部分的三维结构,这就像将极坐标转换为直角坐标一样容易。需要提醒的是,本文提到的蛋白质三维结构预测问题,对蛋白质的结构进行了简化,包括:1. 仅预测蛋白质或肽链的主干结构,不考虑侧链R的结构;2. 假设肽链主干中每个键的长度是固定的;3. 不考虑键的角度,比如对于上图的肽键,仅考虑肽键绕肽键轴本身的旋转,不考虑肽键绕着某一端原子的旋转,比如固定左边的蓝色小球,肽键和右边的红色小球旋转出平面了。 下图的肽键平面,详细的标识出了各个相对固定的值。 Figure 8-1 from Fundamentals of Biochemistry 所以,对于CSer来说,蛋白质的三维结构预测问题,就可以看成一个端到端的学习问题,输入是一个字符串,输出是每个字符(残基)对应的三个扭转角ϕ、ψ和ω,问题看起来非常的简洁漂亮。而且,这个问题和NLP中的序列标注、机器翻译等问题很像,所以很多NLP的技术可以用来预测蛋白质的三维结构。下图的插画就是最近发表在Cell Sytems上的一篇用LSTM预测蛋白质三维结构的文章,我会在下一篇博客中和大家分享这篇文章。 https://www.sciencedirect.com/science/article/pii/S2405471219300766?via%3Dihub 有关“蛋白质结构预测”本身的最后一个问题是,为什么能仅仅通过一级结构的序列信息,预测得到其三级结构呢?也就是说蛋白质结构预测这个问题是否可解,如果蛋白质的三级结构还由其他因素决定,那么即使Deeplearning玩出花了,在生物上也是不可行的。所以,每遇到一个新问题,都要自问一下,这个问题从原理上是否可解。对于“蛋白质结构预测”这个问题,最开始也有人进行了类似的自问,得到的答案是可行的: 1965年,安芬森(Anfinsen)基于还原变性的牛胰RNase在不需其他任何物质帮助下,仅通过去除变性剂和还原剂就使其恢复天然结构的实验结果,提出了“多肽链的氨基酸序列包含了形成其热力学上稳定的天然构象所必需的全部信息”的“自组装学说”,随后这个学说又得到一些补充。这些学说表明:氨基酸序列确定其空间构象,从而为蛋白质结构预测提供了可行性。 http://chinaxiv.org/user/download.htm?id=6478 CASP比赛 提到蛋白质三级结构预测,不得不提的是CASP这个比赛。CASP的全称是The Critical Assessment of protein Structure Prediction (CASP),即蛋白质结构预测的关键评估,被誉为蛋白质结构预测的奥林匹克竞赛。CASP从1994年开始举办,每两年一届,最近的一届是2018年的CASP13。 每一届CASP比赛,都会提供大约100条未知结构的蛋白质序列,让所有参赛者进行结构预测,比赛结束之后,主办方会通过生化方法测定这些蛋白质的三维结构,然后和参赛者预测的结果进行比对,然后给出预测得分。提供的蛋白质序列分为两类:一类序列和PDB数据库中已有结构的序列有相似性,由此可以基于模板预测,准确度比较高,这类算法称为Template-Based Modeling;另一类序列和PDB库已知结构的序列相似度很低,可以认为是全新的蛋白质,因为无法利用已有模板信息,需要进行从头测序(De novo或ab initio或Free Modeling),目前的准确率比较低。参赛选手也分为两组,一组是servers only,即仅允许算法参赛,给定3天的时间;另一组是human and servers,即允许人和算法合作,共同预测蛋白质结构,给定3周的时间。 CASP同时提供多种比赛项目,比如常规的结构预测(Regular targets)、数据辅助预测(Data-Assisted targets)和蛋白质接触面预测(Contact predictions)等,其中数据辅助预测中提供了核磁数据(NMR)、交联数据(XLMS)等,对的,交联数据就是我目前研究的pLink处理的数据。 ...

May 25, 2019 · 1 min

《三体》始末

简化版 叶文洁向宇宙发射了一个信号 三体人接收到了这个信号 三体人计划逃离水深火热的三体星系,殖民太阳系 地球人在保卫太阳系的末日之战中,被三体舰队团灭,太阳系岌岌可危 罗辑参透了黑暗森林法则,并假借雪地工程实现了对三体星系的威慑,三体撤军,太阳系幸存 罗辑年老体衰,程心接替罗辑成为新的执剑人 三体人预料到程心心慈手软,不敢实施黑暗森林打击 三体人果断进军太阳系,程心果然没有实施黑暗森林打击,地球沦为三体人的殖民地 在太空执行任务的地球飞船发射了三体坐标,三体再次撤军,并随后遭到黑暗森林打击,三体星系灭亡 发射三体坐标也暴露了太阳系坐标,太阳系遭到更高级的打击——降维打击,太阳系被二维化 程心借助光速飞船逃离太阳系来到了云天明送给她的类地行星蓝星上 程心又进入了云天明送给她的平行小宇宙,企图躲避大宇宙的归零大爆炸 太多的小宇宙导致大宇宙质量流失,无法归零 大宇宙向所有宇宙发布回归运动声明,请求小宇宙归还质量 程心最终归还质量,回到了大宇宙 大宇宙坍缩成奇点,完成大爆炸,宇宙开始了新的轮回 扩充版 《三体I·地球往事》 叶文洁经历了父亲在文革中被迫害致死、在大兴安岭被出卖等种种事件之后,对人类的恶彻底绝望了,她决定在红岸基地度过一生。在红岸基地,她意外发现可以利用太阳作为放大器把信号发往其他星球,于是她向宇宙发出了地球的第一个信号,希望外星文明来拯救罪恶的人类。隔壁的三体文明正处于水生火热之中,收到地球信号后,决定冲出三体星球,占领地球。三体人首先派出了两个质子(智子),封锁地球的基础研究,然后派出大型三体舰队进军地球。在地球上,分两个大阵营:一个是以叶文洁为领袖的地球三体组织,可以认为是地球的叛军;另一个是各国组织的政府军,准备消灭地球叛军并对战三体人。地球三体组织又分为三个派系,降临派、拯救派和幸存派。政府军能打败地球叛军并阻止三体人的进攻吗,请看下回分解。 《三体II·黑暗森林》 地球人为了抵抗三体舰队的入侵,利用三体人思维透明的弱点,选定了四个人开展面壁者计划,其中三人相继失败。200年后,三体星球派来的水滴团灭了地球舰队的舰队方阵,足足有两千多艘几个足球场大的战舰,在一个小时内团灭。侥幸逃离的几艘战舰之间为了维持自身的生存,开始自相残杀,地球文明面临灭顶之灾。罗辑,唯一没有被识破的面壁人,参透了黑暗森林法则: 宇宙就是一座黑暗森林,每个文明都是带枪的猎人,像幽灵般潜行于林间,轻轻拨开挡路的树枝,竭力不让脚步发出一点儿声音,连呼吸都小心翼翼……他必须小心,因为林中到处都有与他一样潜行的猎人。如果他发现了别的生命,不管是不是猎人,不管是天使还是魔鬼,不管是娇嫩的婴儿还是步履蹒跚的老人,也不管是天仙般的少女还是天神般的男孩,能做的只有一件事:开枪消灭之。在这片森林中,他人就是地狱,就是永恒的威胁,任何暴露自己存在的生命都将很快被消灭。这就是宇宙文明的图景,这就是对费米悖论的解释。” 罗辑假借雪地工程,制造了一个和三体文明同归于尽的方案,即在太阳周围精心安排一层油膜,使得从宇宙其他文明的视角来看,透过油膜的点点亮光,表示三体星系的坐标。只要这个坐标发射,三体文明就会遭到黑暗森林打击。罗辑通过雪地工程,使地球文明第一次获得了和三体文明谈判的资格,在此之前,地球文明卑微如一只蚂蚁。罗辑成功了,三体文明接受了罗辑的谈判条件,地球文明幸存了下来,并且三体智子解除了对地球的科技封锁。接下来地球文明和三体文明又会发生怎样惊心动魄的故事呢,请听下回分解。 《三体III·死神永生》 《三体II》之后,罗辑拯救了地球文明,地球和三体处在互相制衡的状态,地球处于威慑纪元。由于罗辑掌握发射三体坐标的开关,决定着两个文明的生死存亡,罗辑被称为执剑人。渐渐的,罗辑老了,需要新人接替罗辑成为执剑人,程心最终竞选成功,成为新的执剑人。在这期间三体文明和地球文明交流密切,关系融洽,似乎一切都那么的平静和美好。 突然,意想不到的事情发生了,三体派出大批舰队进攻地球,而此时的执剑人程心却没能说服自己发射三体坐标(因为如果发射三体坐标,也会同时暴露地球坐标,导致地球遭受打击,作为圣母心的程心自然是受不了的)。就这样,地球沦陷,三体舰队全面占领地球,把地球人圈养在澳大利亚。 就在地球文明生死存亡之际,在外太空执行任务的“万有引力”号飞船广播了三体坐标,三体文明自知死路一条,撤离地球,地球再一次得救,处于广播纪元。不久,三体遭受黑暗森林打击,三体文明毁灭。广播三体坐标也暴露了地球的坐标,所以地球人开始探索拯救地球免于黑暗森林打击的方案。 三体文明虽然被毁灭,但由于文明发达,仍有三体人得以逃往外太空。在三体智子和地球告别之际,智子安排程心和云天明会面,云天明是程心的大学同学,暗恋程心,买下一颗遥远的恒星并送给程心,程心却在不知情的情况下把云天明的大脑发射到三体人手中。云天明被三体人复活,并被安排和程心会面,在和程心会面过程中,云天明给程心讲了三个故事,通过多重隐喻的方式传达了拯救地球的方案。 地球人通过对三个故事的研究,总结出拯救地球的三个方案: 安全声明,降低太阳系的光速,使太阳系变成一个低光速黑域,地球人把自己锁死在太阳系,永远也无法逃出。通过这种方案,让地外文明觉得太阳系不是威胁,打消进攻的念头。 超光速飞船,制造超光速飞船,飞离被暴露的太阳系,寻找新的家园。 掩体计划,将地球人迁移到类木行星的背阳面,由于类木行星距离太阳较远,当黑暗森林打击到来时,用类木行星作为盾牌,抵挡太阳爆炸发射的冲击波。 经过不断的争论和调整,地球人最终选定掩体计划,因为安全声明方案需要降低光速,难度太大,而超光速飞船即使研制出来,肯定只能让少数人逃生,由此会引发普通阶层的不满,导致地球内乱。于是,地球进入掩体纪元。 随着掩体计划的实施,地球人陆续搬迁到类木行星背阳面的太空近地轨道居住,地球人又过上了幸福的生活。可好景不长,太阳系的坐标终究是暴露了,被高级得多的歌者文明发现,他们自然知道使用常规的黑暗森林打击无法消灭躲在类木行星后面的地球人,于是他们启用了更高级的武器——降维打击!他们向太阳系发射了一张小纸条,不久这张小纸条扩大成一张二维平面,这张二维平面就像一个超级黑洞一样,把周围的三维物体吸到它的平面上,压扁,变成一张静态的二维图片。就这样,太阳系的行星包括太阳本身不断被吸到这个二维平面,坍缩成一张死去了的二维图片。要想逃躲被二维化的命运,必须以超光速飞离太阳系,但是之前的超光速飞船计划已经被明令禁止了。通常被公开禁止的东西,都有人在私底下偷偷流通,超光速飞船也不例外。程心的公司,因为各种原因,私底下偷偷研制成功了超光速的曲率驱动飞船。于是,程心和她的助理艾AA乘坐超光速飞船逃离了太阳系,来到了云天明送给她的那颗恒星的一个类地行星蓝星上,程心等人进入了银河纪元。 没想到,蓝星上有人!是之前逃离太阳系的万有引力号上的成员关一帆。在蓝星上,关一帆检测到旁边的行星灰星有飞船迹象,以为是云天明,于是和程心乘坐飞船前往灰星,艾AA就留在了蓝星。在前往灰星的路上,关一帆告诉程心,太阳系向二维平面的跌落会永远进行下去,直到整个宇宙都跌入到二维。实际上,宇宙原本是十维空间,但是由于星际战争,不断有文明使用降维打击,慢慢的,宇宙的维度就被打成了三维,现在又将被打成二维。当宇宙被星际战争打成零维之后,宇宙重启,就像把时针拨过12点一样。比起降维打击,之前人类参透的黑暗森林打击不值一提,在星际战争中,黑暗森林打击就像狙击手之间的阵地战,对于整个战争来说是件小事,而最有威力的武器是利用宇宙规律,比如降低维度用来攻击,降低光速用来防御,真是太可怕了。 关一帆和程心来到灰星之后,发现了曲率驱动飞船留下的尾迹——死线,这五根死线非常粗非常黑,只有很高级的飞船才能产生如此粗和黑的死线,关一帆猜测是归零者的飞船留下来的,归零者是一群智慧个体,想重启宇宙回到田园时代。这些死线(很粗的圆柱体)是绝对的光速为零的黑域,任何东西只要进去了,就逃不出来,必死无疑。这些死线还有一个特点是如果周围有其他曲率驱动飞船,则产生的死线会和已有的死线发生干扰,使得黑域扩散。 所以非常不巧的是,归零者来到了灰星,而云天明来到了蓝星,而程心他们却去了灰星。更可怕的是,云天明的曲率驱动飞船产生的尾迹和归零者的死线产生了干扰,导致黑域扩散,关一帆和程心的飞船跌入黑域,光速变慢。在黑域里,电子计算机和量子计算机失效,关一帆启动了神经元计算机,同时,由于氧气不足,他们两进入了冬眠。经过几天的航行,他们的飞船终于回到了蓝星,但因为他们的光速变慢了,所以他们的几天,对于处在蓝星上的艾AA和云天明来说已经是几千万年之后了。关一帆和程心在蓝星上找到了艾AA和云天明留给他们的礼物,一扇门,一扇通往另一个平行小宇宙的门,当然,这个小宇宙也是云天明送给他们的。关一帆和程心来到了这个小宇宙,很巧的是,智子也在这个小宇宙里,作为该小宇宙的管家。智子告诉两位,这个小宇宙是时间之外的宇宙,和之前的宇宙是平行的,能躲过之前大宇宙的坍缩。当大宇宙坍缩到奇点然后大爆炸形成新的大宇宙之后,他们就可以从这个小宇宙回到新的大宇宙,开始新的田园生活了。 原本以为关一帆和程心会在小宇宙中幸福的生活下去,没想到,他们突然收到了大宇宙的超膜广播,用一百多万种语言写成的广播,广播内容是回归运动声明: 回归运动声明:我们宇宙的总质量减少至临界值以下,宇宙将由封闭转变为开放,宇宙将在永恒的膨胀中死去,所有的生命和记忆都将死去。请归还你们拿走的质量,只把记忆体送往新宇宙。 即有太多的文明发现了可以制造小宇宙来躲避大宇宙的坍缩,导致大宇宙的质量减小到临界值而无法完成归零的大爆炸,大宇宙将由封闭转变为开放,在永恒的膨胀中死去。该声明请求所有小宇宙归还他们拿走的质量,以完成大宇宙的归零。 在经历了几百年的星际战争,在亲眼目睹了太阳系母亲的坍缩和宇宙的黑暗之后,程心和关一帆内心平静,他们决定响应回归运动,将小宇宙的所有质量,包括天、地、太阳、飞船等等一切质量,都拆卸下来归还给了大宇宙。最后,关一帆、程心和智子,手拉手,离开了小宇宙,进入了大宇宙,开始了宇宙新一轮轮回。死神永生! 读后感:佩服大刘巨大的脑洞!全书看完,完全不觉得是科幻小说,所有物理、生物、计算机的知识,运用得天衣无缝,毫无破绽,觉得这就是地球、太阳系、宇宙的未来。科幻作家首先要是一名合格的作家,本文的文学性毫不弱于其科幻性,我贫乏的语言已经不足以表达这部作品的伟大了。《三体》系列完全可以拍成一部不输于冰与火之歌的史诗巨作!推荐看完全书的同学去B站看文曰小强的速读视频,这个up主也是厉害,如此硬核的小说,用84分钟就讲完了。如果没看过原书就不推荐看了,因为小说本身的信息密度就很高,再经过小强加工压缩到84分钟,信息密度就更高了,很可能会看得一头雾水。总之,膜拜大刘,一举把中国的科幻水平提高到世界水准。

May 18, 2019 · 1 min