T细胞受体(TCR)与表位之间相互作用的计算建模对于免疫治疗和抗原发现至关重要。然而,目前的TCR-表位相互作用预测工具仍处于相对初级的阶段,并且在解析潜在结合机制方面能力有限,例如,表征TCR和表位之间的成对残基相互作用。因此,研究人员共同设计了一种新的基于深度学习的TCR-表位相互作用建模框架,称为TEIM-Res(TCR-表位相互作用建模与残基水平)。该模型以TCR和表位的序列作为输入,预测参与相互作用的成对残基距离和接触位点。为了解决当前数据匮乏的瓶颈问题,该模型采用了少样本学习策略,将序列级别的结合信息纳入到残基级别的相互作用预测中。验证实验和分析结果表明其良好的预测性能和设计的有效性。该项工作展示了三个潜在的应用:揭示突变TCR-表位对的微小构象变化,基于表位特异性TCR池揭示关键接触,以及挖掘内在的结合规则和模式。各种证据都表明,TEIM-Res可作为一个有用的工具,全面描述TCR-表位相互作用并理解结合机制的分子基础。该工作由AIR副教授马剑竹(通讯作者)课题组与清华大学交叉信息研究院合作完成,并于2023年5月刊发。

Extrapolating Heterogeneous Time-Series Gene Expression Data using Sagittarius
理解基因表达的动态变化对于发育生物学、肿瘤生物学和生物老化至关重要。然而,在实验室中,特别是在生物过程的非常早期或非常晚期,某些时间点仍然具有挑战性。在这里,研究团队提出了Sagittarius模型,一种基于Transformer的模型,能够准确模拟实验室无法测量的时间点上的基因表达谱。Sagittarius的关键思想是学习一个多数据模态共享的低纬度空间,并从中生成模拟的时间序列测量数据,从而明确地建模未对齐的时间点和时间序列之间的条件批次效应,并使该模型广泛适用于不同的生物学环境。该工作展示了Sagittarius在推断哺乳动物发育基因表达、模拟未测量剂量和治疗时间下的药物诱导表达,以及增加数据集以准确预测药物敏感性方面的有希望的性能。该工作还利用了Sagittarius模拟了早期癌症患者的突变谱,从而进一步发现了与刺刺信号通路相关的基因集,这可能与肉瘤患者的肿瘤发生相关,包括PTCH1、ARID2和MYCBP2等。通过用关键但难以测量的模拟数据点增强实验的时间序列数据集,Sagittarius可以更深入地了解异质转录组过程的时间动态,并可以广泛应用于生物学的时间序列推断。该工作由AIR副教授马剑竹课题组与华盛顿大学合作完成,将于2023年6月刊发。