1.扰动测序,复合扰动效应与基因互作推断
2016年,Aviv Regev课题组在Cell上发表了Perturb-seq扰动测序技术1。基于腺病毒转染sgRNA所介导的CRISPR-Cas9敲除,借助合理控制感染复数(MOI)以及额外的荧光/抗生素筛选、测序后UMI统计,足以确保每个进入分析的单细胞转录组都只受到了单个敲除,或者说,基因扰动的影响。在这样的前提下,作者得以对细胞转录组变化受扰动的影响进行如下极为简单的线性建模
其中,Y是观察到的细胞表达矩阵(的对数变换),X是实验的设计矩阵,对于每一个细胞对应的行,不仅包含其受到何种sgRNA扰动的信息,也包含有其他参量的信息(例如测序深度、细胞周期/其他细胞状态、实验批次等等)。这是因为细胞表达矩阵不止受到扰动的影响,也受到其他参量(尤其是测序深度)的影响。对于这些协变量的建模,能够分离它们对于基因表达的影响因素,增强模型的准确性和可解释性。最终,这个简单的线性模型通过ElasticNet回归的方法,得以求解调控矩阵β,从而得到每个设计因素(例如每个sgRNA或者其他技术上的协变量)对转录组的影响。
β是很可能没有解析解的。固然可以列出如下解析形式:
这个线性模型无疑十分朴素,但也足够强大,尤其是在单细胞测序刚刚出现的时代,过往基于测序数据对基因调控网络的分析还停留在WGCNA这种分析高表达相关性模块的思路,这篇文章就已经通过结合基因扰动测序和线性分解,从单细胞转录组数据,对转录因子扰动所产生的转录效应进行聚类,得到了转录因子的调控模块,以及这些模块所调控的基因表达程序,进而得到了转录因子模块和基因表达程序的有向调控网络,这简直可说是划时代的技术。然而,这一构建出的有向调控网络的可信性验证,将是一个很大的问题。在验证的TF的规模有限——例如文章中的情况时,尚可以通过生物实验(例如CHIP-seq数据)来验证特定语义下这一调控网络是否成立;但是对于更大规模的数据,我们固然可以构建出这一网络,但它必定是杂乱、多义、缺乏可靠性的。
Perturb-seq技术发表的同时,与Regev课题组合作的Jonathan Weissman课题组也发表了类似的大规模扰动测序研究2,与前述研究不同的是,他们使用了CRISPRi的技术路线——这一技术路线可能有助于降低CRISPR敲除所致的DNA损伤对转录组的整体影响,而代价则是设计矩阵中sgRNA的有无不再直观地带来对应基因表达的“全或无”,因为CRISPRi本身往往并不会导致基因表达的完全消失。六年后,他们沿用了这一技术并将其进一步地延拓至整个人类细胞基因组上,获得了K562细胞中全表达基因(接近10000个)、以及K562与RPE1细胞中超过2000个必需基因的扰动图谱3。
对于扰动后单细胞转录组的分析,这篇文章并没有更多新奇之处:扰动与扰动聚类得到调控模块,转录组和转录组聚类得到表达程序。对于每一个调控模块或表达程序,我们可以根据既有数据库对其进行本体论注释,使其映射到特定的生物结构、过程或者功能上;对于每一对调控模块与表达程序,我们都可以得到一个平均调控强度:意味着这个调控模块对于这个表达程序是起到了增强的作用,抑或是抑制的作用。相比于Regev组的文章,这篇6年后的文章不仅没有提出更新颖的算法,甚至不再执着于构建那个转录因子到转录因子的因果调控网络了,而其背后的原因,或许正如笔者在前文所述:当数据规模不再限于数十个基因的扰动,而是扩大到全部表达基因时,这一构建出的因果调控网络究竟有多可靠,将会是高度存疑的。
但是从后来的视角看,这篇文章中有一些有趣的结果:首先是在同一种细胞中,尽管可以看到,对同一种蛋白复合体中的基因的扰动所造成的转录组变化呈现出高度的一致性,但其实任意两种扰动之间的相关性,也体现出向正相关方向的偏倚,而并非以零点为中心。这意味着有可能扰动将会造成转录组向特定方向的整体偏移——例如扰动本身对于细胞状态的不利影响。其次,同一种扰动在同一种细胞中的转录组效应是高度相关的,但是在不同类型的细胞之间,其转录组效应的相关性则低得多。这也提示扰动的转录组效应本身可能是语义依赖(context-dependent)的。假如后来虚拟细胞技术的开发者能够早些注意到这些结果,那么对于相关工具的效力检验的设计,也许就会审慎得多。当然,这些是无法强求的。
至此,单基因扰动的分析流程几乎可说是发展到了极致。接下来需要做的不过是将这一技术应用于各种各样的样本和生物学过程而已。然而仍有一些问题并没有得到回答。第一,这些实验几乎都是单基因扰动的结果,而在实际问题中,扰动往往涉及到多个基因,并且即便其中各个基因的单个扰动效应已经被解明,复合扰动的结果也不完全是——尽管在多数情况下确实近似成立——其中各个基因效应的线性加和。我们可以将这种复合扰动给出如下粗略建模
在Jonathan Weissman课题组的系列文章中,双基因的扰动互作给出了更加明确的定义。首先,他们于2018年的cell文章中5,基于双基因合成致死的概念,提出了GI score (Genetic Interaction score)。这一标量分数被定义为:
另一方面,σ则为预期适应度窗口内,基因扰动
在这一标量GI的基础上,在Weissman课题组2019年发表于Science的文章中6,进一步地考虑了单细胞测序的表达谱向量水平上的双基因扰动互作定义。在这篇文章中,作者首先界定了112个与细胞生长相关的基因,然后介导了这些基因中所有两两配对或单基因组合(通过在所有设计的sgRNA中进行两次不放回采样来实现)的CRISPR激活。因此在指定细胞中和指定基因范围内,对任意基因扰动a,b,我们能够得到其单个存在同时存在时,表达组相比于基线水平产生的变化
其中
与此同时,我们注意到该线性拟合相比实际观测值的残差
基于这样的扰动互作定义,即可通过分析基因的互作类型和上下位关系,来确定其基因调控通路上的顺序关系,文中的例子是DUSP9-MAPK1-ETS2的调控通路,展示了通过双扰动分析得到上下位关系和互作效应类别,最终所建立的线性顺序与生物学先验是一致的。然而,文章中没有、事实上也难以依据双扰动实验的数据,来自动化地建立一系列基因调控线性顺序(例如以具有边权重的有向无环图来体现),即便能够建立,这些顺序结果在多大程度上是可靠的、以及如何对其进行验证,将是较大的挑战。
此外,基因两两组合扰动实验的工作量,随着靶向基因的规模扩大将呈现平方律增加。在本研究中,单是研究112个生长相关的待测基因的任意两两组合,作者就测试了28680对独特的sgRNA对。考虑到对于任何一对sgRNA,都需要足够多的细胞、以确保测序结果对全转录组的充分覆盖、并且排除掉细胞状态波动对于扰动结果的影响,再扩大研究基因的范围所带来的工作量和成本将十分巨大——这还没有考虑扰动效应对于细胞种类和细胞状态是高度依赖的。当然从另一方面讲,这也使得现有的双基因扰动数据集格外有价值。但是,如果我们将高通量实验穷举的空间增加到3基因甚至更多的扰动组合,实验方法就变得不可行了。
我们回到第二个问题。单细胞测序技术本身作为一种终点性测量,并不能同时得到单细胞在扰动前和扰动后的转录组状态。在因果推断理论中,这被称为“反事实”配对数据。前述研究集中于扰动后状态的研究,仅仅将扰动前细胞的转录组作为衡量扰动效果的“基底”,即