虚拟细胞的前夜：扰动测序与转录调控的因果机制推断（一）

虚拟细胞的前夜：扰动测序与转录调控通路的因果机制推断（一）

1．扰动测序，复合扰动效应与基因互作推断

¹ $Y=X\beta$

其中，Y是观察到的细胞表达矩阵（的对数变换），X是实验的设计矩阵，对于每一个细胞对应的行，不仅包含其受到何种sgRNA扰动的信息，也包含有其他参量的信息（例如测序深度、细胞周期/其他细胞状态、实验批次等等）。这是因为细胞表达矩阵不止受到扰动的影响，也受到其他参量（尤其是测序深度）的影响。对于这些协变量的建模，能够分离它们对于基因表达的影响因素，增强模型的准确性和可解释性。最终，这个简单的线性模型通过ElasticNet回归的方法，得以求解调控矩阵β，从而得到每个设计因素（例如每个sgRNA或者其他技术上的协变量）对转录组的影响。

${{(X}^TX)}^{-1}X^TY\ =\ {{(X}^TX)}^{-1}{(X}^TX)\beta$ $X^TX$ 真的可逆；即便真的可逆，由于这是一个巨大的稀疏矩阵（尤其是sgRNA设计部分的高度稀疏性)，意图求逆在操作上也是不现实的。

这个线性模型无疑十分朴素，但也足够强大，尤其是在单细胞测序刚刚出现的时代，过往基于测序数据对基因调控网络的分析还停留在WGCNA这种分析高表达相关性模块的思路，这篇文章就已经通过结合基因扰动测序和线性分解，从单细胞转录组数据，对转录因子扰动所产生的转录效应进行聚类，得到了转录因子的调控模块，以及这些模块所调控的基因表达程序，进而得到了转录因子模块和基因表达程序的有向调控网络，这简直可说是划时代的技术。然而，这一构建出的有向调控网络的可信性验证，将是一个很大的问题。在验证的TF的规模有限——例如文章中的情况时，尚可以通过生物实验（例如CHIP-seq数据）来验证特定语义下这一调控网络是否成立；但是对于更大规模的数据，我们固然可以构建出这一网络，但它必定是杂乱、多义、缺乏可靠性的。

Perturb-seq技术发表的同时，与Regev课题组合作的Jonathan Weissman课题组也发表了类似的大规模扰动测序研究²，与前述研究不同的是，他们使用了CRISPRi的技术路线——这一技术路线可能有助于降低CRISPR敲除所致的DNA损伤对转录组的整体影响，而代价则是设计矩阵中sgRNA的有无不再直观地带来对应基因表达的“全或无”，因为CRISPRi本身往往并不会导致基因表达的完全消失。六年后，他们沿用了这一技术并将其进一步地延拓至整个人类细胞基因组上，获得了K562细胞中全表达基因（接近10000个）、以及K562与RPE1细胞中超过2000个必需基因的扰动图谱³。

对于扰动后单细胞转录组的分析，这篇文章并没有更多新奇之处：扰动与扰动聚类得到调控模块，转录组和转录组聚类得到表达程序。对于每一个调控模块或表达程序，我们可以根据既有数据库对其进行本体论注释，使其映射到特定的生物结构、过程或者功能上；对于每一对调控模块与表达程序，我们都可以得到一个平均调控强度：意味着这个调控模块对于这个表达程序是起到了增强的作用，抑或是抑制的作用。相比于Regev组的文章，这篇6年后的文章不仅没有提出更新颖的算法，甚至不再执着于构建那个转录因子到转录因子的因果调控网络了，而其背后的原因，或许正如笔者在前文所述：当数据规模不再限于数十个基因的扰动，而是扩大到全部表达基因时，这一构建出的因果调控网络究竟有多可靠，将会是高度存疑的。

但是从后来的视角看，这篇文章中有一些有趣的结果：首先是在同一种细胞中，尽管可以看到，对同一种蛋白复合体中的基因的扰动所造成的转录组变化呈现出高度的一致性，但其实任意两种扰动之间的相关性，也体现出向正相关方向的偏倚，而并非以零点为中心。这意味着有可能扰动将会造成转录组向特定方向的整体偏移——例如扰动本身对于细胞状态的不利影响。其次，同一种扰动在同一种细胞中的转录组效应是高度相关的，但是在不同类型的细胞之间，其转录组效应的相关性则低得多。这也提示扰动的转录组效应本身可能是语义依赖（context-dependent）的。假如后来虚拟细胞技术的开发者能够早些注意到这些结果，那么对于相关工具的效力检验的设计，也许就会审慎得多。当然，这些是无法强求的。

$E=A\beta_A+B\beta_B+A\odot B\beta_{AB}$ $A \odot B$ $\beta_A$ $\beta_B$ $\beta_{AB}$ $\beta_{AB}\approx0$ ），复合效应约等于两者效应的简单加和⁴。

⁵ $GI=\ \frac{\rho_{ab\ observed}-\ \rho_{ab\ expected}}{\sigma}$ ρ $\rho_a=\ {log}_2(\frac{{Reads}_{a,\ T_{end}}}{{Reads}_{a,\ T_0}})$ ${Reads}_{a,\ T_0}$ ${Reads}_{a,\ T_{end}}$ ${fit}_Q$ ${\rho_{ab\ expected}=\ fit}_Q(\rho_a)$ 。

$a$ $ntc$ 的预期值与实际观测值的残差的分布离散度，作为对于实验噪声的建模。最终，GI的正负号决定了双基因扰动的互作是协同性的（GI<0），抑或是缓冲性的（GI>0）。

⁶ $\delta_a$ $\delta_b$ $\delta_{ab}$ $\delta_{ab\ expected}=\ C_a\delta_a+\ C_b\delta_b=\ \delta_{ab\ observed}-\ \varepsilon$

$C_a$ $C_b$ $\beta_{AB}=(C_a-1)\delta_a+(C_b-1)\delta_b$ $\delta_a$ $\delta_b$ $C_a$ $C_b$ 的取值，于是得以确定两个基因的关联模式：共线性足够高，即意味着两者为协同作用，若共线性低，则检查线性拟合系数：若两者比率接近1，则说明存在缓冲效应；若两者比率偏离1，则意味着其中一个基因具有主导作用（即上位基因)。

$\varepsilon$ $R^2$ $\delta_{ab\ expected}$ $\delta_{ab\ observed}$ 的方向相关性d（介乎于0~1之间)，也可以得到对于非线性效应强度的度量。

基于这样的扰动互作定义，即可通过分析基因的互作类型和上下位关系，来确定其基因调控通路上的顺序关系，文中的例子是DUSP9-MAPK1-ETS2的调控通路，展示了通过双扰动分析得到上下位关系和互作效应类别，最终所建立的线性顺序与生物学先验是一致的。然而，文章中没有、事实上也难以依据双扰动实验的数据，来自动化地建立一系列基因调控线性顺序（例如以具有边权重的有向无环图来体现），即便能够建立，这些顺序结果在多大程度上是可靠的、以及如何对其进行验证，将是较大的挑战。

此外，基因两两组合扰动实验的工作量，随着靶向基因的规模扩大将呈现平方律增加。在本研究中，单是研究112个生长相关的待测基因的任意两两组合，作者就测试了28680对独特的sgRNA对。考虑到对于任何一对sgRNA，都需要足够多的细胞、以确保测序结果对全转录组的充分覆盖、并且排除掉细胞状态波动对于扰动结果的影响，再扩大研究基因的范围所带来的工作量和成本将十分巨大——这还没有考虑扰动效应对于细胞种类和细胞状态是高度依赖的。当然从另一方面讲，这也使得现有的双基因扰动数据集格外有价值。但是，如果我们将高通量实验穷举的空间增加到3基因甚至更多的扰动组合，实验方法就变得不可行了。

$\delta_a=\left(T_a-T_0\right)=f\left(A\right)+\varepsilon$ $\varepsilon$ $\delta_a=\ f\left(A,\ T_0\right)+\varepsilon$ $T_0$ $\delta_a$ $f$ $\delta_{ab}=\ f\left(A+B,\ T_0\right)+\varepsilon$ ？在拟合这个映射的参数同时，我们也就得到了A和B的互作模式？至此，基于变分推断原理的深度生成模型进入了人们的视野。

1 Dixit, A. et al. Perturb-Seq: Dissecting Molecular Circuits with Scalable Single-Cell RNA Profiling of Pooled Genetic Screens. Cell 167, 1853-1866 e1817, doi:10.1016/j.cell.2016.11.038 (2016). ↩

2 Adamson, B. et al. A Multiplexed Single-Cell CRISPR Screening Platform Enables Systematic Dissection of the Unfolded Protein Response. Cell 167, 1867-1882 e1821, doi:10.1016/j.cell.2016.11.048 (2016). ↩

3 Replogle, J. M. et al. Mapping information-rich genotype-phenotype landscapes with genome-scale Perturb-seq. Cell 185, 2559-2575 e2528, doi:10.1016/j.cell.2022.05.013 (2022). ↩

4 Rood, J. E., Hupalowska, A. & Regev, A. Toward a foundation model of causal cell and tissue biology with a Perturbation Cell and Tissue Atlas. Cell 187, 4520-4545, doi:10.1016/j.cell.2024.07.035 (2024). ↩

5 Horlbeck, M. A. et al. Mapping the Genetic Landscape of Human Cells. Cell 174, 953-967 e922, doi:10.1016/j.cell.2018.06.010 (2018). ↩

6 Norman, T. M. et al. Exploring genetic interaction manifolds constructed from rich single-cell phenotypes. Science 365, 786-793, doi:10.1126/science.aax4438 (2019). ↩