来源:DeepTech深科技
2020 年底,西安交通大学孙世权教授正在利用单细胞与空间转录测序技术,研究肺腺癌进化过程的研究课题。
通过此,他希望探索那些在肺腺癌发展过程中逐渐上调的基因。原因在于:这些基因可能对肺腺癌的恶化和转移起着关键作用。
然而,在深入调研文献之后,他和团队发现了另一个尚未解决的问题:即尚未有任何成熟的方法,能在单细胞时间序列数据中,识别具有特定表达模式的差异表达基因。
因此,课题组决定开发一种分析工具,旨在揭示这些数据中隐藏的特定表达模式的基因。
具体而言:在单细胞 RNA 测序(scRNA-seq)的时间序列数据分析中,人们通常会进行基因差异表达分析。
通过此,可以识别那些表达水平随时间变化或生物过程发展而变化的基因(这种基因也被称之为“时间动态差异基因”)。
在一些生物过程中,这些基因可能扮演着重要角色。特别是那些表达模式呈现出随时间逐步上调或下调、或者先上调后下调、亦或是先下调后上调的基因,它们可能蕴含着更为丰富的生物学信息。
此外,随着单细胞测序技术的发展,人们开始更加频繁地从具有不同表型的生物样本或人群样本中获取数据。
这些多样本数据带来了细胞类型之间的差异性,为单细胞分析增加了新的困难。
对于相关的分析人员而言,除了关注细胞层面的异质性之外,还必须认真考虑样本层面的异质性。
为此,该团队希望开发一种新的方法,以用于识别单细胞数据中的随时间动态变化的差异基因。
希望凭借这种新方法能够帮助人们从大规模人群单细胞数据中,筛选出具有特定表达模式的动态差异基因,从而为疾病进展和动态发育提供新的工具。
在本次项目的初期,课题组首要解决的问题在于要选择一个合适的模型,以用于刻画基因表达水平随时间序列动态变化的过程。
不同的拟合函数,对于分析结果有着显著的差异。初期,课题组尝试了多种以往被用于 bulk 时间序列数据的拟合函数,包括多项式函数、B 样条、Sigmoid 函数等。
在灵活性、以及对于特定表达模式的表征能力之间,这些函数存在难以平衡的问题。
经过深入研究之后,该团队最终选择带有形状约束的 I 样条和 C 样条函数。
原因在于:它们在保持足够灵活性的同时,对于特定表达模式的表征更为精准。同时,它们对于单细胞数据中较大的噪声具有较好的耐受性。
确定拟合函数之后,该团队在实际数据测试中又遇到了新难题:当数据集包含多个样本时,样本层面的异质性会极大地干扰分析结果。
后来,他们集中精力解决样本异质性带来的干扰问题,尽管尝试了多种批次的效应去除方法,但是效果都不如人意。
随后,课题组采用线性混合模型的思想,针对样本异质性进行建模。借此发现,混合模型可以显著减少样本异质性带来的干扰。
然而,在样本异质性极大的情况下,线性混合模型也显得力不从心。
这时,该团队回顾了之前测试的批次效应去除方法,并将线性混合模型与一种名为 scMerge 的批次效应去除方法相结合,形成了最终的 TDEseq 方法。
![(来源:Genome Biology)](http://n.sinaimg.cn/sinakd20240616s/209/w1080h729/20240616/5f2c-1feba4cd47044c62541551712cb829b1.png)
Yue Fan 是第一作者,孙世权担任通讯作者。
![图 | 孙世权(来源:孙世权)](http://n.sinaimg.cn/sinakd20240616s/529/w556h773/20240616/a2a8-b76b2dd7815bc549ae360c292a32499b.jpg)
随着单细胞与空间组测序技术的迅猛发展,使得从分时间与空间两个维度探索基因表达的动态变化过程成为可能。
下一步,该团队希望将本次方法拓展到空间转录组多时间点数据分析中,解决时空尺度下的动态差异表达基因识别问题。
参考资料:
1.Fan, Y., Li, L., & Sun, S. (2024). Powerful and accurate detection of temporal gene expression patterns from multi-sample multi-stage single-cell transcriptomics data with TDEseq.Genome Biology, 25(1), 96.
排版:初嘉实
![新浪科技公众号 新浪科技公众号](http://n.sinaimg.cn/tech/content/tech_qr2x.png)
“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
![](http://n.sinaimg.cn/tech/content/tech_weixin2.png)