RNA-Seq 分析 —— 我们到底需要多少数据？

写在前面的话：

RNA-Seq作为生信人员最长接触到的数据类型，有太多的可说的。作为生信分析从业人员，我见过太多老师，满怀热情地向测序公司上缴了样本，然而得到结果却基本上没任何有用的信息。

首先从技术上，目前差异基因分析的主流工具，都不采用泊松分布了，而是使用负二项分布作为基础，因此可以允许数据分析中，结合不同批次的样本，或更为复杂的样本来源。因此增加样本数量从实现上不再困难。

其次，样本过少产生的问题，主要是在召回率层面，样本过少严重影响准确性。通俗来说，如果测序的数据量达到一定的标准，那么测序量的增加对差异基因检测这个项目来说，完全没有增益。相反，增加样本数量却对有很大帮助

一个比较重要的因素就是传统测序公司一般希望项目短平快。测序公司的分析流程相对固定，而对于科研工作者而言，虽然一次采样的时间会比较长。当样本数量累计到足够做分析的周期也相对较长。因此，测序公司一般会尽力说服客户送少量样本进行测序。

另外一方面，就是测序公司的流程相对固定，无法很好处理批次效应。对于生物信息大数据挖掘，批次效应是一个绕不开的话题。但是目前很少有测序公司会在流程中对其进行考量。

目前去除批次效应的方法，其实已经不少了。对于RNA-Seq或者芯片技术这类考察表达量的手段，一般采用sva 估计隐变量，或者直接采用Peer 对程序表达量矩阵进行矫正。从本人实际的项目经验来看，至少这两个工具的矫正效果还是比较显著的。

今后有机会，可以专门跟大家介绍相关的工具的使用。

从上述内容，我们可以大致得到一个RNA-Seq实验的方案：也就是对样本进行积累，并持续送样测序；在数据积累了一定程度后，再通过生物信息工具，去除批次效应，进行差异分析。而不是风风火火地送了三组样本，每组3个重复，拼命调解 p-value 或 log Fold-Change 去编造差异。