出于时代的自觉,我主动承担了STAMP(Statistical Analysis of metagenomic Profiles)使用文档的翻译工作。原文28页,翻译如下,欢迎批评。
为了更好的演示,我们先把GitHub上STAMP的文档以及示例文件下载下来。 进入到我的测试目录下,输入如下命令。很神奇,我怎么会用Git?参见第一章《Flask Web开发》:安装flask
然而并没有成功,当然你也可以在GitHub直接下载压缩好的文件。出现上面的报错可能是缓存太小,服务器长时间链接无操作导致的。
后在文件中添加:
再clone就可以了。
1. 介绍
STAMP是分析宏基因组(和其他!)概况的软件包,例如
- 物种注释(不同层级的物种丰度)
- 功能注释(不同代谢通路的基因丰度)
它是旨在使用效应大小(effect sizes)和置信区间(confidence intervals)来评估生物学重要性并以此来选择统计检验方法和“最佳实践”的可视化结果。用户友好的图形界面可以轻松探索统计结果和生成出版物级别的统计图,以推断宏基因组(扩增子)中特征(物种和功能)的生物相关性。STAMP是开源的,可通过插件框架进行扩展,并可用于所有主要平台。
2. 联系信息
STAMP正在积极开发中,我们有兴趣讨论这方面的所有潜在应用软件。 我们鼓励您向我们发送有关新功能的建议。 建议,意见和错误报告可以发送到Donovan Parks(donovan.parks [at] gmail.com)。 如果报告错误,请提供尽可能多的信息以及导致错误的数据集的简化版本。 这会让我们能够快速解决问题。
3. 引用STAMP及其统计方法
如果在研究中用到了STAMP,请引用:
and functional profiles. Bioinformatics, doi: 10.1093/bioinformatics/btu494.
如果在研究中用到了White’s non-parametric t-test ,请引用:
其他统计方法的引用文献,见表1,2,3。STAMP原稿描述参见:
communities. Bioinformatics, 26, 715-721.
4.安装
4.1
4.2
4.3
4.4
5.获取和构建宏基因组数据
5.1创建您自己的宏基因组图谱
STAMP的输入文件是以制表符分割格式的(tab-separated values )。文件包含注释层级和样本信息,第一行是每一列的表头,注释信息的列应是自最高层级到最低层级依次排列的。层次结构可以是多层次的,但必须形成严格的树结构。从版本2.0.8开始,STAMP明确检查一个配置文件形成一个严格的层次结构,以确保所有统计测试的有效性。 不幸的是,许多分级分类系统,包括流行的分类法,由于标签错误和其他不一致,如GreenGenes和SILVA目前不是严格等级的。 检查脚本checkHierarchy.py可以从STAMP网站下载并用于识别STAMP配置文件中的所有非层级条目。
5.2创建一个元数据文件(一般的分组文件)
译者注:软件来衡量样本量对统计效力和精度的影响Power and precision,R package pwr也可以。
我的建议如下:
统计假设检验不需要最小样本量有效,但必须满足检验统计量的假设条件(例如,近似正态分布)。小样本量更有可能违反这些假设条件。小样本量也不太可能具有将统计显着性确定为小的效应量所需的统计功效(statistical power)。有趣的是,学生的原始论文(Student’s original paper )证明了t检验考虑的例子,每组只有4个样本。 在这些例子中,由于基础数据的准确性和精确性以及组间效应大小的大小,4个样本是足够的。
例如,考虑尝试确定美国便士的平均重量是否与澳大利亚50美分的平均重量不同。 我把这两个都带到了附近,我可以向你保证,一分钱的重量远远低于过重的澳大利亚50美分! 换句话说,先验我知道效应的大小很大,并且需要更少的样本来检测统计显着性。 此外,这些硬币是在高精度机器上制造的,我们可以使用高精度的刻度精确测量这些碎片的重量。 因此,需要更少的样本来准确估计这些硬币的平均值,并且这些手段周围的变化很小。 由于这些因素(大效应大小,高度精确和精确的测量以及小的方差),小样本量足以确定这些硬币的平均重量在统计上是不同的。
相反,生物数据是嘈杂的。分类学和代谢谱受到很多变异性的影响。与上述示例不同,这些配置文件的准确性和精确度相对较低。更改用于对序列或底层参考数据库进行分类的方法通常会导致对结果配置文件进行实质性更改。这与改变另一个不准确的比例类似。样品制备也会影响产生的曲线。直观地说,我们预计生物复制产生类似的概况,但我们接受将会有很多变异。我们还经常比较广泛定义的群体,我们预计群体内变异很大,例如健康群体与患病群体的群体概况。直观地说,需要大量的样本来可靠地估计这些条件下一组的平均值和方差。因此,在合理比较这两个群体的平均值之前,每个群体需要更多的样本。所需样本的确切数量取决于这些组之间的效应大小,用于定义统计显着性的期望α水平以及期望的统计效力(参见Jeremy Miles文章)。
评估结果时,还必须考虑效应大小。不论样本量大小,两组之间统计学显着性差异的特征可能在生物学上不相关。当样本量很大时,即使极小的差异也会在统计上显着。然而,由于统计学检验不能解释用于产生分类学或代谢谱的方法中可能存在的系统性偏倚,因此当效应量较小时应谨慎。例如,100名健康患者与100名患者的厚壁细胞的小量增加可能仅仅是健康人体内含有更多硬质菌种的参考数据库的结果。当样本量较小时,报告的p值往往不准确,因为统计假设检验不能说明用于产生分类学和代谢特征的方法的准确性和精确度较差。在这些情况下,我认为'最佳实践'(best practice)是使用p值来确定统计显着特征,然后将这些结果进一步过滤为具有足够大的效应大小( effect size)的结果。我认为,不应该报告统计学上不同的特征,也不要指出差异的效应大小。
7.分析宏基因组图谱
7.1分析多个组
Parent level: 分配给某个要素的序列比例将根据分配给其父类别的序列总数进行计算。 默认值是计算相对于样本中所有已分配序列的比例。 对于本教程,请将父级别保持为整个示例的默认值。
Profile level:构建配置文件的层次级别。 这允许在层次结构中的不同深度探索数据。 对于本教程,将配置文件级别更改为Genera。
Unclassified: 指定未分类序列如何处理。任何分配给名称未分类(不区分大小写)的功能的读取都将被视为Unclassified。Unclassified的序列可以保留在配置文件中(保留未分类的读取),从配置文件中移除(Removeunclassified reads),或者除计算配置文件(仅用于计算频率配置文件)外,不考虑。处理未分类序列的这三个选项可能会导致很大的差异。为保留Unclassified的读取并仅用于计算频率曲线选项,分配给特征的序列的相对比例与指定的父类别内的序列总数成比例。后一个选项可防止Unclassified的功能出现在表格和图表中。相比之下,Removeunclassified reads选项会导致概要文件指示每个特征中序列的相对比例相对于在指定概要文件级别分类的序列。由于样本之间Unclassified序列的比例可能会有很大差异,这可能会导致截然不同的分类。
整体错误率(Family-wise error rate)控制
7.2 两组间的差异检验
设置统计分析属性:
要分析一组组,请在Properties窗口中单击Two groups选项卡。 无论是分析多个组还是一对组,分组均由Group legend窗口中Group字段组合框的值确定。 在本节中,我们将考虑通过将分组字段设置为性别,男性和女性的肠道微生物群是否存在组成差异。
统计属性通过属性窗口设置。 父级别,简档级别和未分类序列的处理设置均适用于所有分析(即多个组,两个组和两个样本)。 分析特定属性在“属性”窗口的分析类型选项卡下给出。
Profile:配置文件部分用于指定将分析哪组配对。 在这种情况下,我们只有两个组(男性和女性),所以我们不需要改变这些值。 通过点击这些组旁边的颜色按钮,也可以更改与两组相关的颜色。 组2也可以设置为<所有其他样本>,在这种情况下,所有不包含组1的样本都用于组成第二组。 这对于将一组特定的样本与研究中的其他样本进行比较是有用的。
Statistical properties :统计测试,置信区间方法和宽度,以及多个使用的测试校正方法都可以在本节中指定。 可以进行单侧或双侧的统计假设检验,尽管通常应该使用双侧检验来解决在Rals等人讨论的原因。(2007年)。 表2给出了STAMP中分析两组的方法列表。
表2. STAMP中可用的两组统计技术。 我们的建议以粗体显示。 DP =平均比例之间的差异。
两组间的比较为什么还要做多重检验分析?因为每个样本有多个指标。高通量数据的多重检验问题
7.3 两个样本之间的差异检验
设置统计检验参数
要分析一对样本,请单击属性窗口中的两个样本选项卡。 在本节中,我们将考虑两个双胞胎AM-F10-T1和AM-F10-T2之间肠道微生物群是否存在组成差异。