QIIME 2用户文档. 5粪菌移植分析练习Fecal microbiota transplant (FMT) study(2018.11)


(Yong-Xin Liu) #1

前情提要

QIIME 2用户文档. 5粪菌移植分析练习

Fecal microbiota transplant (FMT) study: an exercise

https://docs.qiime2.org/2018.11/tutorials/fmt/

注意:本教程假定您已经使用安装指南中的一个过程安装了QIIME 2。

本教程计划在完成《人体各部位微生物组教程》之后练习。它旨在介绍一些新思想,并且是应用该文档中探索工具的一个练习。

本教程中使用的数据来自粪便微生物移植研究(粪菌移植),其中18岁以下患有自闭症和胃肠道疾病的儿童,分别通过自闭症诊断访谈修订版(ADI-R)和胃肠道症状评定量表(GSRS)测量,用粪便微生物移植治疗,试图减少他们的行为异常和胃肠道症状的严重程度。我们通过18周内他们的GSRS评分追踪了他们的微生物变化,包括父母的整体状况III(Parent Global Impressions,PGI-III)和儿童孤独症评定量表(CARS),以及他们胃肠道症状的严重程度。通过每周收集粪便拭子样本(通过用卫生纸拭子收集)和不太频繁的大便样本(收集全大便)来跟踪微生物群。在全部研究中,这是第一阶段的临床试验,旨在测试治疗的安全性,18个人接受了治疗,20个人作为对照。对照组未接受治疗,但监测肠道微生物群的正常时间变化。本研究还对治疗期间移植的粪便材料进行了测序。

本教程数据集是为本研究数据的一个子集。它包括五个接受治疗的个体和五个对照的数据。每个个体包括6至16个样本,包括每个个体的大便和粪便拭子样本,以及FMT治疗前后样本。移植的粪便材料也包括五个样本。
这些数据是在两次Illumina MiSeq测序运行中测序的。如《人体各部位微生物组教程》所示,我们将使用DADA2执行初始质量控制并生成FeatureTable[Frequency]FeatureData[Sequence]对象。然而,DADA2去噪过程只适用于一次单个测序批次,因此我们需要在每个测序批次的基础上运行该过程,然后合并结果。我们将完成这个初始步骤,然后提出一些可以作为练习来回答的问题。

详者注:此实例需要一些基础知识,要求完成本系列文章前两篇内容:1简介和安装和4人体各部分微生物组分析实战Moving Pictures。

本实验研究自闭症且胃肠道功能紊乱患者,采用粪便菌群移植方法,来降低患者的行为异常和肠道紊乱。监测移植后18个月范围内肠道菌群的变化,下图为Microbiome原文中实验设计。

启动QIIME2运行环境

对于上文提到了两种常用安装方法,我们每次在分析数据前,需要打开工作环境,根据情况选择对应的打开方式。

# 创建qiime2学习目录并进入
mkdir -p qiime2
cd qiime2

# Miniconda安装的请运行如下命令加载工作环境
source activate qiime2-2018.11

# 如果是docker安装的请运行如下命令,默认加载当前目录至/data目录
# docker run --rm -v $(pwd):/data --name=qiime -it  qiime2/core:2018.11

# 创建本节学习目录
mkdir qiime2-fmt-tutorial
cd qiime2-fmt-tutorial

实验数据下载

注意:QIIME 2 官方测试数据均保存在Google服务器上,国内下载比较困难。可使用代理服务器(如蓝灯)下载,或公众号后台回复"qiime2"获取测试数据批量下载链接,你还可以跳过以后的wget步骤

下载元数据,即描述样本的数据,也称实验设计

wget \
  -O "sample-metadata.tsv" \
  "https://data.qiime2.org/2018.11/tutorials/fmt/sample_metadata.tsv"

接下来,下载我们将在本分析中使用的样本混合序列。要了解如何从fastq格式的序列数据中开始QIIME 2分析,请参阅导入数据教程。我们需要下载两组样本拆分好的序列,每个序列文件对应一个序列测序批次。

在本教程中,我们将使用完整序列数据的一个小子集,以便命令能够快速运行。您可以选择1%的序列子集或10%的序列子集。如果您只是试图获得准备和组合多个数据序列运行的经验,那么您可以使用1%的子集数据,以便命令可以非常快速地运行。如果您使用本教程来获得在生成和解释QIIME 2分析结果方面的额外经验,那么您应该使用10%的子采样数据,以便结果将由更多的序列数据支持(1%的序列可能不足以支持原始研究的一些发现)。

这里我们选择10%的子集序列用于后序列分析。

因为10%的子集序列也非常少,才几十M,注意文件名要手动删除-10p部分。

wget \
  -O "fmt-tutorial-demux-1.qza" \
  "https://data.qiime2.org/2018.11/tutorials/fmt/fmt-tutorial-demux-1-10p.qza"
wget \
  -O "fmt-tutorial-demux-2.qza" \
  "https://data.qiime2.org/2018.11/tutorials/fmt/fmt-tutorial-demux-2-10p.qza"

序列质控评估

我们将首先使用DADA2对样本拆分后的序列执行质量控制,但是这次我们将对每组样本拆分后序列分别运行denoise-single(单端去噪)命令。同样,我们希望可视化每批次中样本的序列质量。当我们运行denoise-single命令时,我们需要为两次分析--p-trunc-len--p-trim-left使用相同的参数值。当查看这两个命令产生的可视化时,只有两个命令基于相同的参数分析结果进行比较才有意义,否则多变量因素导致混淆。

qiime demux summarize \
  --i-data fmt-tutorial-demux-1.qza \
  --o-visualization demux-summary-1.qzv
qiime demux summarize \
  --i-data fmt-tutorial-demux-2.qza \
  --o-visualization demux-summary-2.qzv

输出对象:

  • fmt-tutorial-demux-1.qza: 第一批测序结果
  • fmt-tutorial-demux-2.qza: 第二批测序结果

输出可视化:

  • demux-summary-1.qzv: 第一批样本数据量和质量统计
  • demux-summary-2.qzv: 第二批样本数据量和质量统计

查看可视化评估结果,也可下载qzv文件,使用 view.qiime2.org 打开查看,也可解压查看。


图1. 第一批数据量汇总图表


图2. 第一批数据质量评估图

问题:从上图中我们判断选择质控参数--p-trunc-len--p-trim-left的值是多少比较合理?

详者注:序列上游13 bp的序列质量偏低,设置trim-left 13截掉前13bp序列;整体150bp的质量都不错,则保留150 bp的序列长度。

生成特征表和代表性序列

前几个碱基的质量似乎相对较低,然后似乎保持相对较高,直到序列测序结束。因此,我们将从每个序列中修剪前13个碱基,并在150个碱基处截断这些碱基。由于读数是151个碱基,这导致序列的截断非常少。

dada2质控和去冗余,本实验有两批独立的数据,需要处理两次,生成代表序列和特征表

qiime dada2 denoise-single \
  --p-trim-left 13 \
  --p-trunc-len 150 \
  --i-demultiplexed-seqs fmt-tutorial-demux-1.qza \
  --o-representative-sequences rep-seqs-1.qza \
  --o-table table-1.qza \
  --o-denoising-stats stats-1.qza
qiime dada2 denoise-single \
  --p-trim-left 13 \
  --p-trunc-len 150 \
  --i-demultiplexed-seqs fmt-tutorial-demux-2.qza \
  --o-representative-sequences rep-seqs-2.qza \
  --o-table table-2.qza \
  --o-denoising-stats stats-2.qza

输出对象:

  • stats-1.qza: 第一批数据统计结果
  • stats-2.qza: 第二批数据统计结果
  • rep-seqs-1.qza: 第一批数据代表性序列
  • rep-seqs-2.qza: 第二批数据代表性序列
  • table-1.qza: 第一批数据特征表
  • table-2.qza: 第二批数据特征表

查看去噪过程统计

Viewing denoising stats

denoise-single命令返回去噪过程的基本统计,可以使用如下命令可视化。

qiime metadata tabulate \
  --m-input-file stats-1.qza \
  --o-visualization denoising-stats-1.qzv
qiime metadata tabulate \
  --m-input-file stats-2.qza \
  --o-visualization denoising-stats-2.qzv

结果可视化文件:

  • denoising-stats-1.qzv: 批次1可视化
  • denoising-stats-2.qzv: 批次2可视化


图3. 第一批数据质量去噪过程统计。有非常多列,可托动下方滚动条查看;样本多,可以在右上角Search中查找。

合并不同批的代表序列和特征表

Merging denoised data

在这个分析中,denoise-single命令是最后一步,它需要对每批数据独立处理。因此,我们必须合并由这两个命令生成的对象,才能继续下游分析。首先我们将合并两个FeatureTable[Frequency]对象,然后合并两个FeatureData[Sequence]对象。这种操作是可行的,因为在每次去噪单次运行中生成的特征id是可以直接比较的(在这种情况下,特征id是定义特征序列的md5值(散列/哈希))。

合并两组数据特征表

qiime feature-table merge \
  --i-tables table-1.qza \
  --i-tables table-2.qza \
  --o-merged-table table.qza

当然也可以继续增加更多的批次数据,只要使用更多次的--i-tables参数即可

合并两组数据的代表序列

qiime feature-table merge-seqs \
  --i-data rep-seqs-1.qza \
  --i-data rep-seqs-2.qza \
  --o-merged-data rep-seqs.qza

输出对象:

  • rep-seqs.qza: 合并的代表序列
  • table.qza: 合并的特征表

特征表统计

qiime feature-table summarize \
  --i-table table.qza \
  --o-visualization table.qzv \
  --m-sample-metadata-file sample-metadata.tsv

输出可视化结果:

  • table.qzv


图4. 特征表汇总。下面还包括样本信息的汇总图表、特征的汇总图表。此页面中还可以交互查看样本、特征的详细信息,自己在网页或本地中查看和探索结果吧!

图片看不清,可查看下方纯文本表格

表1. OTU表总结

Metric Sample
Number of samples 121
Number of features 337
Total frequency 48,925

表2. 样品数据量分布

Type Frequency
Minimum frequency 84.0
1st quartile 276.0
Median frequency 380.0
3rd quartile 492.0
Maximum frequency 860.0
Mean frequency 404.3388429752066

表3. 特征表频率统计

Type Frequency
Minimum frequency 2.0
1st quartile 9.0
Median frequency 24.0
3rd quartile 85.0
Maximum frequency 10,832.0
Mean frequency 145.1780415430267

通过上表,我们可以确定特征表标准化时数据重抽样的参数,由于本测试,只用了文章原始数据的10%的数据,数据量很小,最小值为84,第一分位数为276,我们可选择276保留75%以上的样品。一般最小值1000,推荐5000以上。

问题1. 基于table.qzv中的信息,在运行qiime diversity core-metrics-phylogenetic时,您将为--p-sampling-depth参数选择什么值?

问题2. 生成qiime dada2 denoise-single单批次数据结果汇总表中,查看第一批数据中定义了多少特性?在第批数据中定义了多少特性?这些数字与合并后的特性总数相比如何?

我们还将生成合并后的FeatureData[Sequence]对象的摘要。在进行分析时,可以使用此摘要获得感兴趣特性的额外信息。

代表序列统计

qiime feature-table tabulate-seqs \
  --i-data rep-seqs.qza \
  --o-visualization rep-seqs.qzv

输出可视化结果:

  • rep-seqs.qzv


图5. 特征序列长度统计。基本统计、分位数和序列详细。可点击序列进行NCBI blast查看详细注释。

多样性分析

Diversity analysis

现在我们已经获得了特征表(Feature table),以及代表序列(Feature Sequences)对象,你可以基于样本元数据来探索其微生物组成。自己尝试用上篇文章《人体各部位微生物组》分析方法。几个问题与个体的微生物组的纵向变化有关;可以参考q2-longitudinal教程,以后面教程中会详细讲到,到时可以学习此类分析方法。试着回答以下问题?

  1. 个体微生物组;
    1. 按个体(subject-id)分类是否存在组成差异?
    2. 按个体分类存在丰富度差异吗?
    3. 按个体分类存在均匀度差异吗?
    4. 在起始和研究终点间,个体的丰富度、均匀度、组成和UniFrac距离发生改变了吗?
    5. 个体的丰富度、均匀度、组成、UniFrac距离与是否粪菌移植FMT或其它元数据有什么关系?处理组和对照组随时间变化大吗?(提示:有关时间序列分析,即使现在不懂也没关系,后面的章节会详细介绍)
  2. 菌群移植;
    1. 移植几周后,患者的菌群在unweighted unifrac距离下最像供体呢(使用qiime emperor plot)?
    2. 移植几周后,患者的菌群在Bray-Curtis距离下最像供体;
    3. 比较两种距离结果那种更好解释;
  3. 实验设计:比较粪便和试子样品采集方法;
    1. 比较不同取样方法结果中最大差别的特征?差异特征用blast,或机器学习classifier注释有什么不同?
    2. 两类样品的unweighted Unifrac和Bray-Curtis间有什么不同?
    3. 供体粪便与那种取样的结果更像?
    4. 两类取样方法的Alpha多样性存在差别吗?
  4. 每个测序批次中有多少样品?在不同测序批次中是否存在系统性差异?

Reference

  1. https://docs.qiime2.org/2018.11/tutorials/fmt/
  2. The data in this tutorial was initially presented in: Microbiota Transfer Therapy alters gut ecosystem and improves gastrointestinal and autism symptoms: an open-label study. Dae-Wook Kang, James B. Adams, Ann C. Gregory, Thomas Borody, Lauren Chittick, Alessio Fasano, Alexander Khoruts, Elizabeth Geis, Juan Maldonado, Sharon McDonough-Means, Elena L. Pollard, Simon Roux, Michael J. Sadowsky, Karen Schwarzberg Lipson, Matthew B. Sullivan, J. Gregory Caporaso and Rosa Krajmalnik-Brown. Microbiome (2017) 5:10. DOI: 10.1186/s40168-016-0225-7.
  3. Bolyen E, Rideout JR, Dillon MR, Bokulich NA, Abnet C, Al-Ghalith GA, Alexander H, Alm EJ, Arumugam M, Asnicar F, Bai Y, Bisanz JE, Bittinger K, Brejnrod A, Brislawn CJ, Brown CT, Callahan BJ, Caraballo-Rodríguez AM, Chase J, Cope E, Da Silva R, Dorrestein PC, Douglas GM, Durall DM, Duvallet C, Edwardson CF, Ernst M, Estaki M, Fouquier J, Gauglitz JM, Gibson DL, Gonzalez A, Gorlick K, Guo J, Hillmann B, Holmes S, Holste H, Huttenhower C, Huttley G, Janssen S, Jarmusch AK, Jiang L, Kaehler B, Kang KB, Keefe CR, Keim P, Kelley ST, Knights D, Koester I, Kosciolek T, Kreps J, Langille MG, Lee J, Ley R, Liu Y, Loftfield E, Lozupone C, Maher M, Marotz C, Martin BD, McDonald D, McIver LJ, Melnik AV, Metcalf JL, Morgan SC, Morton J, Naimey AT, Navas-Molina JA, Nothias LF, Orchanian SB, Pearson T, Peoples SL, Petras D, Preuss ML, Pruesse E, Rasmussen LB, Rivers A, Robeson, II MS, Rosenthal P, Segata N, Shaffer M, Shiffer A, Sinha R, Song SJ, Spear JR, Swafford AD, Thompson LR, Torres PJ, Trinh P, Tripathi A, Turnbaugh PJ, Ul-Hasan S, van der Hooft JJ, Vargas F, Vázquez-Baeza Y, Vogtmann E, von Hippel M, Walters W, Wan Y, Wang M, Warren J, Weber KC, Williamson CH, Willis AD, Xu ZZ, Zaneveld JR, Zhang Y, Zhu Q, Knight R, Caporaso JG. 2018. QIIME 2: Reproducible, interactive, scalable, and extensible microbiome data science. PeerJ Preprints 6:e27295v2 https://doi.org/10.7287/peerj.preprints.27295v2

译者简介

刘永鑫,博士。2008年毕业于东北农大微生物学专业。2014年中科院遗传发育所获生物信息学博士学位,2016年博士后出站留所工作,任宏基因组学实验室工程师,目前主要研究方向为宏基因组学、数据分析与可重复计算和植物微生物组、QIIME 2项目参与人。发于论文12篇,SCI收录9篇。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章300+篇,代表博文有《扩增子图表解读、分析流程和统计绘图三部曲》,关注人数3万+,累计阅读400万+。

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外2600+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读
https://mp.weixin.qq.com/s/5jQspEvH5_4Xmart22gjMA