QIIME 2用户文档. 14数据评估和质控Evaluating and controlling(2019.7)

前情提要

数据评估和质控q2-quality-control

Evaluating and controlling data quality with q2-quality-control

https://docs.qiime2.org/2019.7/tutorials/quality-control/

注:最好按本教程顺序学习,想直接学习本章,至少完成本系列《1简介和安装》《4人体各部位微生物组分析Moving Pictures》

本教程将演示如何使用q2-quality-control根据模拟群体(mock communities,具有已知组成的样品)和序列数据过滤来评估数据质量。

下载数据

首先创建一个工作目录,再下载并创建几个文件

# 创建工作目录
mkdir -p quality-control-tutorial
cd quality-control-tutorial

wget -c \
  -O "query-seqs.qza" \
  "https://data.qiime2.org/2019.7/tutorials/quality-control/query-seqs.qza"

wget -c \
  -O "reference-seqs.qza" \
  "https://data.qiime2.org/2019.7/tutorials/quality-control/reference-seqs.qza"

wget -c \
  -O "query-table.qza" \
  "https://data.qiime2.org/2019.7/tutorials/quality-control/query-table.qza"

wget -c \
  -O "qc-mock-3-expected.qza" \
  "https://data.qiime2.org/2019.7/tutorials/quality-control/qc-mock-3-expected.qza"

wget -c \
  -O "qc-mock-3-observed.qza" \
  "https://data.qiime2.org/2019.7/tutorials/quality-control/qc-mock-3-observed.qza"

基于对齐过滤序列

Excluding sequences by alignment

exclude-seqs方法将FeatureData[Sequence]文件中包含的一组查询序列与一组参考序列对齐。此方法使用许多不同的对齐条件(BLAST evalue、相似度和覆盖度)来确定该序列是否“可比对”参考序列,并分别输出可比对/无法比对参考序列的两个文件。此方法有多种应用,包括去除已知的污染物序列,排除宿主序列(例如人类DNA),或从数据中去除非目标序列(例如非细菌)

首先,我们将把一小部分查询序列分成可比对/无法比对参考序列的两类

qiime quality-control exclude-seqs \
  --i-query-sequences query-seqs.qza \
  --i-reference-sequences reference-seqs.qza \
  --p-method blast \
  --p-perc-identity 0.97 \
  --p-perc-query-aligned 0.97 \
  --o-sequence-hits hits.qza \
  --o-sequence-misses misses.qza

输出对象:

此方法目前支持将blastvsearchblastn-short三种序列比对方法。请注意,如果查询序列包含非常短的序列(<30 nt),则应使用blastn-short方法。

既然您已经将序列拆分为一组可比对/不可比对参考序列的序列,那么您很可能希望在进一步分析之前筛选功能表以删除可比对或不可比对的序列。过滤教程中介绍了从特征表中过滤特征,但这里我们将演示使用序列数据过滤特征表。在某些情况下,您可能希望从特征表中删除无法比对序列(no hit),例如,如您试图选择与细菌序列(或更具体的类)对齐的序列。在其他情况下,您可能希望从特性表中删除比对序列,例如,你试图过滤与宿主DNA相似的污染物或序列。在这里,我们将筛选去除可比对,以演示如何从特征表中筛选序列;您可以在下面的命令中用misses.qza替换hits.qza,以筛选排除比对结果。

qiime feature-table filter-features \
  --i-table query-table.qza \
  --m-metadata-file hits.qza \
  --o-filtered-table no-hits-filtered-table.qza \
  --p-exclude-ids

输出对象:

  • no-hits-filtered-table.qza: 排除指定ID的特征表。 查看 | 下载

享受数据筛选的乐趣吧!

质量评估已知组成的样品

Evaluating quality of samples with known composition

模拟群落(人工合成群落)由已知的微生物菌株组成,这些菌株按规定的比例混合,这样就知道了样品的组成。人工重组群落对于评测生物信息学方法很有用,例如,确定某种方法或流程对预期成分的估计程度。许多研究在实验中包括模拟群落或其他样本,这些样本具有已知序列组成,以确定批次质量和基于每次运行的方法优化。q2-quality-control插件包含两个功能,可用于评估这个案例中模拟群落的准确性。evaluate_composition评估预期分类组成(或其他特征组成)重建的准确性。evaluate_seqs 评估观察到的序列与预期序列的相似性,例如,确定选择去噪或OTU方法的准确性,将在下一节中描述。

evaluate_composition比较两个单独的特征表中包含相同样本ID的观察和预期样本对的特征组成。通常,特征注释将由物种注释或其他分号分隔的功能注释组成。让我们旋转一下。

time qiime quality-control evaluate-composition \
  --i-expected-features qc-mock-3-expected.qza \
  --i-observed-features qc-mock-3-observed.qza \
  --o-visualization qc-mock-3-comparison.qzv

输出对象:

  • qc-mock-3-comparison.qzv: 特征表比较图。 查看 | 下载

在每一个分号分隔的分类学级别上,分别计算预期和观测特征丰度之间的分类准确率(Taxon accuracy rate, TAR)分类检出率(taxon detection rate, TDR),和线性回归得分(linear regression scores, r-squared),并绘制每一级准确度和观察相关性图。还生成假阳性观测(false positive observations)与最近预期特征(nearest common lineage in the expected feature)之间距离的柱状图,其中距离等于观测特征与最近预期特征的共有谱系之间的等级差异数。最后,在可视化的底部给出了假阳性false positive(错误分类和未分类)和假阴性false negative特征的列表。错误分类是指在最深层分类(如物种级)中不符合任何预期物种注释的特征,通常代表样品存在污染物或次优的生物信息学分析流程(如存在嵌合体序列或使用过度自信的物种分类器)。未分类(Underclassifications)是观察到的与预期特征相匹配的特征,但未被分类到预期的分类深度(例如,它们仅被分类到属级,但属级分类是正确的);这些通常是有效特征(即,不是污染物),但由于技术限制,未被分类到所需的级别。技术限制包括序列太短、序列质量下降或方法不理想(只有一个不好的木匠会责怪他的工具,但一个工具可以做得比另一个更好)。假阴性是期望观察到的特征,但没有看到;可以将其与假阳性进行比较,以了解哪些特征可能被错过/分类不足。

评估序列质量

Evaluating sequence quality

evaluate_seqs将一组查询(例如,观察到的)序列与一组参考(例如,预期的)序列对齐,以评估比对质量。预期用途是将观察到的序列与预期序列(例如,来自模拟群落)比对,以确定观察到的序列与最相似的预期序列之间不匹配的频率,例如,作为测序/方法错误的定量评价。但是,可以提供任何序列作为输入,以根据一组参考序列生成比对质量报告。

time qiime quality-control evaluate-seqs \
  --i-query-sequences query-seqs.qza \
  --i-reference-sequences reference-seqs.qza \
  --o-visualization eval-seqs-test.qzv

输出对象:

该可视化显示了每个查询序列的比对结果、预期和观察到的序列之间的错配数量,以及每个查询序列与其在参考序列之间最接近的匹配(如果设置了--p-show-alignments)之间的最终成对比对情况。这个结果仍然相当初步,但计划在不久的将来进行扩展。请持续关注吧!

Reference

https://docs.qiime2.org/2019.7

Evan Bolyen*, Jai Ram Rideout*, Matthew R. Dillon*, Nicholas A. Bokulich*, Christian C. Abnet, Gabriel A. Al-Ghalith, Harriet Alexander, Eric J. Alm, Manimozhiyan Arumugam, Francesco Asnicar, Yang Bai, Jordan E. Bisanz, Kyle Bittinger, Asker Brejnrod, Colin J. Brislawn, C. Titus Brown, Benjamin J. Callahan, Andrés Mauricio Caraballo-Rodríguez, John Chase, Emily K. Cope, Ricardo Da Silva, Christian Diener, Pieter C. Dorrestein, Gavin M. Douglas, Daniel M. Durall, Claire Duvallet, Christian F. Edwardson, Madeleine Ernst, Mehrbod Estaki, Jennifer Fouquier, Julia M. Gauglitz, Sean M. Gibbons, Deanna L. Gibson, Antonio Gonzalez, Kestrel Gorlick, Jiarong Guo, Benjamin Hillmann, Susan Holmes, Hannes Holste, Curtis Huttenhower, Gavin A. Huttley, Stefan Janssen, Alan K. Jarmusch, Lingjing Jiang, Benjamin D. Kaehler, Kyo Bin Kang, Christopher R. Keefe, Paul Keim, Scott T. Kelley, Dan Knights, Irina Koester, Tomasz Kosciolek, Jorden Kreps, Morgan G. I. Langille, Joslynn Lee, Ruth Ley, Yong-Xin Liu, Erikka Loftfield, Catherine Lozupone, Massoud Maher, Clarisse Marotz, Bryan D. Martin, Daniel McDonald, Lauren J. McIver, Alexey V. Melnik, Jessica L. Metcalf, Sydney C. Morgan, Jamie T. Morton, Ahmad Turan Naimey, Jose A. Navas-Molina, Louis Felix Nothias, Stephanie B. Orchanian, Talima Pearson, Samuel L. Peoples, Daniel Petras, Mary Lai Preuss, Elmar Pruesse, Lasse Buur Rasmussen, Adam Rivers, Michael S. Robeson, Patrick Rosenthal, Nicola Segata, Michael Shaffer, Arron Shiffer, Rashmi Sinha, Se Jin Song, John R. Spear, Austin D. Swafford, Luke R. Thompson, Pedro J. Torres, Pauline Trinh, Anupriya Tripathi, Peter J. Turnbaugh, Sabah Ul-Hasan, Justin J. J. van der Hooft, Fernando Vargas, Yoshiki Vázquez-Baeza, Emily Vogtmann, Max von Hippel, William Walters, Yunhu Wan, Mingxun Wang, Jonathan Warren, Kyle C. Weber, Charles H. D. Williamson, Amy D. Willis, Zhenjiang Zech Xu, Jesse R. Zaneveld, Yilong Zhang, Qiyun Zhu, Rob Knight & J. Gregory Caporaso#. Reproducible, interactive, scalable and extensible microbiome data science using QIIME 2. Nature Biotechnology. 2019, 37: 852-857. doi:10.1038/s41587-019-0209-9

译者简介

刘永鑫,博士。2008年毕业于东北农大微生物学,2014年于中科院遗传发育所获生物信息学博士,2016年博士后出站留所工作,任宏基因组学实验室工程师。目前主要研究方向为宏基因组数据分析和植物微生物组,QIIME 2项目参与人。目前在Science、Nature Biotechnology等杂志发表论文十余篇。2017年7月创办“宏基因组”公众号,目前分享宏基因组、扩增子原创文章400余篇,代表博文有《扩增子图表解读、分析流程和统计绘图三部曲(21篇)》《Nature综述:手把手教你分析菌群数据(1.8万字)》《QIIME2中文教程(18篇)》等,关注人数6.5万+,累计阅读1000万+。

猜你喜欢

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍末解决群内讨论,问题不私聊,帮助同行。

学习扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文,跳转最新文章目录阅读

3 Likes