Import paired, demultiplexed sequences to run through DADA2 (not casava format)

Lorinda · October 23, 2017, 2:41pm

Hello,

I have a single sequence file (.fastq) that contains paired, demultiplexed sequences with quality scores, as shown below:

@M01380:50:000000000-AV1DH:1:1101:19361:1610-ASC.131.13-28
AACGCAAATTGCACTCTCTGGCAACCCGGGGAGTATGCCTGTTTGAGGGTCAGTGTTAATAAAAATCGGGTGCGTTGCAATTTTTGTGACGTTTCCGGAGTTTGAGTTATCTTAATTAACTTCGGTTTTTAAGAGGCTTAAAATTGACCTTTTTTTGTGCATTTTAGACGTACATAAATTTTTTTTTATTCGTCCATCCTAATGCCAAAATCTATTAGATGCGACCATATCTTGTGGTTCCGTGTCTATAAATTTTTCATGATTTGACCTCAAATCAGGTAGGAACACTCGCTGAACTTAA
+
C,CAEG:FFFFF9FDFGGGGGG?FCGGG7F@F+BFFAD,<CCFGFCFFEGGFGF9CF<ECCCE<@EFGE7FBFCEGFF<E<?CEGGGGGC===FCFG+8CCFDCGDGGCFGGGEB<E,CAAFG@FFGGGGFGFF,3@<FGDEDFFFCAFGGGGGGG<AFCFFGGGCFDEEFBCFGGGGEDEGGGGEG=CGGFFD8@=F=FGGGD8>GADF><9F@FFGEEFEFGE9FFFC8DGGGCCF@+GFAF@,FEDGGGFGGGFCFFGFF<CFF6,,9GGGFCGFEGGGGGF@EGDGGFFFGGGGGGG

Is it possible to import these sequences into QIIME2 and run through DADA2?

Thanks!

--Lorinda

ebolyen · October 23, 2017, 11:41pm

Hey @Lorinda!

Does this topic match your situation? If so, we don't have support for this yet.
If not, could you provide a couple more records from your .fastq file? Thanks!

Lorinda · October 24, 2017, 4:02pm

@ebolyen the topic you mentioned doesn't quite fit my data format. What I have are sequences that have been demultiplexed and are represented as single-end reads with sample name indicated at the end of the .fastq header line. Sample IDs are indicated in bold, below.

@M01380:50:000000000-AV1DH:1:1101:19480:1583-ASC.131.6-8
AACGCAAATTGCACTCTCAGGCAACCCGGGGAGTATGCCTGTTTGAGGGTCAGTGTTAATAAAAATCGGGTGCGTTGCAATTTTTGTGACGTTTCCGGAGTTTGAGTTATCTTAATTAACTTCGGTTTTTAAGAGGCTTAAAATTGACCTTTTTTTGTGCATTTTAGACGTACATAAATTTTTTTTTATTCGTCCATCCTAATGCCAAAATCTATTAGATGCGACCATATCTGGTGGTTCCGTGTCCATAAATTGTTCATGATTTGACCTCAAATCAGGTAGGAACACCCGCTGAACTTAA
+
,CFCCCGGFGGGCFGGGGCEGGGGGGGEGGCG>B<EDFGGGFGGGCGGCFG@DFGGGGGGGFCF,EFGGGGCGGGG@FGGGGGGGGG@EFEFGGGFGGC7FFGFEGGGCFGGGGGGGGFGFGGGDFFGGGGF>A<=FFGGG9CFFGA;DFGGFGGGEGFE=FG=GGGGEDCDGGGGGDEFGGFGGG=DCGFDCFEFEA@FB=EEEFFEFFFCGFEGF;@FCFEE<AGFE,<<,FGGFB+7EDFGGGGGGGGFE6,FGGGGGFCFCFC<,AFFCF,DGGFGGGGGGGECDGFCGGFGFGGGG
@M01380:50:000000000-AV1DH:1:1101:10699:1609-ASC.131.9-27
AACGCAAATTGCACTCTCTGGCAACCCGGGGAGTATGCCTGTTTGAGGGTCAGTGTTAATAAAAATCGGGTGCGTTGCAATTTTTGTGACGTTTCCGGAGTTTGAGTTATCTTAATTAACTTCGGTTTTTAAGAGGCTTAAAATTGACCTTTTTTTGTGCATTTTAGACGTACATAAATTTTTTTTTATTCGTCCATCCTAATGCCAAAATCTATTAGATGCGACCATATCTTGTGGTTCCGTGTCCATAAATTTTTCATGATTTGACCTCAAATCAGGTAGGAACACCCGCTGAACTTAA
+
GGGGGGGGFGGGGGF?FGGCCGEFD8F:@FGDGGFGGFFGGGGGGCFDGGFFGGGGGGGFFGGFGGFEGGGG7FFE7FGAFGGGGGGGG9FGGGEF7:FE:EFGGGGGGGGGGFFGC<B?EF:FDGGGGGG4<FFFGFC;FFE=F<GGDFGGGGGGCGFDFGGGGG=F@@GGGGDCFFEGFF=EEGGC9@>DC6GGD8EECFGGDGDGGFFFFGGGGG@AECBEDGCFFDGCGGGFFECFCDFGGFGGGGGGGGGGGGGFGGFCGGGGFFAGGFEAFGGGGGGGGGGEDGDFGGFFGGGGG
@M01380:50:000000000-AV1DH:1:1101:19361:1610-ASC.131.13-28
AACGCAAATTGCACTCTCTGGCAACCCGGGGAGTATGCCTGTTTGAGGGTCAGTGTTAATAAAAATCGGGTGCGTTGCAATTTTTGTGACGTTTCCGGAGTTTGAGTTATCTTAATTAACTTCGGTTTTTAAGAGGCTTAAAATTGACCTTTTTTTGTGCATTTTAGACGTACATAAATTTTTTTTTATTCGTCCATCCTAATGCCAAAATCTATTAGATGCGACCATATCTTGTGGTTCCGTGTCTATAAATTTTTCATGATTTGACCTCAAATCAGGTAGGAACACTCGCTGAACTTAA
+
C,CAEG:FFFFF9FDFGGGGGG?FCGGG7F@F+BFFAD,<CCFGFCFFEGGFGF9CF<ECCCE<@EFGE7FBFCEGFF<E<?CEGGGGGC===FCFG+8CCFDCGDGGCFGGGEB<E,CAAFG@FFGGGGFGFF,3@<FGDEDFFFCAFGGGGGGG<AFCFFGGGCFDEEFBCFGGGGEDEGGGGEG=CGGFFD8@=F=FGGGD8>GADF><9F@FFGEEFEFGE9FFFC8DGGGCCF@+GFAF@,FEDGGGFGGGFCFFGFF<CFF6,,9GGGFCGFEGGGGGF@EGDGGFFFGGGGGGG
@M01380:50:000000000-AV1DH:1:1101:19085:1661-ASC.131.12-68
AACGCAAATTGCACTCTCTGGTATTCCGGAGAGTATGCCTGTTTGAGGGTCAATTAAATAAAATCGGGCGTTTTTACTGTCCGGAATTGGGTTGTCATAACTTCGGTTAAGTGACCTAAAATTTTGTATGATTTTTACAAACGTATTTAAAATATTTTTGTACGTTTTTGTAATATTCAGTTTTATTAGATGTGGTCATTTTTATGGTTCGCGTCTATAATTTCTCATCTATTGACCTCAAATCAGGTAAGAATACCCGCTGAACTTAA
+
DGFECFFEGDAFECFCEFGGGF@FGGGGGE@CGFCGGC6CFEFFGGGFCFEFGGFFACFGFFAE8BFF7FFGGGGFAE<F<,=7F7FFFEGGGGGCCFFFFGFGGGGGGFGGGGGFDFD=FFFGGGFEEF=D;GFGFEGGFGFGFFGFCC8CEFGGFFB7FGEFFGGGFGG>>FF@=;FFGGEF;F;BEA=:FEAFCCEGGGGGG<FF==AGGGFECDGFGGGFGGDGGGGEE<ECC@EAGD<<@C9FF9FFE7F@GGFECGEE@<GF<

ebolyen · October 24, 2017, 11:26pm

Thanks for the sample @Lorinda!

To make sure I understand, you have two files like this, one with all the forward reads, and one with all the reverse reads?

We definitely don't have anything that can work with that format in QIIME 2 yet.

In the interest of learning more, do you know where the sequence data came from?

What kind of processing has been done so far (if any)?

Are the barcodes already removed (e.g. it is completely demultiplexed and it just happens to be in the same file, or are the reads merely identified and no further processing has happened)?

Thanks again!

Lorinda · October 25, 2017, 12:18am

Hi @ebolyen,

Right, typically I'd be working with raw sequence files, but this is kind of a unique situation. For this particular study, raw sequences had to first be demultiplexed (completely, barcodes removed) and filtered against a database of known sequences, before running downstream analyses. What I have is demultiplexed, filtered .fastq and .fna files. We have run these seqs through other clustering algorithms in Q1, but I would also like to run them through DADA2 if possible. I do have the unfiltered barcode file and have written code to extract only those barcodes that match the sequence files, but am unsure exactly how to proceed, or if I can for that matter... Any advice would be greatly appreciated.

Also, I should mention I am huge advocate for QIIME2...

Lorinda · October 27, 2017, 2:40pm

Problem solved! I was able to filter my barcode file to contain only those barcodes that matched my sequence file, sort both barcodes and sequences so that they were in the same order, then import into QIIME2 using

qiime tools import
--type EMPSingleEndSequences \

Thanks!

ebolyen · October 27, 2017, 4:51pm

Hi @Lorinda!

Sorry I didn't get back to you earlier, but great job solving the problem!

That is perfect, I'm glad you still had the original data somewhere!

P.S. We've got some new sequence-similarity filtering (in q2-quality-control) and taxonomy filtering (in q2-taxa) methods in this latest release, which might be useful for this dataset!