running shogun + woltka to get an OGU table

rahel_park · August 10, 2022, 6:43am

Hi,

I would like to combine the plugins of shogun and woltka to analyze the shallow shotgun metagenomic sequencing and get the OGU table. For now the shogun „align“ option is not included in the qiime plugin, so I installed the shogun from github.

I have several cleaned paired-end fastq.gz files from shotgun metagenomics project (downloaded from a tutorial, my study data has not yet arrived). If I understand correctly then the shogun pipeline wants to have the input files in one concatenated fasta file.

With „cat“ I added them all together and then with the following command converted to fasta file.

unpigz -cp16 raw_data_IMPACTT/raw_IMPACTT.fastq.gz | paste - - - - | cut -f 1,2 | sed 's/^@/>/' | tr "\t" "\n" > raw_data_IMPACTT/raw_IMPACTT.fa

When I run the aligner all is ok, but in the end results I only have one sample table.

shogun align -d rep82_shogun_db -a bowtie2 -i raw_data_IMPACTT/raw_IMPACTT.fa -o shogun_aligned_IMPACTT

woltka classify -i shogun_aligned_IMPACTT -o table_IMPACTT.biom

How can I retain info of separate samples (stored in the fastq.gz file name) as well how to make use of the paired-end data (that might or might not overlap) to increase the taxonomic assignment accuracy.

Is there a way to run this all under qiime2?

Is there a plan to make a tutorial in the near future for this type of analysis?

Just in case I add the „head“ of the fastq files that I am trying to classify.

(base) rahp@DESKTOP-CNNQPGN:~/Shogun_Woltka_test/raw_data$ head CSM79HR8_R1_subsampled.fastq

@HKWGMBCXY170605:1:1101:10000:23552/1

CTTGAATACAAAGGTGGTAATCACAAATCCGGCAACAAGGGCATAGAATCCCTCCACCACTATCATCCCCTTGATCTG

@DBA@EGEFHEHIIFHEHHH?FHG1C@FHIIC<CHHHF?D=E@G@FHHFEEEHEHHIHICHHECHHHH?EHFFHHI1<

@HKWGMBCXY170605:1:1101:10001:74604/1

CCCTATGCGCAAGGATATTTACGAGTCCCCGCTTTCGTCCCGCTATGCGTCCGAATACATGCTGCACCTCTTTTCCCCCGATATGCGCTTCCAGACGTGGC

<@DAADGHIIIIIHGIIHIIHIDHHHHIHIEHHIIIIHHHHHIGIIIIIFHHHIIIICHHHGHIIIII?FEHIIHIIHHHCHHHEHDH?CGHIIGIHECCC

@HKWGMBCXY170605:1:1101:10004:62327/1

TCAATAAGGTATGTGCTTGTTAATCAGGAAGTAATTTTGCCAACCCCTTGCTTGCGTCTTGGCAAACTTTTGCCATGCCTATGGCAAAGTTTTGCCAACGC

(base) rahp@DESKTOP-CNNQPGN:~/Shogun_Woltka_test/raw_data$ head CSM79HR8_R2_subsampled.fastq

@HKWGMBCXY170605:1:1101:10000:23552/2

CAGTATGAAAGACTGAAGAGAAACCTGAGATAGACATGGAAGAGGCATACAGCAATCTGAACAACGCATACCTGCAGATCAAGGGGATGATAGTGGTGGAG

@@DDBHEHIIIIHHIC?GHHHCCHECHIHGEEEHHIGHIHIIHIEHHHHIHIHFHHGIGHIEHIIIDIIHHIIIFHHEGCHGF@GH/0<CHHHIHGEHHHC

@HKWGMBCXY170605:1:1101:10001:74604/2

GGCCCAGCTCGTGCTCGGCGCGGGCAAGCGCCACCCACAGTCTGCGCCACGTCTGGAAGCGCATATCGGGGGAAAAGAGGTGCAGCATGTATTCGGACGCA

DD?@DHFHIIIIHIIIIHHIGHIIIIIIIIHICHHIHHFIIIHHIIIHHIIHHHHH1CGHIHHHIIIHIIIIIIIIGIIGHIHCHIIHHEHIHIIIIIHDC

@HKWGMBCXY170605:1:1101:10004:62327/2

ATTTAATGTGCCACAAAGGTAAGACTTTGCAGCCATAGTCAAACACGGACTCCCCTTTATTTTCTTCGCCTTGCCAACCAGTTGGCAGGATTTTGCCTTAC

Thank you very much in advance for any advice!!

Rahel