Can't get deblur to finish running with large (8 GB) .qza file

Steven_Mamet · March 18, 2019, 2:32pm

So I think changing the temporary directory solved any storage issues. But there is an issue with two of my fastq files. If I remove these, the subset pipeline will run, but I can't seem to find the issue within the files.

Everything will run up until the deblur step. Here is the output from the tmp log:

Traceback (most recent call last):
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/bin/deblur", line 684, in
deblur_cmds()
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/click/core.py", line 764, in call
return self.main(*args, **kwargs)
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/click/core.py", line 717, in main
rv = self.invoke(ctx)
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/click/core.py", line 1137, in invoke
return _process_result(sub_ctx.command.invoke(sub_ctx))
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/click/core.py", line 956, in invoke
return ctx.invoke(self.callback, **ctx.params)
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/click/core.py", line 555, in invoke
return callback(*args, **kwargs)
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/bin/deblur", line 632, in workflow
threads_per_sample=threads_per_sample)
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/deblur/workflow.py", line 833, in launch_workflow
left_trim_len=left_trim_length):
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/deblur/workflow.py", line 130, in trim_seqs
for label, seq in input_seqs:
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/deblur/workflow.py", line 99, in sequence_generator
for record in skbio.read(input_fp, format=format, **kw):
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/skbio/io/registry.py", line 506, in
return (x for x in itertools.chain([next(gen)], gen))
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/skbio/io/registry.py", line 531, in _read_gen
yield from reader(file, **kwargs)
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/skbio/io/registry.py", line 1008, in wrapped_reader
yield from reader_function(fhs[-1], **kwargs)
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/skbio/io/format/fastq.py", line 344, in _fastq_to_generator
seq, qual_header = _parse_sequence_data(fh, seq_header)
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/skbio/io/format/fastq.py", line 481, in _parse_sequence_data
_blank_error("before '+'")
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/skbio/io/format/fastq.py", line 473, in _blank_error
raise FASTQFormatError(error_string)
skbio.io._exception.FASTQFormatError: Found blank or whitespace-only line before '+' in FASTQ file
Traceback (most recent call last):
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/q2cli/commands.py", line 274, in call
results = action(**arguments)
File "</home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/decorator.py:decorator-gen-432>", line 2, in denoise_16S
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/qiime2/sdk/action.py", line 231, in bound_callable
output_types, provenance)
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/qiime2/sdk/action.py", line 365, in callable_executor
output_views = self._callable(**view_args)
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/q2_deblur/_denoise.py", line 96, in denoise_16S
hashed_feature_ids=hashed_feature_ids)
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/site-packages/q2_deblur/_denoise.py", line 163, in denoise_helper
subprocess.run(cmd, check=True)
File "/home/sdm231/miniconda3/envs/qiime2-2019.1/lib/python3.6/subprocess.py", line 418, in run
output=stdout, stderr=stderr)
subprocess.CalledProcessError: Command '['deblur', 'workflow', '--seqs-fp', '/tmp/qiime2-archive-lrbcucl/6c54ea4a-f0b8-494f-b213-6d43c30aa83f/data', '--output-dir', '/tmp/tmp_bnyu_ns', '--mean-error', '0.005', '--indel-prob', '0.01', '--indel-max', '3', '--trim-length', '250', '--min-reads', '10', '--min-size', '2', '--jobs-to-start', '1', '-w', '--keep-tmp-files']' returned non-zero exit status 1.

Which seems consistent with this:

But these are straight from the sequencer and I'm not sure how to troubleshoot this. I could proceed without these sampled, but I'm curious if there is anything I can do to fix this. I've attached the forward-reverse reads for one sample here if the qiime2 brain collective has any advice:

ORIG2CR1156NW05000L_R1.fastq.gz (1.1 MB)
ORIG2CR1156NW05000L_R2.fastq.gz (1.3 MB)

Thanks for your help!

Steve