~ubuntu-branches/ubuntu/trusty/qiime/trusty

« back to all changes in this revision

Viewing changes to doc/tutorials/denoising_454_data.rst

  • Committer: Package Import Robot
  • Author(s): Andreas Tille
  • Date: 2013-06-17 18:28:26 UTC
  • mfrom: (9.1.2 sid)
  • Revision ID: package-import@ubuntu.com-20130617182826-376az5ad080a0sfe
Tags: 1.7.0+dfsg-1
Upload preparations done for BioLinux to Debian

Show diffs side-by-side

added added

removed removed

Lines of Context:
23
23
Note that the qiime since package v1.2 has a replacement for the sfftools.
24
24
It's slower but fully functional.
25
25
 
 
26
.. warning:: Warning: Since late 2012, 454 machines have a new feature (flow pattern B) that is supposed to allow for longer reads. Unfortunately, files using this feature can not be denoised, but result in nonsense output. To make sure that your file uses the older, more common flow pattern A, open the .sff.txt file and look for the ``Flow Chars:`` section in the header. If it shows a constant repeat of TACG you are fine. If however the pattern deviates after the third repeat, you are looking at the new flow pattern B that can not be denoised. In any case, all other qiime programs are not affected by this and can be used as usual.
 
27
 
26
28
For more details on the available options of each script explained in
27
29
the following use the -h option.
28
30
 
32
34
and low quality reads need to be filtered out. This can be done using
33
35
`split_libraries.py <../scripts/split_libraries.html>`_. An example command would be::
34
36
 
35
 
        split_libraries.py -o run1 -f run1.fasta -q run1.qual -m run1_mapping.txt -w 50 -r -l 150 -L 350
36
 
        split_libraries.py -o run2 -f run2.fasta -q run2.qual -m run2_mapping.txt -w 50 -r -l 150 -L 350 -n 1000000
 
37
        split_libraries.py -o run1 -f run1.fasta -q run1.qual -m run1_mapping.txt -w 50 -g -r -l 150 -L 350
 
38
        split_libraries.py -o run2 -f run2.fasta -q run2.qual -m run2_mapping.txt -w 50 -g -r -l 150 -L 350 -n 1000000
37
39
 
38
 
This step has to be done separately for each 454 pool, following the usual guidelines for running several data sets through `split_libraries.py <../scripts/split_libraries.html>`_.
 
40
This step has to be done separately for each 454 pool, following the usual guidelines for running several data sets through `split_libraries.py <../scripts/split_libraries.html>`_. Note that all options to `split_libraries.py <../scripts/split_libraries.html>`_ that truncate the sequences on the 3' end should not be used as they do not affect the sff.txt files used for denoising. This includes the ``-x``, ``-z truncate_only``, and ``-w`` without ``-g`` options. We recommend though to use the ``-w 50 -g`` combination to discard reads of bad quality.
 
41
Also, do not use the `truncate_fasta_qual_files.py  <../scripts/truncate_fasta_qual_files.html>`_ script if you plan to denoise your data.
 
42
If you need to truncate your data, use the ``sfffile`` program from the Roche sfftools package and recreate your fasta and qual files from the truncated sff file.
39
43
 
40
44
For a single, non-barcoded sample, `split_libraries.py <../scripts/split_libraries.html>`_
41
45
can be provided with a mapping file that has an empty field for the BarcodeSequence.
44
48
 
45
49
.. note::
46
50
 
47
 
        #SampleID   BarcodeSequence     LinkerPrimerSequence     Description
48
 
        Artificial                      ATTAGATACCCNGGTAG        ArtificialGSFLX_from_Quince_et_al
 
51
   * #SampleID   BarcodeSequence        LinkerPrimerSequence     Description
 
52
   * Artificial                         ATTAGATACCCNGGTAG        ArtificialGSFLX_from_Quince_et_al
49
53
 
50
54
Note that fields must be separated by a single tab. For the empty barcode there must be two
51
55
tabs between SampleID and the primer sequence. Use QIIME's
96
100
    inflate_denoiser_output.py -c centroids1.fna,centroids2.fna -s singletons1.fna,singletons2.fna -f seqs1.fna,seqs2.fna -d denoiser_mapping1.txt,denoiser_mapping2.txt -o denoised_seqs.fna
97
101
 
98
102
 
99
 
Your denoised sequences can now be fed directly into QIIME at the OTU picking stage. The next step will be to run one of the OTU pickers or OTU picking workflow scripts (e.g., `pick_otus.py <../scripts/pick_otus.html>`_, `pick_otus_through_otu_table.py <../scripts/pick_otus_through_otu_table.html>`_, `pick_reference_otus_through_otu_table.py <../scripts/pick_reference_otus_through_otu_table.html>`_, `core_qiime_analyses.py <../scripts/core_qiime_analyses.html>`_. At the OTU picking stage it is very important that you allow for the abundance presorting, which is currently in place for the uclust OTU picker only. We therefore don't recommend using other OTU pickers, and **do not pass the -D/--suppress_presort_by_abundance_uclust option to pick_otus.py**. If possible, it is worth using uclust with ``--optimal`` to assure the best possible choice of OTUs.::
 
103
Your denoised sequences can now be fed directly into QIIME at the OTU picking stage. The next step will be to run one of the OTU pickers or OTU picking workflow scripts (e.g., `pick_otus.py <../scripts/pick_otus.html>`_, `pick_de_novo_otus.py <../scripts/pick_de_novo_otus.html>`_, `pick_closed_reference_otus.py <../scripts/pick_closed_reference_otus.html>`_, or `pick_open_reference_otus.py <../scripts/pick_open_reference_otus.html>`_,. At the OTU picking stage it is very important that you allow for the abundance presorting, which is currently in place for the uclust OTU picker only. We therefore don't recommend using other OTU pickers, and **do not pass the -D/--suppress_presort_by_abundance_uclust option to pick_otus.py**. If possible, it is worth using uclust with ``--optimal`` to assure the best possible choice of OTUs.::
100
104
 
101
105
    pick_otus.py -s 0.97 -i denoised_seqs.fna -m uclust --optimal
102
106
 
303
307
 
304
308
- percent_id=PERCENT_ID     sequence similarity clustering threshold [default: 0.97]
305
309
 
306
 
The :file:`low_cut_off` and the :file:`percent_id` are used for clustering in the second, greedy clustering step.
307
 
The :file:`high_cut_off` is used in the third clustering step, where unclustered reads are mapped according to their best match to any of the clusters of phase II. For good values for the thresholds, we refer to the plot S2 in the supplementary material of the denoiser paper (Reeder and Knight, Nature Methods 2010).
 
310
The ``low_cut_off`` and the ``percent_id`` are used for clustering in the second, greedy clustering step.
 
311
The ``high_cut_off`` is used in the third clustering step, where unclustered reads are mapped according to their best match to any of the clusters of phase II. For good values for the thresholds, we refer to the plot S2 in the supplementary material of the denoiser paper (Reeder and Knight, Nature Methods 2010).
308
312
 
309
313
 
310
314