~ubuntu-branches/ubuntu/trusty/qiime/trusty

« back to all changes in this revision

Viewing changes to doc/documentation/file_formats.rst

  • Committer: Package Import Robot
  • Author(s): Andreas Tille
  • Date: 2013-06-17 18:28:26 UTC
  • mfrom: (9.1.2 sid)
  • Revision ID: package-import@ubuntu.com-20130617182826-376az5ad080a0sfe
Tags: 1.7.0+dfsg-1
Upload preparations done for BioLinux to Debian

Show diffs side-by-side

added added

removed removed

Lines of Context:
116
116
Mapping Files Without Barcodes and/or Primers
117
117
+++++++++++++++++++++++++++++++++++++++++++++
118
118
 
119
 
In some circumstances, users may need to generate a mapping file that does not contain barcodes and/or primers.  To generate such a mapping file, the header and column for "BarcodeSequence" is removed and "LinkerPrimerSequence" fields can be left empty.  An example of such a file is below (note that the tabs are still present for the empty "LinkerPrimerSequence" field):
 
119
In some circumstances, users may need to generate a mapping file that does not contain barcodes and/or primers.  To generate such a mapping file, fields for "BarcodeSequence" and "LinkerPrimerSequence" can be left empty.  An example of such a file is below (note that the tabs are still present for the empty "BarcodeSequence" and "LinkerPrimerSequence" fields):
120
120
 
121
121
.. note::
122
122
 
123
 
   * #SampleID  LinkerPrimerSequence    Treatment DOB   Description
 
123
   * #SampleID  BarcodeSequence LinkerPrimerSequence    Treatment DOB   Description
124
124
   * #Example mapping file for the QIIME analysis package. These 9 samples are from a study of the effects of
125
125
   * #exercise and diet on mouse cardiac physiology (Crawford, et al, PNAS, 2009).
126
126
   * PC.354             Control 20061218        Control_mouse__I.D._354
205
205
OTU table
206
206
^^^^^^^^^^
207
207
 
208
 
OTU tables are sample x observation matrices, and are central to a lot of downstream analysis in QIIME. These are generated by ``pick_otus_through_otu_table.py`` but can also be generated externally from QIIME (e.g., exported from MG-RAST for metagenomic analysis with QIIME). These are used in scripts such as ``beta_diversity_through_plots.py``, ``alpha_rarefaction.py``, and ``summarize_taxa_through_plots.py.py``.
 
208
OTU tables are sample x observation matrices, and are central to a lot of downstream analysis in QIIME. These are generated by ``pick_de_novo_otus.py`` but can also be generated externally from QIIME (e.g., exported from MG-RAST for metagenomic analysis with QIIME). These are used in scripts such as ``beta_diversity_through_plots.py``, ``alpha_rarefaction.py``, and ``summarize_taxa_through_plots.py.py``.
209
209
 
210
210
OTU Table overview
211
211
++++++++++++++++++
250
250
QIIME parameters
251
251
^^^^^^^^^^^^^^^^
252
252
 
253
 
The QIIME parameters files is used to pass per-script parameters to the QIIME 'workflow' scripts. An example is provided as ``Qiime/qiime_parameters.txt``.
254
 
 
255
 
This file is used to give workflow script users control over the parameters to the individual scripts without having an extremely complex and hard to maintain interface to the workflow scripts. Users should copy the example ``qiime_parameters.txt`` script to the directory where they are performing their analysis, and edit the values in this file accordingly. This copy will be referred to as the user's working ``qiime_parameters.txt`` file. The parameters are defined as ``script_name:parameter_name``, followed by a tab, and then the value. For example::
256
 
        
257
 
        align_seqs:alignment_method     pynast
258
 
 
259
 
This indicates that the ``--alignment_method`` will be set to ``pynast`` when calling ``align_seqs.py``. To get information on what a parameter in the ``qiime_parameters.txt`` file is, you should call the script name followed by ``-h`` to access the usage information for that script. In the above example, you could call::
260
 
        
261
 
        python align_seqs.py -h
262
 
 
263
 
Boolean options are specified by passing ``True`` or ``False`` after the tab. For example::
264
 
        
265
 
        parallel:retain_temp_files      False
266
 
        
267
 
When a parameter is not followed by an option, that indicates that it will not be passed to the script resulting in the default value being used instead. For example::
268
 
        
269
 
        align_seqs:blast_db
270
 
 
271
 
This results in no ``--blast_db`` parameter being passed to ``align_seqs.py``. Alternatively, you can delete this line from your working ``qiime_parameters.txt`` file.
272
 
 
273
 
You can find information on the QIIME workflow scripts at:
274
 
 
275
 
        * `pick_otus_through_otu_table.py <../scripts/pick_otus_through_otu_table.html>`_
276
 
        * `alpha_rarefaction.py <../scripts/alpha_rarefaction.html>`_
277
 
        * `beta_diversity_through_plots.py <../scripts/beta_diversity_through_plots.html>`_
278
 
        * `jackknifed_beta_diversity.py <../scripts/jackknifed_beta_diversity.html>`_
279
 
 
280
 
 
281
 
 
282
 
 
 
253
The QIIME parameters files is used to pass per-script parameters to the QIIME 'workflow' scripts. You can find details on these files in :doc:`qiime_parameters_files`.
 
254
 
 
255
.. _sample_id_map:
 
256
 
 
257
Sample id map
 
258
^^^^^^^^^^^^^
 
259
 
 
260
Some scripts which compare paired samples, including `transform_coordinate_matrices.py <../scripts/transform_coordinate_matrices.html>`_ and `compare_taxa_summaries.py <../scripts/compare_taxa_summaries.html>`_, take a parameter, ``--sample_id_map_fp``, which is necessary when comparing data sets with different sample IDs. This file, a *sample id map* (**which is different than a QIIME mapping file**), describes how to map from the sample IDs associated with the input data to a new sample id that will be consistent across the data sets being compared. For example, if your first data set contains samples ``S1``, ``S2``, and ``S3``, and these should be paired with samples ``T1``, ``T2``, and ``T3`` in your second data set, your *sample id map* might look like::
 
261
 
 
262
        S1      1
 
263
        S2      2
 
264
        S3      3
 
265
        T1      1
 
266
        T2      2
 
267
        T3      3
 
268
 
 
269
The reason for this format is that it's usually sample metadata from one or more columns in the QIIME mapping files associated with each data set that allows you to match samples to one another. With this format you can select one or more columns from each QIIME mapping file (concatenating some fields, if necessary) to build the sample id map.
 
270
 
 
271
To clarify, this format maps from *input* sample id to *new* sample id, **not** from *sample id in matrix 1* to *sample id in matrix 2*.