~ubuntu-branches/ubuntu/precise/ncbi-tools6/precise

« back to all changes in this revision

Viewing changes to doc/README.mbl

  • Committer: Bazaar Package Importer
  • Author(s): Aaron M. Ucko
  • Date: 2005-03-27 12:00:15 UTC
  • mfrom: (2.1.2 hoary)
  • Revision ID: james.westby@ubuntu.com-20050327120015-embhesp32nj73p9r
Tags: 6.1.20041020-3
* Fix FTBFS under GCC 4.0 caused by inconsistent use of "static" on
  functions.  (Closes: #295110.)
* Add a watch file, now that we can.  (Upstream's layout needs version=3.)

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
                       README for standalone MEGABLAST
2
 
                          (last updated 10/20/2000)
3
 
 
4
 
 
5
 
Mega BLAST uses the greedy algorithm of Webb Miller et al. for nucleotide
6
 
sequence alignment search and concatenates many queries to save time spent
7
 
scanning the database. This program is optimized for aligning sequences that
8
 
differ slightly as a result of sequencing or other similar "errors". It is up to
9
 
10 times faster than more common sequence similarity programs and therefore can
10
 
be used to swiftly compare two large sets of sequences against each other.  
11
 
 
12
 
Most of the options are similar to those in the blastall binary (see README.bls
13
 
file for their descriptions). Note that megablast binary does not require the
14
 
program option. Below are the more detailed explanations of some of the options
15
 
either specific to Mega BLAST or having different meaning:
16
 
 
17
 
-----------------------------
18
 
 
19
 
-W Word size. 
20
 
 
21
 
   When W is divisible by 4, it guarantees that all perfect matches of length 
22
 
   W + 3 will be found by Mega BLAST search, however perfect matches of length
23
 
   as low as W might also be found, although the latter is not guaranteed. Any 
24
 
   value of W not divisible by 4 is equivalent to the nearest value divisible by 
25
 
   4 (with 4*i+2 equivalent to 4*i).
26
 
 
27
 
-----------------------------
28
 
 
29
 
-G, -E Affine gapping penalties.
30
 
 
31
 
   If these options are not set (both are 0), then non-affine gapping is assumed 
32
 
   with gap opening penalty 0 and gap extension penalty E, that can be computed 
33
 
   from match reward r and mismatch penalty q by the formula: E = r/2 - q. The 
34
 
   affine version of Mega BLAST requires significantly more memory, so it should 
35
 
   be avoided if possible, especially when some of the query or database 
36
 
   sequences are very long.
37
 
 
38
 
-----------------------------
39
 
 
40
 
-D Type of the Mega BLAST output.
41
 
 
42
 
   0: Produce one-line output for each alignment, in the form
43
 
 
44
 
      'subject-id'=='[+-]query-id' (s_off q_off s_end q_end) score
45
 
 
46
 
      Here subject(query)-id is a gi number, an accession or some other type of
47
 
      identifier found in the FASTA definition line of the respective sequence.
48
 
 
49
 
      + or - corresponds to same or different strand alignment.
50
 
 
51
 
      Score for non-affine gapping parameters means the total number of
52
 
      differences (mismatches + gaps). For affine case it is the actual (raw)
53
 
      score of the alignment.
54
 
 
55
 
   1: Show the same output as level 0, plus the endpoints and percentage 
56
 
      of identical nucleotides for each ungapped segment in the alignment.
57
 
 
58
 
   2: Show the traditional BLAST (blastn) output.
59
 
 
60
 
   3: Show one-line output for each alignment, with the following fields 
61
 
      tab-separated:
62
 
 
63
 
      Query id, Subject id, percent of identity, alignment length, number of
64
 
      mismatches (not including gaps), number of gap openings, start of
65
 
      alignment in query, end of alignment in query, start of alignment in
66
 
      subject, end of alignment in subject, expected value, bit score.
67
 
  
68
 
      If the alignment is from a reverse strand, the subject start and end are
69
 
      printed in the reverse order, reflecting the actual direction of the
70
 
      alignment. 
71
 
    
72
 
-----------------------------
73
 
-F Filtering
74
 
 
75
 
   This option is described in the README.bls file and in general works
76
 
   identically to other BLAST programs. It actually contains two different
77
 
   options: the type of filtering and what stages of the search should mask the
78
 
   filtered regions. The option is specified by a string that contains all types 
79
 
   of filters the user wants to apply, separated by semicolons or spaces. The
80
 
   available filters for nucleotide BLAST or Mega BLAST searches are: 
81
 
 
82
 
        D - dust  
83
 
        R - Human repeats
84
 
        V - Vector screen
85
 
        L - low complexity (equivalent to D)
86
 
 
87
 
   Finally, if letter 'm' is included in the filter string, all types of
88
 
   filters are used to mask the query sequence regions only on the word finding
89
 
   stage and do not affect the extension stage. 
90
 
 
91
 
   E.g. if the option -F "m D;R" is specified, then both dust and human repeats
92
 
   filtering will be applied, but the alignments will be extended through the
93
 
   filtered areas. With option -F "L;V" the dust and vector screen filters will
94
 
   be applied, and the filtered areas will be masked for all stages of the
95
 
   search. 
96
 
     
97
 
   The -F m option affects the lower case filtering (specified by the -U option)
98
 
   as well. Therefore if one wants to use lower case filtering, but allow the
99
 
   extension through lower case regions of the query sequence, the -F m -U T
100
 
   combination of options must be used.
101
 
 
102
 
-----------------------------
103
 
 
104
 
-X X-dropoff value.
105
 
 
106
 
   As in BLAST, this values provides a cutoff threshold for the extension
107
 
   algorithm tree exploration. When the score of a given branch drops below the
108
 
   current best score minus the X-dropoff, the exploration of this branch
109
 
   stops. 
110
 
 
111
 
-----------------------------
112
 
 
113
 
-e The cutoff expectation value. 
114
 
 
115
 
   By default this value is set to a very large number, i.e. effectively there
116
 
   is no expectation value cutoff.
117
 
 
118
 
-----------------------------
119
 
 
120
 
-v Maximal number of database sequences to report alignments from. 
121
 
-b Maximal number of reported alignments for a given database sequence.
122
 
 
123
 
   These options are meaningful only in conjunction with -D 2.
124
 
 
125
 
-----------------------------
126
 
 
127
 
-J Believe the query defline.
128
 
 
129
 
   The default is T (TRUE) for all types of output except -D 2. In the latter
130
 
   case, the default is F (FALSE), unless a SeqAlign ASN.1 output is required,
131
 
   specified by the -O option.
132
 
   Note: this option must be set to F (FALSE) if the sequence IDs in the FASTA 
133
 
   file are not unique.
134
 
 
135
 
-----------------------------
136
 
 
137
 
-M Maximal total length of queries to be concatenated for a single megablast
138
 
   search. 
139
 
 
140
 
   Setting this value to smaller than default (20,000,000) can reduce the memory 
141
 
   image of the program for large searches.
142
 
 
143
 
-----------------------------
144
 
 
145
 
-P Maximal number of positions for a hash value.
146
 
 
147
 
   This option provides for a very simple type of filtering if it is set to a
148
 
   non-zero value. Namely, any pattern of length 12 when word size is greater 
149
 
   than or equal to 16 (8 for smaller word sizes), that appears in all of the 
150
 
   query sequences together more than P times, is masked and not included in the 
151
 
   search look-up table. If such masking occurs, megablast shows a warning 
152
 
   message on the standard output. This can be useful when running megablast for 
153
 
   very long unmasked sequences, in which case when -P option is not set, the 
154
 
   search might take a very long time.
155
 
 
156
 
-----------------------------
157
 
 
158
 
-O ASN.1 Seqalign file.
159
 
 
160
 
   This option specifies a file name for writing ASN.1 output. It is only
161
 
   meaningful in conjunction with -D 2. The ASN.1 will consist of separate
162
 
   ASN.1 codes for each query sequence:
163
 
 
164
 
   Seq-annot ::= {
165
 
      All hits for first query
166
 
                 }      
167
 
   Seq-annot ::= {
168
 
      All hits for second query
169
 
                 }      
170
 
   etc.
171
 
 
172
 
-----------------------------
173
 
 
174
 
-s Minimal hit score to report. 
175
 
 
176
 
   By default this value is set to W, where W is the wordsize (-W option),
177
 
   i.e. is ignored (since all found alignments are extended from an exact match
178
 
   of length at least W).
179
 
 
180
 
-----------------------------
181
 
 
182
 
-Q Masked query output.
183
 
 
184
 
   All regions of the query sequences, that were hit by any found alignment, are
185
 
   masked by N's. The output is written to a file specified by the -Q option. It
186
 
   can be used only in conjunction with -D 2.
187
 
 
188
 
-----------------------------
189
 
 
190
 
-f Show full IDs in the output.
191
 
 
192
 
   By default, for -D 0 and -D 1 outputs, the sequence IDs are reported as GIs
193
 
   or accession numbers (if GIs are not available). If -f is set to T, full IDs
194
 
   will be shown, unless -J option is set to F. In the latter case full deflines 
195
 
   will be shown for the query sequences.
196
 
 
197
 
-----------------------------
198
 
 
199
 
-U Use lower case filtering of FASTA sequences.
200
 
 
201
 
   Like in blastall binary, this option allows to treat lower case in the query
202
 
   sequences as masked residues. The deafult for this option is set to FALSE, 
203
 
   in which case the lower case is treated identically to upper case.
204
 
 
205
 
-----------------------------
206
 
 
207
 
-p Cutoff by percentage of identity
208
 
 
209
 
   The alignments with identity percentage below the value of this option are
210
 
   not reported in all output formats except -D 0 (with the latter the traceback 
211
 
   is not performed, so it is impossible to calculate the percentage of identical 
212
 
   residues).