~ubuntu-branches/ubuntu/natty/ncbi-tools6/natty

« back to all changes in this revision

Viewing changes to doc/README.bls

  • Committer: Bazaar Package Importer
  • Author(s): Aaron M. Ucko
  • Date: 2002-04-04 22:13:09 UTC
  • Revision ID: james.westby@ubuntu.com-20020404221309-vfze028rfnlrldct
Tags: upstream-6.1.20011220a
ImportĀ upstreamĀ versionĀ 6.1.20011220a

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
        
 
2
                        README for stand-alone BLAST
 
3
                           (last updated 12/18/2001)
 
4
 
 
5
 
 
6
 
 
7
This document provides information on stand-alone BLAST.  Topics covered are
 
8
setting up stand-alone BLAST, command-line options for stand-alone BLAST,
 
9
and a release history of the different versions.
 
10
 
 
11
BLAST binaries are provided for IRIX6.2, Solaris2.6 (Sparc) Solaris2.7 (Intel), 
 
12
DEC OSF1 (ver. 4.0D), LINUX/Intel, HPUX, MacIntosh, and Win32 systems.
 
13
We will attempt to produce binaries for other platforms upon request.
 
14
 
 
15
Stand-alone binaries are available from ftp://ftp.ncbi.nih.gov/blast/executables/
 
16
 
 
17
Please remember to FTP in binary mode.
 
18
 
 
19
 
 
20
Setting up Standalone BLAST for UNIX:
 
21
-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
 
22
 
 
23
Basically, there are three steps needed to setup the Standalone BLAST
 
24
executable for the UNIX platform.
 
25
 
 
26
1) Download the UNIX binary, uncompress and untar the file. It is
 
27
suggested that you do this in a separate directory, perhaps called
 
28
"blast".
 
29
 
 
30
2) Create a .ncbirc file. In order for Standalone BLAST to operate, you
 
31
have will need to have a .ncbirc file that contains the following lines:
 
32
 
 
33
[NCBI] 
 
34
Data="path/data/"
 
35
 
 
36
Where "path/data/" is the path to the location of the Standalone BLAST
 
37
"data" subdirectory. For Example: 
 
38
 
 
39
Data=/root/blast/data
 
40
 
 
41
The data subdirectory should automatically appear in the directory where
 
42
the downloaded file was extracted. Please note that in many cases it may
 
43
be necessary to delimit the entire path including the machine name and
 
44
or the net work you are located on. Your systems administrator can help
 
45
you if you do not know the entire path to the data subdirectory.
 
46
 
 
47
Make sure that your .ncbirc file is either in the directory that you
 
48
call the Standalone BLAST program from or in your root directory.
 
49
 
 
50
3) Format your BLAST database files. The main advantage of Standalone
 
51
BLAST is to be able to create your own BLAST databases. This can be done
 
52
with any file of FASTA formatted protein or nucleotide sequences. If you
 
53
are interested in creating your own database files you should refer to
 
54
the sections "Non-redundant defline syntax" and "Appendix 1: Sequence
 
55
Identifier Syntax" of the README in the BLAST database directory
 
56
(ftp://ftp.ncbi.nih.gov/blast/db/). You can also refer to the FASTA
 
57
description available from the BLAST search pages 
 
58
(http://www.ncbi.nlm.nih.gov/BLAST/fasta.html). 
 
59
 
 
60
However, for a testing purposes you should download one of the NCBI
 
61
databases and run a search against it.
 
62
 
 
63
In the BLAST database FTP directory (ftp://ftp.ncbi.nih.gov/blast/db/)
 
64
you will find the downloadable BLAST database files.  For your first
 
65
search we recommend downloading something relatively small like
 
66
ecoli.nt.Z (1349 Kb).  This is a FASTA formatted file of nucleotide
 
67
sequences which is also compressed.  Once uncompressed, you will need to
 
68
format the database using the 'formatdb' program which comes with your
 
69
Standalone BLAST executable. The list of arguments for this program and
 
70
all other BLAST programs are located at the end of the README in the
 
71
Standalone BLAST FTP directory (ftp://ftp.ncbi.nih.gov/blast/executable/). Or 
 
72
you can get these arguments by running each of the BLAST programs (formatdb, 
 
73
blastall etc.) with a single hyphen as the argument (Example: formatdb -). For
 
74
this document we are just going to show you the basic commands for formatting 
 
75
the database and running your first search.
 
76
 
 
77
To format the ecoli.nt database run the following from the command
 
78
line:
 
79
 
 
80
formatdb -i ecoli.nt -p F -o T
 
81
 
 
82
This will create seven index files that Standalone BLAST needs to
 
83
perform the searches and produce results. The ecoli.nt file is not
 
84
needed after formatdb has been done and you can delete this.
 
85
 
 
86
Next create a test nucleotide file to run against the new database.  It
 
87
may be easier to 'cheat' here and just extract a portion of a
 
88
nucleotide sequence you know is in the downloaded ecoli.nt database.
 
89
Make a text file called test.txt with the following sequence:
 
90
 
 
91
>Test
 
92
AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC
 
93
TTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAA
 
94
TATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACC
 
95
ATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAG
 
96
CCCGCACCTGACAGTGCGGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA
 
97
GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGGAAAGCAATGCC
 
98
AGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGATTG
 
99
AAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTTGCCGAACTTTT
 
100
 
 
101
To run the first search enter the following command from the UNIX
 
102
command line in your BLAST directory:
 
103
 
 
104
blastall -p blastn -d ecoli.nt -i test.txt -o test.out
 
105
 
 
106
This should generate a results file called test.out in the Standalone
 
107
BLAST directory. 
 
108
 
 
109
Now you are ready to create your own databases and run BLAST searches.
 
110
For more information you should refer to the Standalone BLAST README (
 
111
ftp://ftp.ncbi.nih.gov/blast/executable/) and the BLAST literature. 
 
112
This will give you some idea of all the programs BLAST supports and the
 
113
use of different parameters for increasing or decreasing the stringency
 
114
of your results.
 
115
 
 
116
If you have any questions please send them to the
 
117
blast-help@ncbi.nlm.nih.gov e-mail address.
 
118
 
 
119
 
 
120
Setting up Standalone BLAST for Windows
 
121
-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-
 
122
 
 
123
There are three steps needed to setup the Standalone BLAST
 
124
executable.
 
125
 
 
126
1) Download and compress the Standalone BLAST Windows binary
 
127
blastcz.exe. We suggest doing this in it's own directory, perhaps called
 
128
blast. This is a 'self-extracting' archive and all you need to do is run
 
129
this either through a Command Prompt (DOS Prompt) or by selecting "Run"
 
130
from the Windows "Start button" and browsing the blastcz.exe file.
 
131
 
 
132
2) Create an ncbi.ini file. In order for Standalone BLAST to operate,
 
133
you have will need to have an ncbi.ini file that contains the following
 
134
lines:
 
135
 
 
136
[NCBI] 
 
137
Data="C:\path\data\"
 
138
 
 
139
Where "C:path\data\" is the path to the location of the Standalone
 
140
BLAST "data" subdirectory. For example: 
 
141
 
 
142
Data=C:\blast\data
 
143
 
 
144
This data subdirectory should automatically appear in the directory
 
145
where the downloaded file was extracted.
 
146
 
 
147
Make sure that your ncbi.ini file is in the Windows or WINNT directory
 
148
on your machine. Note: If you already have an ncbi.ini file on your
 
149
machine from installing other NCBI software(Network Entrez, Sequin etc.)
 
150
you can skip this section. However, if you see the following error
 
151
message, you should rename the old ncbi.ini file to something like
 
152
ncbi.bak and follow the instructions in number 2 above.
 
153
 
 
154
Abrupt: code=1
 
155
FATAL ERROR: FindPath failed. 
 
156
 
 
157
C) The main advantage of Standalone BLAST is to be able to create your
 
158
own BLAST databases. This can be done with any file of FASTA formatted
 
159
protein or nucleotide sequences. If you are interested in creating your
 
160
own database you should refer to the sections "Non-redundant defline
 
161
syntax" and "Appendix 1: Sequence Identifier Syntax" of the README in
 
162
the BLAST database directory (ftp://ftp.ncbi.nih.gov/blast/db/). You can
 
163
also refer to the FASTA description available from the BLAST search
 
164
pages (http://www.ncbi.nlm.nih.gov/BLAST/fasta.html). 
 
165
 
 
166
However, for a testing purposes you should download one of the NCBI
 
167
databases and run a search against it.
 
168
 
 
169
In the BLAST database FTP directory ftp://ftp.ncbi.nih.gov/blast/db/
 
170
you will find the downloadable BLAST database files. For your first
 
171
search we recommend downloading something relatively small like
 
172
ecoli.nt.Z (1349 Kb).  This is a FASTA formatted file of nucleotide
 
173
sequences which is also compressed. (If you do not have a copy of UNIX
 
174
"uncompress" for your Windows PC contact NCBI Info at
 
175
info@ncbi.nlm.nih.gov).
 
176
 
 
177
Once uncompressed, you will now need to format the database using the
 
178
'formatdb' program which comes with your Standalone BLAST executable.
 
179
The list of arguments for this program and all other BLAST programs are
 
180
located at the end of the README in the Standalone BLAST FTP directory
 
181
(ftp://ftp.ncbi.nih.gov/blast/executable/). Or you can get these
 
182
arguments by running each of the BLAST programs (formatdb, blastall
 
183
etc.) with a single hyphen as the argument (Example: formatdb -). For
 
184
this document we are just going to show you the basic commands for
 
185
formatting the database and running your first search.
 
186
 
 
187
To format the ecoli.nt database run the following from the command
 
188
line:
 
189
 
 
190
formatdb -i ecoli.nt -p F -o T
 
191
 
 
192
This will create seven index files that Standalone BLAST needs to
 
193
perform the searches and produce results. The ecoli.nt file can be
 
194
removed once formatdb has been run.
 
195
 
 
196
Next create a test nucleotide file to run against the new database.  It
 
197
may be easier to 'cheat' here and just extract a portion of a
 
198
nucleotide sequence you know is in the downloaded ecoli.nt database.
 
199
So  make a text file called test.txt with the following sequence:
 
200
 
 
201
>Test
 
202
AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC
 
203
TTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAA
 
204
TATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACC
 
205
ATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAG
 
206
CCCGCACCTGACAGTGCGGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAA
 
207
GTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGGAAAGCAATGCC
 
208
AGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGATTG
 
209
AAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTTGCCGAACTTTT
 
210
 
 
211
To run the first search just do the command:
 
212
 
 
213
blastall -p blastn -d ecoli.nt -i test.txt -o test.out
 
214
 
 
215
This should generate a results file called test.out in the Standalone
 
216
BLAST directory. Now you are ready to create your own databases and run
 
217
BLAST searches. For more information you should refer to the Standalone
 
218
BLAST README ( ftp://ftp.ncbi.nih.gov/blast/executable/) and the BLAST
 
219
literature.  This will give you some idea of all the programs BLAST
 
220
supports and the use of different parameters for increasing or
 
221
decreasing the stringency of your results.
 
222
 
 
223
If you have any questions please send them to the
 
224
blast-help@ncbi.nlm.nih.gov e-mail address.
 
225
 
 
226
 
 
227
SGI Note:
 
228
---------
 
229
 
 
230
SGI recommends the following threads patches on IRIX6 systems:
 
231
 
 
232
   For 6.2 systems, install SG0001404, SG0001645, SG0002000, SG0002420 and SG0002458 (in that order)
 
233
   For 6.3 systems, install SG0001645, SG0002420 and SG0002458 (in that order)
 
234
   For 6.4 systems, install SG0002194, SG0002420 and SG0002458 (in that order)
 
235
 
 
236
These patches can be obtained by calling SGI customer service or from the web: http://support.sgi.com/
 
237
 
 
238
System recommendations:
 
239
----------------------
 
240
 
 
241
BLAST uses memory-mapped files (on UNIX and NT systems), so it runs best if
 
242
it can read the entire BLAST database into memory, then keep on using it
 
243
there. Resources consumed reading a database into memory can easily
 
244
outweight the cost of a BLAST search, so that the memory of a machine is
 
245
normally more important than the CPU speed. This means that one should have
 
246
sufficient memory for the largest BLAST database one will use, then run all
 
247
the searches against this databases in serial, then run queries against
 
248
another database in serial. This guarantees that the database will be read
 
249
into memory only once. As of Aug. 1997 the EST FASTA file is about 500 Meg,
 
250
which translates to about 170-200 Meg of BLAST database. At least another
 
251
100-200 Meg should be allowed for memory consumed by the actual BLAST
 
252
program. All of the FASTA databases together are about 1.5 Gig, the BLAST
 
253
databases produced from this will probably be about another Gig or so. 4 Gig
 
254
of disk space, to make room for software and output, is probably a pretty
 
255
good bet.
 
256
 
 
257
 
 
258
BLAST OPTIONS
 
259
-------------
 
260
 
 
261
Formatdb
 
262
--------
 
263
 
 
264
There is now a separate document describing formatdb (README.formatdb).  Please
 
265
refer to it for information on formatting FASTA files for BLAST searches.
 
266
 
 
267
 
 
268
Blastall
 
269
--------
 
270
 
 
271
Blastall may be used to perform all five flavors of blast comparison. One
 
272
may obtain the blastall options by executing 'blastall -' (note the dash). A
 
273
typical use of blastall would be to perform a blastn search (nucl. vs. nucl.) 
 
274
of a file called QUERY would be:
 
275
 
 
276
blastall -p blastn -d nr -i QUERY -o out.QUERY
 
277
 
 
278
The output is placed into the output file out.QUERY and the search is performed
 
279
against the 'nr' database.  If a protein vs. protein search is desired,
 
280
then 'blastn' should be replaced with 'blastp' etc.
 
281
 
 
282
Some of the most commonly used blastall options are:
 
283
 
 
284
blastall   arguments:
 
285
 
 
286
  -p  Program Name [String]
 
287
 
 
288
        Input should be one of "blastp", "blastn", "blastx", "tblastn", or "tblastx".
 
289
 
 
290
  -d  Database [String]
 
291
    default = nr
 
292
 
 
293
        The database specified must first be formatted with formatdb.
 
294
        Multiple database names (bracketed by quotations) will be accepted.
 
295
        An example would be
 
296
 
 
297
                -d "nr est"
 
298
 
 
299
        which will search both the nr and est databases, presenting the results as if one
 
300
        'virtual' database consisting of all the entries from both were searched.   The
 
301
        statistics are based on the 'virtual' database of nr and est.  
 
302
 
 
303
  -i  Query File [File In]
 
304
    default = stdin
 
305
 
 
306
        The query should be in FASTA format.  If multiple FASTA entries are in the input
 
307
        file, all queries will be searched.
 
308
 
 
309
  -e  Expectation value (E) [Real]
 
310
    default = 10.0
 
311
 
 
312
  -o  BLAST report Output File [File Out]  Optional
 
313
    default = stdout
 
314
 
 
315
  -F  Filter query sequence (DUST with blastn, SEG with others) [String]
 
316
    default = T
 
317
 
 
318
         BLAST 2.0 and 2.1 uses the dust low-complexity filter for blastn and seg for the
 
319
         other programs. Both 'dust' and 'seg' are integral parts of the NCBI toolkit
 
320
         and are accessed automatically.
 
321
 
 
322
         If one uses "-F T" then normal filtering by seg or dust (for blastn)
 
323
         occurs (likewise "-F F" means no filtering whatsoever).  
 
324
 
 
325
         This options also takes a string as an argument.  One may use such a 
 
326
         string to change the specific parameters of seg or invoke other filters.
 
327
         Please see the "Filtering Strings" section (below) for details.
 
328
 
 
329
  -S  Query strands to search against database (for blast[nx], and tblastx).  3 is both, 1 is top, 2 is bottom [Integer]
 
330
    default = 3
 
331
 
 
332
  -T  Produce HTML output [T/F]
 
333
    default = F
 
334
 
 
335
  -l  Restrict search of database to list of GI's [String]  Optional
 
336
 
 
337
        This option specifies that only a subset of the database should be
 
338
        searched, determined by the list of gi's (i.e., NCBI identifiers) in a 
 
339
        file.  One can obtain a list of gi's for a given Entrez query from
 
340
        http://www.ncbi.nlm.nih.gov/Entrez/batch.html.  This file should
 
341
        be in the same directory as the database, or in the directory that
 
342
        BLAST is called from.
 
343
 
 
344
  -U  Use lower case filtering of FASTA sequence [T/F]  Optional
 
345
    default = F
 
346
 
 
347
        This option specifies that any lower-case letters in the input FASTA file
 
348
        should be masked.  
 
349
 
 
350
 
 
351
   Documentation for PSI-TBLASTN
 
352
 
 
353
PSI-BLASTN is a variant of blastall that searches a protein query
 
354
sequence against a nucleotide sequence database using a position
 
355
specific matrix created by PSI-BLAST. The nucleotide sequence database
 
356
is dynamically translated in all reading frames during PSI-TBLASTN
 
357
search. Using a position specific matrix may enable finding more
 
358
distantly related sequences.
 
359
 
 
360
Programs: 
 
361
blastpgp        [takes a protein query and perform PSI-BLAST search to 
 
362
                creates a position specific matrix using a protein 
 
363
                database]
 
364
 
 
365
blastall        [reads position specific matrix and performs PSI-TBLASTN 
 
366
                search]
 
367
 
 
368
Usage:
 
369
A user would typically run blastpgp to create and save a position
 
370
specific matrix, followed by a run of blastall for PSI-TBLASTN search.
 
371
 
 
372
blastpgp must be executed with -C option followed by a file name to
 
373
save position specific score matrix.
 
374
 
 
375
blastall with "-p psitblastn" option executes PSI-TBLASTSN search, and
 
376
-R option followed by a file name specifying the file that contains
 
377
position specific score matrix. All other options that apply when
 
378
using "blastall -p tblastn ..." also apply when using "blastall -p
 
379
psitblastn ...", but there are some restrictions to parameters: 1) The
 
380
query must be the same as the one used in blastpgp for creating a
 
381
position specific matrix. 2) By default, blastpgp has filtering off
 
382
(-F F) and blastall has filtering on (-F T). To ensure consistent
 
383
usage of the blastpgp/psitblastn combination, the -F option should be
 
384
explicitly set in one or the other run.
 
385
 
 
386
 
 
387
Example: 
 
388
One may run PSI-BLST to create and save a position specific score matrix
 
389
as follows: 
 
390
 
 
391
        blastpgp -d nr -i ff.chd -j 2 -C ff.chd.ckp
 
392
 
 
393
Position specific score matrix is saved in ff.chd.ckp. Then, using 
 
394
this matrix, one may run PSI-TBLASTN search:
 
395
 
 
396
        blastall -i ff.chd -d yeast -p psitblastn -R ff.chd.ckp
 
397
 
 
398
Note that this allows the score matrix to be constructed using one
 
399
database (nr in the example) and then used to search a second database
 
400
(yeast in the example). Even if the two database names are the same,
 
401
blastpgp uses the protein version while "blastall -p psitblastn" uses
 
402
the DNA version.
 
403
 
 
404
 
 
405
 
 
406
Blastpgp
 
407
--------
 
408
 
 
409
Blastpgp performs gapped blastp searches and can be used to perform
 
410
iterative searches in psi-blast and phi-blast mode. See the PSI-Blast and
 
411
PHI-BLAST sections (below) for a description of this binary. The options may be
 
412
obtained by executing 'blastpgp -'.
 
413
 
 
414
  -T  Produce HTML output [T/F]
 
415
    default = F
 
416
 
 
417
  -Q  Output File for PSI-BLAST Matrix in ASCII [File Out]  Optional
 
418
 
 
419
Bl2seq
 
420
------
 
421
 
 
422
Bl2seq performs a comparison between two sequences using either the blastn or
 
423
blastp algorithm.  Both sequences must be either nucleotides or proteins.
 
424
The options may be obtained by executing 'bl2seq -'.
 
425
 
 
426
  -i  First sequence [File In]
 
427
  -j  Second sequence [File In]
 
428
  -p  Program name: blastp, blastn, blastx. For blastx 1st argument should be nucleotide [String]
 
429
    default = blastp
 
430
  -g  Gapped [T/F]
 
431
    default = T
 
432
  -o  alignment output file [File Out]
 
433
    default = stdout
 
434
  -d  theor. db size (zero is real size) [Integer]
 
435
    default = 0
 
436
  -a  SeqAnnot output file [File Out]  Optional
 
437
  -G  Cost to open a gap (zero invokes default behavior) [Integer]
 
438
    default = 0
 
439
  -E  Cost to extend a gap (zero invokes default behavior) [Integer]
 
440
    default = 0
 
441
  -X  X dropoff value for gapped alignment (in bits) (zero invokes default behavior) [Integer]
 
442
    default = 0
 
443
  -W  Wordsize (zero invokes default behavior) [Integer]
 
444
    default = 0
 
445
  -M  Matrix [String]
 
446
    default = BLOSUM62
 
447
  -q  Penalty for a nucleotide mismatch (blastn only) [Integer]
 
448
    default = -3
 
449
  -r  Reward for a nucleotide match (blastn only) [Integer]
 
450
    default = 1
 
451
  -F  Filter query sequence (DUST with blastn, SEG with others) [String]
 
452
    default = T
 
453
  -e  Expectation value (E) [Real]
 
454
    default = 10.0
 
455
  -S  Query strands to search against database (blastn only).  3 is both, 1 is top, 2 is bottom [Integer]
 
456
    default = 3
 
457
  -T  Produce HTML output [T/F]
 
458
    default = F
 
459
 
 
460
 
 
461
Fastacmd
 
462
--------
 
463
 
 
464
Fastacmd retrives FASTA formatted sequences from a BLAST database, if it was formatted
 
465
using the '-o' option.  An example fastacmd call would be:
 
466
 
 
467
fastacmd -d nr -s p38398
 
468
 
 
469
The fastacmd options are:
 
470
 
 
471
fastacmd   arguments:
 
472
 
 
473
  -d  Database [String]
 
474
    default = nr
 
475
  -s  Search string: GIs, accessions and locuses may be used delimited
 
476
      by comma or space) [String]  Optional
 
477
  -i  Input file wilth GIs/accessions/locuses for batch retrieval [String]  Optional
 
478
  -a  Retrieve duplicated accessions [T/F]  Optional
 
479
    default = F
 
480
  -l  Line length for sequence [Integer]  Optional
 
481
    default = 80
 
482
 
 
483
 
 
484
 
 
485
Filtering Strings
 
486
-----------------
 
487
 
 
488
         The -F argument can take a string as input specifying that seg should be
 
489
         run with certain values or that other non-standard filters should be used.
 
490
         This sections describes this syntax.
 
491
 
 
492
         The seg options can be changed by using:
 
493
 
 
494
         -F "S 10 1.0 1.5"
 
495
 
 
496
         which specifies a window of 10, locut of 1.0 and hicut of 1.5.  
 
497
 
 
498
         A coiled-coiled filter, based on the work of Lupas et al. (Science, vol 252, pp. 1162-4 (1991)) 
 
499
         and written by John Kuzio (Wilson et al., J Gen Virol, vol. 76, pp. 2923-32 (1995)), may be invoked
 
500
         by specifying:
 
501
 
 
502
         -F "C"
 
503
 
 
504
         There are three parameters for this: window, cutoff (prob of a coil-coil), and
 
505
         linker (distance between two coiled-coiled regions that should be linked
 
506
         together).  These are now set to
 
507
 
 
508
         window: 22
 
509
         cutoff: 40.0
 
510
         linker: 32
 
511
 
 
512
         One may also change the coiled-coiled parameters in a manner analogous to
 
513
         that of seg:
 
514
 
 
515
         -F "C 28 40.0 32" will change the window to 28.
 
516
 
 
517
         One may also run both seg and coiled-coiled together by using a ";":
 
518
 
 
519
         -F "C;S"
 
520
 
 
521
         Filtering by dust may also be specified by:
 
522
 
 
523
         -F "D"
 
524
 
 
525
         It is possible to specify that the masking should only be done during
 
526
         the process of building the initial words by starting the filtering
 
527
         command with 'm', e.g.:
 
528
 
 
529
         -F "m S"
 
530
 
 
531
         which specifies that seg (with default arguments) should be used for masking, 
 
532
         but that the masking should only be done when the words are being built.  
 
533
         This masking option is available with all filters.
 
534
 
 
535
         If the -U option (to mask any lower-case sequence in the input FASTA file) is used and
 
536
         one does not wish any other filtering, but does wish to mask when building the lookup tables
 
537
         then one should specify:
 
538
 
 
539
         -F "m"
 
540
 
 
541
         This is the only case where "m" should be specified alone.
 
542
 
 
543
 
 
544
PSI-Blast
 
545
---------
 
546
 
 
547
The blastpgp program can do an iterative search in which
 
548
sequences found in one round of searching are used to build
 
549
a score model for the next round of searching. In this usage,
 
550
the program is called Position-Specific Iterated BLAST, or PSI-BLAST.
 
551
As explained in the accompanying paper, the BLAST algorithm is
 
552
not tied to a specific score matrix. Traditionally, it has been
 
553
implemented using an AxA substitution matrix where A is the alphabet size.
 
554
PSI-BLAST instead uses a QxA matrix, where Q is the length of the query
 
555
sequence; at each position the cost of a letter depends on the position
 
556
w.r.t. the query and the letter in the subject sequence.
 
557
 
 
558
The position-specific matrix for round i+1 is built from a constrained
 
559
multiple alignment among the query and the sequences found with
 
560
sufficiently low e-value in round i.  The top part of the output for
 
561
each round distinguishes the sequences into: sequences found
 
562
previously and used in the score model, and sequences not used in the
 
563
score model. The output currently includes lots of diagnostics
 
564
requested by users at NCBI. To skip quickly from the output of
 
565
one round to the next, search for the string "producing", which is
 
566
part of the header for each round and likely does not appear elsewhere
 
567
in the output. PSI-BLAST "converges" and stops if all sequences
 
568
found at round i+1 below the e-value threshold were already in
 
569
the model at the beginning of the round.
 
570
 
 
571
There are several blastpgp parameters specifically for PSI-BLAST:
 
572
-j   is the maximum number of rounds (default 1; i.e., regular BLAST)
 
573
-h   is the e-value threshold for including sequences in the
 
574
     score matrix model (default 0.001)
 
575
-c   is the "constant" used in the pseudocount formula specified in the
 
576
     paper (default 10)
 
577
 
 
578
The -C and -R flags provide a "checkpointing" facility whereby
 
579
a score model can be stored and later reused.
 
580
   -C  stores the query and frequency count ratio matrix in a
 
581
                  file
 
582
   -R  restarts from a file stored previously.
 
583
When using -R, it is required that the query specified on the command line
 
584
match exactly the query in the restart file.
 
585
The checkpoint files are stored in a byte-encoded (not human readable)
 
586
format, so as to prevent roundoff error between writing and reading
 
587
the checkpoint.
 
588
Users who also develop their own sequence analysis software may wish
 
589
to develop their own scoring systems. For this purpose the code
 
590
in posit.c that writes out the checkpoint can be easily adapated to
 
591
write out scoring systems derived by other algorithms in such
 
592
a way that PSI-BLAST can read the files in later.
 
593
The checkpoint structure is general in the sense that it can handle
 
594
any position-specific matrix that fits in the Karlin-Altschul
 
595
statistical framework for BLAST scoring.
 
596
 
 
597
The -B flag provides a way to jump start PSI-BLAST from a master-slave
 
598
multiple alignment computed outside PSI-BLAST.  The multiple alignment
 
599
must include the query sequence as one of the sequences, but it need
 
600
not be the first sequence.  The multiple alignment must be specified
 
601
in a format that is derived from Clustal, but without some headers and
 
602
trailers.  See example below. The rules are also described by the
 
603
following words.  Suppose the multiple alignments has N sequences.  It
 
604
may be presented in 1 or more blocks, where each block presents a
 
605
range of columns from the multiple alignment.  E.g., the first block
 
606
might have columns 1-60, the second block might have columns 61-95,
 
607
the third block might have columns 96-128. Each block should have N
 
608
rows, 1 row per sequence.  The sequences should be in the same order
 
609
in every block.  Blocks are separated by 1 or more blank lines.
 
610
Within a block there are no blank lines, and each line consists of 1
 
611
sequence identifier followed by some white space followed by
 
612
characters (and gaps) for that sequence in the multiple alignment.  In
 
613
each column, all letters must be in upper case, or all letters must be
 
614
in lower case.  Upper case means that this column is to be given
 
615
position-specific scores. Lower-case means to use the underlying
 
616
matrix (specified by -M) for this column; e.g., if the query sequence
 
617
has an 'l' residue in the column, then the standard scores for
 
618
matching an L are used in the column.
 
619
 
 
620
A sample usage would be:
 
621
 
 
622
  blastpgp -i seq1 -B align1 -j 2 -d nr
 
623
 
 
624
where seq1 is the query
 
625
      align1 is the alignment file
 
626
      -j 2 indicates to do 2 rounds
 
627
      -d nr indicates to use the nr database
 
628
 
 
629
The example files
 
630
    seq1
 
631
    align1
 
632
copied below were kindly supplied by L. Aravind from a paper
 
633
he and Chris Ponting published in Protein Science:
 
634
 
 
635
Aravind L, Ponting CP, Homologues of 26S proteasome subunits 
 
636
are regulators of transcription and translation, Protein Science 
 
637
7(1998) 1250-1254.
 
638
 
 
639
L. Aravind (aravind@ncbi.nlm.nih.gov) was the first user
 
640
and helped define how -B should work. Y. Wolf (wolf@ncbi.nlm.nih.gov)
 
641
helped design a more flexible input format for the alignments.
 
642
If you like how -B works, let them know.
 
643
If you do not like how -B works, complain to 
 
644
A. Schaffer(schaffer@helix.nih.gov) who did the implementation.
 
645
 
 
646
seq1
 
647
----
 
648
> 26SPS9_Hs 
 
649
IHAAEEKDWKTAYSYFYEAFEGYDSIDSPKAITSLKYMLLCKIMLNTPEDVQALVSGKLALRYAGRQTEA
 
650
LKCVAQASKNRSLADFEKALTDYRAELRDDPIISTHLAKLYDNLLEQNLIRVIEPFSRVQIEHISSLIKL
 
651
SKADVERKLSQMILDKKFHGILDQGEGVLIIFDEPP
 
652
 
 
653
 
 
654
align1
 
655
------
 
656
26SPS9_Hs     IHAAEEKDWKTAYSYFYEAFEGYdsidspkaitslkymllckimlntpedvqalvsgklalryagrqtealkcvaqasknr
 
657
F57B9_Ce      LHAADEKDFKTAFSYFYEAFEGYdsvdekvsaltalkymllckvmldlpdevnsllsaklalkyngsdldamkaiaaaaqk
 
658
YDL097c_Sc    ILHCEDKDYKTAFSYFFESFESYhnltthnsyekacqvlkymllskimlnliddvknilnakytketyqsrgidamkavae
 
659
YMJ5_Ce       LYSAEERDYKTSFSYFYEAFEGFasigdkinatsalkymilckimlneteqlagllaakeivayqkspriiairsmadafr
 
660
FUS6_ARATH    KNYIRTRDYCTTTKHIIHMCMNAilvsiemgqfthvtsyvnkaeqnpetlepmvnaklrcasglahlelkkyklaarkfld
 
661
COS41.8_Ci    SLDYKLKTYLTIARLYLEDEDPVqaemyinrasllqnetadeqlqihykvcyarvldyrrkfleaaqrynelsyksaihet
 
662
644879        KCYSRARDYCTSAKHVINMCLNVikvsvylqnwshvlsyvskaestpeiaeqrgerdsqtqailtklkcaaglaelaarky
 
663
YPR108w_Sc    IHCLAVRNFKEAAKLLVDSLATFtsieltsyesiatyasvtglftlertdlkskvidspellslisttaalqsissltisl
 
664
eif-3p110_Hs  SKAMKMGDWKTCHSFIINEKMNGkvw-------------------------------------------------------
 
665
T23D8.4_Ce    SKAMLNGDWKKCQDYIVNDKMNQkvw-------------------------------------------------------
 
666
YD95_Sp       IYLMSIRNFSGAADLLLDCMSTFsstellpyydvvryavisgaisldrvdvktkivdspevlavlpqnesmssleacinsl
 
667
KIAA0107_Hs   LYCVAIRDFKQAAELFLDTVSTFtsyelmdyktfvtytvyvsmialerpdlrekvikgaeilevlhslpavrqylfslyec
 
668
F49C12.8_Hs   LYRMSVRDFAGAADLFLEAVPTFgsyelmtyenlilytvitttfaldrpdlrtkvircnevqeqltggglngtlipvreyl
 
669
Int-6_Mm      KFQYECGNYSGAAEYLYFFRVLVpatdrnalsslwgklaseilmqnwdaamedltrlketidnnsvssplqslqqrtwlih
 
670
 
 
671
26SPS9_Hs     sladfekaltdy-----------------------------------------------------------------------------------
 
672
F57B9_Ce      rslkdfqvafgsf----------------------------------------------------------------------------------
 
673
YDL097c_Sc    aynnrslldfntalkqy------------------------------------------------------------------------------
 
674
YMJ5_Ce       krslkdfvkalaeh---------------------------------------------------------------------------------
 
675
FUS6_ARATH    vnpelgnsyneviapqdiatygglcalasfdrselkqkvidninfrnflelvpdvrelindfyssryascleylasl------------------
 
676
COS41.8_Ci    eqtkalekalncailapagqqrsrmlatlfkdercqllpsfgilekmfldriiksdemeefar--------------------------------
 
677
644879        kqaakclllasfdhcdfpellspsnvaiygglcalatfdrqelqrnvissssfklflelepqvrdiifkfyeskyasclkmldem----------
 
678
YPR108w_Sc    yasdyasyfpyllety-------------------------------------------------------------------------------
 
679
eif-3p110_Hs  -----------------------------------------------------------------------------------------------
 
680
T23D8.4_Ce    -----------------------------------------------------------------------------------------------
 
681
YD95_Sp       ylcdysgffrtladve-------------------------------------------------------------------------------
 
682
KIAA0107_Hs   rysvffqslavv-----------------------------------------------------------------------------------
 
683
F49C12.8_Hs   esyydchydrffiqlaale----------------------------------------------------------------------------
 
684
Int-6_Mm      wslfvffnhpkgrdniidlflyqpqylnaiqtmcphilrylttavitnkdvrkrrqvlkdlvkviqqesytykdpitefveclyvnfdfdgaqkk
 
685
 
 
686
26SPS9_Hs     ----RAELRDDPIISTHLAKLYDNLLEQNLIRVIEPFSRVQIEHISSLIKLSKADVERKLSQMILDKKFHGILDQGEGVLIIFDEPP
 
687
F57B9_Ce      ----PQELQMDPVVRKHFHSLSERMLEKDLCRIIEPYSFVQIEHVAQQIGIDRSKVEKKLSQMILDQKLSGSLDQGEGMLIVFEIAV
 
688
YDL097c_Sc    ----EKELMGDELTRSHFNALYDTLLESNLCKIIEPFECVEISHISKIIGLDTQQVEGKLSQMILDKIFYGVLDQGNGWLYVYETPN
 
689
YMJ5_Ce       ----KIELVEDKVVAVHSQNLERNMLEKEISRVIEPYSEIELSYIARVIGMTVPPVERAIARMILDKKLMGSIDQHGDTVVVYPKAD
 
690
FUS6_ARATH    ----KSNLLLDIHLHDHVDTLYDQIRKKALIQYTLPFVSVDLSRMADAFKTSVSGLEKELEALITDNQIQARIDSHNKILYARHADQ
 
691
COS41.8_Ci    ----QLMPHQKAITADGSNILHRAVTEHNLLSASKLYNNIRFTELGALLEIPHQMAEKVASQMICESRMKGHIDQIDGIVFFERRET
 
692
644879        ----KDNLLLDMYLAPHVRTLYTQIRNRALIQYFSPYVSADMHRMAAAFNTTVAALEDELTQLILEGLISARVDSHSKILYARDVDQ
 
693
YPR108w_Sc    ----ANVLIPCKYLNRHADFFVREMRRKVYAQLLESYKTLSLKSMASAFGVSVAFLDNDLGKFIPNKQLNCVIDRVNGIVETNRPDN
 
694
eif-3p110_Hs  ----DLFPEADKVRTMLVRKIQEESLRTYLFTYSSVYDSISMETLSDMFELDLPTVHSIISKMIINEELMASLDQPTQTVVMHRTEP
 
695
T23D8.4_Ce    ----NLFHNAETVKGMVVRRIQEESLRTYLLTYSTVYATVSLKKLADLFELSKKDVHSIISKMIIQEELSATLDEPTDCLIMHRVEP
 
696
YD95_Sp       ----VNHLKCDQFLVAHYRYYVREMRRRAYAQLLESYRALSIDSMAASFGVSVDYIDRDLASFIPDNKLNCVIDRVNGVVFTNRPDE
 
697
KIAA0107_Hs   ----EQEMKKDWLFAPHYRYYVREMRIHAYSQLLESYRSLTLGYMAEAFGVGVEFIDQELSRFIAAGRLHCKIDKVNEIVETNRPDS
 
698
F49C12.8_Hs   ----SERFKFDRYLSPHFNYYSRGMRHRAYEQFLTPYKTVRIDMMAKDFGVSRAFIDRELHRLIATGQLQCRIDAVNGVIEVNHRDS
 
699
Int-6_Mm      lrecESVLVNDFFLVACLEDFIENARLFIFETFCRIHQCISINMLADKLNMTPEEAERWIVNLIRNARLDAKIDSKLGHVVMGNNAV
 
700
 
 
701
 
 
702
 
 
703
 
 
704
 
 
705
PHI-Blast
 
706
---------
 
707
 
 
708
PHI-BLAST (Pattern-Hit Initiated BLAST) is a search
 
709
program that combines matching of regular expressions
 
710
with local alignments surrounding the match.
 
711
The most important features of the program have been
 
712
incorporated into the BLAST software framework
 
713
partly for user convenience and partly so that
 
714
PHI-BLAST may be combined seamlessly with PSI-BLAST.
 
715
Other features that do not fit into the BLAST framework
 
716
will be released later as a separate program and/or
 
717
separate Web page query options.
 
718
 
 
719
One very restrictive way to identify protein motifs
 
720
is by regular expressions that must contain each instance
 
721
of the motif. The PROSITE database is a compilation of
 
722
restricted regular expressions that describe protein motifs.
 
723
Given a protein sequence S and a regular expression pattern P
 
724
occurring in S, PHI-BLAST helps answer the question:
 
725
What other protein sequences both contain an occurrence of P
 
726
and are homologous to S in the vicinity of the pattern occurrences?
 
727
PHI-BLAST may be preferable to just searching for pattern occurrences
 
728
because it filters out those cases where the pattern occurrence is
 
729
probably random and not indicative of homology.
 
730
PHI-BLAST may be preferable to other flavors of BLAST because
 
731
it is faster and because it allows the user to express
 
732
a rigid pattern occurrence requirement.
 
733
 
 
734
The pattern search methods in PHI-BLAST are based on the
 
735
algorithms in:
 
736
 
 
737
R. Baeza-Yates and G. Gonnet, Communications of the ACM 35(1992), pp. 74-82.
 
738
S. Wu and U. Manber, Communications of the ACM 35(1992), pp. 83-91.
 
739
 
 
740
The calculation of local alignments is done using a method
 
741
very similar to (and much of the same code as) gapped BLAST.
 
742
However, the method of evaluating statistical significance is different, and
 
743
is described below.
 
744
 
 
745
In the stand-alone mode the typical PHI-BLAST usage looks like:
 
746
  blastpgp -i  -k  -p patseedp
 
747
 
 
748
  where -i is followed by the file containing the query in FASTA format
 
749
  where -k is followed by the file containing the pattern in a syntax given below
 
750
  and "patseedp" indicates the mode of usage,  not representing any file.
 
751
 
 
752
The syntax for the query sequence is FASTA format as for all other
 
753
BLAST queries. The syntax for patterns follows the rules of
 
754
PROSITE and is documented in detail below.
 
755
The specified pattern is not required to be in the PROSITE list.
 
756
Most of the other BLAST flags can be used with PHI-BLAST.
 
757
One important exception is that PHI-BLAST requires gapped
 
758
alignments (i.e. forbids -g F in the flags) because ungapped
 
759
alignments do not make sense for almost all patterns in PROSITE.
 
760
 
 
761
There is a second mode of PHI-BLAST usage that is important when
 
762
the specified pattern occurs more than 1 time in the query.
 
763
In this case, the user may be interested in restricting the
 
764
search for local alignments to a subset of the pattern occurrences.
 
765
This can be done with a search that looks like:
 
766
   blastpgp -i  -k  -p seedp
 
767
 
 
768
in which case the use of the "seedp" option requires the user to
 
769
specify the location(s) of the interesting pattern occurrence(s)
 
770
in the pattern file. The syntax for how to specify pattern
 
771
occurrences is below. When there are multiple pattern occurrences in the
 
772
query it may be important to decide how many are of interest because
 
773
the E-value for matches is effectively multiplied by the number
 
774
of interesting pattern occurrences.
 
775
 
 
776
The PHI-BLAST Web page supports only the "patseedp" option.
 
777
 
 
778
PHI-BLAST is integrated with PSI-BLAST. In the command-line
 
779
mode, PSI-BLAST can be invoked by using the -j option, as usual.
 
780
When this is done as:
 
781
   blastpgp -i  -k  -p patseedp -j
 
782
 
 
783
then the first round of searching uses PHI-BLAST and all subsequent
 
784
rounds use PSI-BLAST.
 
785
In the Web page setting, the user must explicitly invoke one round
 
786
at a time, and the PHI-BLAST Web page provides the option to
 
787
initiate a PSI-BLAST round with the PHI-BLAST results.
 
788
To describe a combined usage, use the term "PHI-PSI-BLAST"
 
789
(Pattern-Hit Initiated, Position-Specific Iterated BLAST).
 
790
 
 
791
Determining statistical significance.
 
792
 
 
793
When a query sequence Q matches a database sequence D in PHI-BLAST,
 
794
it is useful to subdivide Q and D into 3 disjoint pieces
 
795
    Qleft Qpattern Qright
 
796
    Dleft Dpattern Dright
 
797
 
 
798
The substrings Qpattern and Dpattern contain the pattern specified
 
799
in the pattern file. The pieces Qpattern and Dpattern are aligned
 
800
and that alignment is displayed as part of the PHI-BLAST output,
 
801
but the score for that alignment is mostly ignored.
 
802
The "reduced" score r of an alignment is the sum of the scores obtained
 
803
by aligning  Qleft with Dleft and by aligning Qright with Dright.
 
804
 
 
805
The expected number of alignments with a reduced score >= x
 
806
is given by:
 
807
       CN(Lambda*x + 1)e^(-Lambda *x)
 
808
where:
 
809
 
 
810
C and Lambda are "constants" depending on the score matrix and the
 
811
gap costs.
 
812
N is (number of occurrences of pattern in database) * (number of
 
813
      occurrences of pattern in Q)
 
814
e is the base of the natural logarithm.
 
815
 
 
816
It is important to understand that this method of computing
 
817
the statistical significance of a PHI-BLAST alignment is mathematically
 
818
different from the method used for BLAST and PSI-BLAST alignments.
 
819
However, both methods provide E-values, so they the E_values are
 
820
displayed with a similar output syntax.
 
821
 
 
822
Rules for pattern syntax for PHI-BLAST.
 
823
 
 
824
The syntax for patterns in PHI-BLAST follows the conventions
 
825
of PROSITE. When using the stand-alone program, it
 
826
is permissible to have multiple patterns in a file separated
 
827
by a blank line between patterns. When using the Web-page
 
828
only one pattern is allowed per query.
 
829
 
 
830
Valid protein characters for PHI-BLAST patterns:
 
831
    ABCDEFGHIKLMNPQRSTVWXYZU
 
832
 
 
833
Valid DNA characters for PHI-BLAST patterns:
 
834
    ACGT
 
835
 
 
836
Other useful delimiters:
 
837
    [ ]    means any one of the characters enclosed in the brackets
 
838
        e.g., [LFYT] means one occurrence of L or F or Y or T
 
839
    -      means nothing (this is a spacer character used by PROSITE)
 
840
    x with nothing following means any residue
 
841
    x(5)  means 5 positions in which any residue is allowed (and similarly for any other
 
842
          single number in parentheses after x)
 
843
    x(2,4) means 2 to 4 positions where any residue is allowed,
 
844
           and similarly for any other two numbers separated by a comma;
 
845
           the first number should be < the second number.
 
846
    >      can occur only at the end of a pattern and means nothing
 
847
           it may occur before a period
 
848
           (another spacer used by PROSITE)
 
849
 
 
850
    .      may be used at the end of the pattern and means nothing
 
851
 
 
852
When using the stand-alone program, the pattern should
 
853
be in a file, with the first line starting:
 
854
 ID
 
855
followed by 2 spaces and a text string giving the pattern a name.
 
856
 
 
857
There should also be a line starting
 
858
 PA
 
859
followed by 2 spaces followed by the pattern description.
 
860
 
 
861
All other PROSITE codes in the first two columns are allowed,
 
862
but only the HI code, described below is relevant to PHI-BLAST.
 
863
 
 
864
Here is an example from PROSITE.
 
865
 
 
866
ID   CNMP_BINDING_2; PATTERN.
 
867
AC   PS00889;
 
868
DT   OCT-1993 (CREATED); OCT-1993 (DATA UPDATE); NOV-1995 (INFO UPDATE).
 
869
DE   Cyclic nucleotide-binding domain signature 2.
 
870
PA   [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV].
 
871
NR   /RELEASE=32,49340;
 
872
NR   /TOTAL=57(36); /POSITIVE=57(36); /UNKNOWN=0(0); /FALSE_POS=0(0);
 
873
NR   /FALSE_NEG=1; /PARTIAL=1;
 
874
CC   /TAXO-RANGE=??EP?; /MAX-REPEAT=2;
 
875
 
 
876
The line starting
 
877
    ID
 
878
gives the pattern a name.
 
879
The lines starting
 
880
     AC, DT, DE, NR, NR, CC
 
881
are relevant to PROSITE users, but irrelevant to PHI-BLAST.
 
882
These lines are tolerated, but ignored by PHI-BLAST.
 
883
 
 
884
The line starting
 
885
     PA
 
886
describes the pattern as:
 
887
      one of LIVMF
 
888
followed by
 
889
      G
 
890
followed by
 
891
      E
 
892
followed by
 
893
      any single character
 
894
followed by
 
895
      one of GAS
 
896
followed by
 
897
      one of LIVM
 
898
followed by
 
899
      any 5 to 11 characters
 
900
followed by
 
901
      R
 
902
followed by
 
903
      one of STAQ
 
904
followed by
 
905
      A
 
906
followed by
 
907
      any single character
 
908
followed by
 
909
      one of LIVMA
 
910
followed by
 
911
      any single character
 
912
followed by
 
913
      one of STACV
 
914
 
 
915
In this case the pattern ends with a period.
 
916
It can end with nothing after the last specifying symbol
 
917
or any number of > signs or periods or combination thereof.
 
918
 
 
919
Here is another example, illustrating the use of an HI line.
 
920
 
 
921
ID    ER_TARGET; PATTERN.
 
922
PA  [KRHQSA]-[DENQ]-E-L>.
 
923
HI (19 22)
 
924
HI (201 204)
 
925
 
 
926
In this example, the HI lines specify that the pattern
 
927
occurs twice, once from positions 19 through 22 in the
 
928
sequence and once from positions 201 through 204 in the
 
929
sequence.
 
930
These specifications are relevant when stand-alone PHI-BLAST is
 
931
used with the
 
932
     seedp
 
933
option, in which the interesting occurrences of the pattern
 
934
in the sequence are specified. In this case the
 
935
HI lines specify which occurrence(s) of the pattern
 
936
should be used to find good alignments.
 
937
 
 
938
In general, the seedp option is more useful than the
 
939
standard patternp option ONLY when the
 
940
pattern occurs K > 1 times in the sequence AND
 
941
the user is interested in matching to J < K of those
 
942
occurrences.
 
943
Then using the HI lines enables the user to specify which
 
944
occurrences are of interest.
 
945
 
 
946
Additional functionality related to PHI-BLAST.
 
947
 
 
948
PHI-BLAST takes as input both a sequence and a query containing
 
949
that sequence and searches a sequence database for
 
950
other sequences containing the same pattern and having a good alignment.
 
951
One may be interested in asking two related, simpler questions:
 
952
 
 
953
1. Given a sequence and a database of patterns, which patterns occur
 
954
in the sequence and where?
 
955
 
 
956
2. Given a pattern and a sequence database, which sequences contain the
 
957
pattern and where?
 
958
 
 
959
These queries can be answered wih software closely related to PHI-BLAST,
 
960
but they do not fit into the output framework of BLAST because the
 
961
answers are simple lists without alignments and with no notion of
 
962
statistical significance.
 
963
 
 
964
The NCBI toolbox includes another program, currently called
 
965
     seedtop
 
966
to answer the two queries above.
 
967
 
 
968
Query 1 can be asked with:
 
969
  seedtop -i  -k  -p patmatchp
 
970
 
 
971
Query 2 can be asked with:
 
972
  seedtop -d  -k  -p patternp
 
973
 
 
974
The -k argument is used similarly in all queries and the file
 
975
format is always the same. The standard pattern database is
 
976
PROSITE, but others (or a subset) can be used.
 
977
There are plans afoot to offer the patmatchp query (number 1) on
 
978
the PHI-BLAST web page or in its vicinity, but this would
 
979
be restricted to having PROSITE as the pattern database.
 
980
 
 
981
References
 
982
 
 
983
     Zhang, Zheng, Alejandro A. Schļæ½ffer, Webb Miller, Thomas L. Madden,
 
984
     David J. Lipman, Eugene V. Koonin, and Stephen F. Altschul (1998),
 
985
     "Protein sequence similarity searches using patterns as seeds", Nucleic
 
986
     Acids Res. 26:3986-3990.
 
987
 
 
988
     Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer,
 
989
     Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997),
 
990
     "Gapped BLAST and PSI-BLAST: a new generation of protein database
 
991
     search programs", Nucleic Acids Res. 25:3389-3402.
 
992
 
 
993
     Karlin, Samuel and Stephen F. Altschul (1990).  Methods  for
 
994
     assessing the statistical significance of molecular sequence
 
995
     features by using general scoring schemes. Proc. Natl. Acad.
 
996
     Sci. USA 87:2264-68.
 
997
 
 
998
     Karlin, Samuel and Stephen F. Altschul (1993).  Applications
 
999
     and statistics for multiple high-scoring segments in molecu-
 
1000
     lar sequences. Proc. Natl. Acad. Sci. USA 90:5873-7.
 
1001
 
 
1002
     Schaffer, Alejandro A., L. Aravind, Thomas L. Madden, Sergei Shavirin
 
1003
     John L. Spouge, Yuri I. Wolf, Eugene V. Koonin, and Stephen F. Altschul (2001),
 
1004
     Improving PSI-BLAST Protein Database Search Sensitivity with Composition-Based 
 
1005
     Statistics and Other Refinements.  Nucleic Acids Res. 29:2994-3005.
 
1006
 
 
1007
Release History
 
1008
---------------
 
1009
 
 
1010
Notes for 2.2.2 release:
 
1011
 
 
1012
Enhancements:
 
1013
 
 
1014
1.) Version 4 of the BLAST databases is now fully supported.  This version
 
1015
has some enhancements described in README.formatdb and fixes some problems
 
1016
described below.  Use the "-A" option on formatdb to produce the new database
 
1017
version.  The BLAST binaries for release 2.2.2 are entirely compatiable with
 
1018
both the current and the new version of the BLAST databases.  Old BLAST binaries
 
1019
are not necessarily compatiable with the new database format.
 
1020
 
 
1021
2.) Fastacmd will dump out an entire BLAST database in FASTA format if the
 
1022
new -D option is used.
 
1023
 
 
1024
3.) Fastacmd will separate definition lines from different GI's that have
 
1025
been merged together in nr (as they all have the same sequence) by control-A's.
 
1026
if the new -c option is used.
 
1027
 
 
1028
 
 
1029
Bug fixes:
 
1030
 
 
1031
1.) A problem has been fixed that caused tblastn searches to miss some protein matches,
 
1032
if the database sequence was longer than 15 million bases.
 
1033
 
 
1034
2.) The old (current) version of the BLAST databases has a "rollover" problem if
 
1035
the total number of bases in a single volume is greater than 4294967295.  The new
 
1036
database verison (#4) allows eight bytes for this.
 
1037
 
 
1038
3.) The old (current) version of the BLAST database format does not handle ambiguity
 
1039
characters in a nucleotide database sequence if it is over 16 million characters long.
 
1040
The new version of the the BLAST database does.
 
1041
 
 
1042
4.) A performance problem that caused a mutexes to be acquired too often for 
 
1043
multi-threaded runs with four or more CPU's has been fixed.  Thanks to Haruna
 
1044
Cofer of SGI for help in finding the cause.
 
1045
 
 
1046
5.) A problem that caused ungapped blastp/blastx/tblastn/tblastx to crash on
 
1047
certain matrices (e.g., pam10) has been fixed.
 
1048
 
 
1049
6.) Some blastpgp problems with using the -B (for reading a master-slave alignment) and
 
1050
reading checkpoint files (-C) have been resolved.
 
1051
 
 
1052
 
 
1053
Notes for 2.2.1 release:
 
1054
 
 
1055
Enhancements:
 
1056
 
 
1057
1.) BLAST and PSI-BLAST improvements as described in 
 
1058
Schaffer et al., Nucleic Acids Research 2001 Jul 15;29(14):2994-3005.
 
1059
These include improvements the use of composition-based statistics
 
1060
and improvements to the edge-correction effects.  Composition-based 
 
1061
statistics were initially implemented in release 2.1.1, but the 
 
1062
implementation is improved in release 2.2.1.
 
1063
 
 
1064
2.) Formatdb automatically produces database volumes for input
 
1065
consisting of more than 4 billion letters.
 
1066
 
 
1067
3.) Formatdb can produce an alias file for a given database and GI list
 
1068
as well as convert a GI list to the more efficient binary format.  See
 
1069
details in README.formatdb.
 
1070
 
 
1071
4.) RPSBLAST now works properly with 'scaled' databases.  The scaling factor must
 
1072
be set when executing the program 'makemat' (which takes PSI-BLAST checkpoints
 
1073
as input).  Scaling-up the matrix improves the precision of the (integer) calculations.
 
1074
 
 
1075
5.) Tabular output has now been added to blastpgp and rpsblast, use the "-m 8" option.
 
1076
 
 
1077
6.) Blastpgp will now process multiple queries.
 
1078
 
 
1079
Bug fixes:
 
1080
 
 
1081
1.) A problem with the -K option (for culling) that caused BLAST to crash has been fixed.
 
1082
 
 
1083
2.) A problem with the "gnl" identifier and multi-volume databases has been fixed.
 
1084
 
 
1085
3.) A problem that caused BLASTN to very rarely find suboptimal alignments has been fixed.
 
1086
 
 
1087
4.) A problem that could cause makemat to crash has been fixed.
 
1088
 
 
1089
4.) Some multi-threading problem pointed out by Henry Gabb of KAI were fixed.
 
1090
 
 
1091
5.) Some PC-lint errors and warnings pointed out by Russ Williams of United Devices
 
1092
were fixed.
 
1093
 
 
1094
 
 
1095
Notes for 2.1.3 release:
 
1096
 
 
1097
Enhancements:
 
1098
 
 
1099
1.) Addition of PSI-TBLASTN ability to blastall, see description in 
 
1100
README.bls.
 
1101
 
 
1102
2.) Database sequences over 5 million bases in length are now broken
 
1103
into chunks to keep memory usage reasonable.
 
1104
 
 
1105
3.) Blastall now allows one to enter a location if it is desired
 
1106
to search a subsequence of the query.
 
1107
 
 
1108
4.) Formatdb can produce a new BLAST database format using the -A option.
 
1109
The BLAST programs can read this format as well as the current format (the
 
1110
program automatically identifies which version it should work with).  This 
 
1111
new format stores the sequence definition lines in a structured manner
 
1112
(as ASN.1), this will allow future versions of BLAST to better present
 
1113
taxonomic information as well as information about other resources (e.g., 
 
1114
UniGene, LocusLink) for a database sequence.  
 
1115
 
 
1116
5.) Blastall can now produce tab-delimited, use "-m 8" to specify this.
 
1117
 
 
1118
6.) Improved Karlin-Altschul parameters are now being used, they were 
 
1119
calculated using the "island" method
 
1120
 
 
1121
7.) A "gapped" check was added to BLASTN to ensure that if a hit is low-scoring
 
1122
after an ungapped extension, but high-scoring after a gapped extension, it will 
 
1123
not be missed.
 
1124
 
 
1125
8.) The formatdb error messages have been improved for the case of illegal
 
1126
characters in the sequence.
 
1127
 
 
1128
9.) The number of HSP's saved in an ungapped search has been increased to 400 from 200.
 
1129
 
 
1130
Bug fixes:
 
1131
 
 
1132
1.) A problem with XML output was fixed.
 
1133
 
 
1134
2.) A problem with the seg filtering under LINUX was
 
1135
fixed (many thanks to Eric Cabot at GCG for pointing this out).
 
1136
 
 
1137
3.) A problem with format of BLAST reports if the "-o" flag
 
1138
was not used when the database was produced was fixed 
 
1139
(thanks again to Eric Cabot).
 
1140
 
 
1141
4.) A problem with reading the BLAST database caused by a 4-byte signed integer 
 
1142
than should have been unsigned was fixed (thanks to Haruna Cofer at SGI
 
1143
for pointing this out).
 
1144
 
 
1145
5.) A problem with copymat under NT and IRIX was fixed.
 
1146
 
 
1147
 
 
1148
Notes for 2.1.2 release:
 
1149
 
 
1150
Enhancements:
 
1151
 
 
1152
1.) Release of rpsblast.  Rpsblast performs a search against a database
 
1153
of profiles.  See README.rps for full details.
 
1154
 
 
1155
2.) Release of blastclust.  BLASTCLUST automatically and systematically clusters protein sequences
 
1156
based on pairwise matches found using the BLAST algorithm.   See README.bcl for
 
1157
full details.
 
1158
 
 
1159
3.) Release of megablast.  Megablast uses the greeedy algorithm of Webb Miller et al. 
 
1160
for nucleotide sequence alignment search and concatenates many queries to save
 
1161
time spent scanning the database.   See README.mbl for full details.
 
1162
 
 
1163
4.) XML output can now be produced.  Use the '-m 7' option for this.
 
1164
The XML output is still experimental.  
 
1165
 
 
1166
5.) the default behavior the culling (-K) option has been changed.  Previously
 
1167
this option was set to 100, meaning that if more than 100 HSP's had a
 
1168
hit to a region lower scoring ones would be dropped.  The option is now
 
1169
zero, which turns off this behavior.  In a few cases this change will
 
1170
result in more database sequences being reported.  The previous behavior can
 
1171
be recovered by using '-K 100' on the command-line.
 
1172
 
 
1173
Bug fixes:
 
1174
 
 
1175
1.) A bug that caused only the last SeqAnnot to be written (if the -O option
 
1176
was used) when multiple sequences were searched has been fixed.  All
 
1177
SeqAnnots are printed out.
 
1178
 
 
1179
2.) A bug that caused the search space (set on the command line with the -Y option)
 
1180
to be ignored for some blastx and tblastn calculations has been fixed.
 
1181
 
 
1182
3.) A failure to close a file if a gilst was used (using the -l option) was
 
1183
fixed.  Many thanks to David Mathog at CalTech for spotting this problem
 
1184
and suggesting a fix.
 
1185
 
 
1186
4.) A bug that caused all the database names listed in an alias file to be
 
1187
printed, rather than the "TITLE" field has been fixed.
 
1188
 
 
1189
 
 
1190
 
 
1191
Notes for 2.1.1:
 
1192
 
 
1193
Enhancements:
 
1194
 
 
1195
1.) Addition of compostion-based statistics:
 
1196
 
 
1197
BLAST and PSI-BLAST now permit calculated E-values to take into account the amino acid composition of the individual database sequences involved in reported
 
1198
alignments. This improves E-value accuracy, thereby reducing the number of false positive results. 
 
1199
 
 
1200
The improved statistics are achieved with a scaling procedure [1,2] which in effect employs a slightly different scoring system for each database sequence. As a result,
 
1201
raw BLAST alignment scores in general will not correspond precisely to those implied by any standard substitution matrix. Furthermore, identical alignments can receive
 
1202
different scores, based upon the compositions of the sequences they involve. The improved statistics are now used by default for all rounds of searching on the
 
1203
PSI-BLAST page, but not on the BLAST page. Therefore, if one uses default settings, the results of the first round of searching will be different on the BLAST and
 
1204
PSI-BLAST pages. 
 
1205
 
 
1206
In addition adjustments have been made to two PSI-BLAST parameters: the pseudocount constant default has been changed from 10 to 7, and the E-value threshold for
 
1207
including matches in the PSI-BLAST model has been changed from 0.001 to 0.002. 
 
1208
 
 
1209
1. Altschul, S.F. et al. (1997) Nucl. Acids Res. 25:3389-3402.
 
1210
2. Schļæ½ffer, A.A. et al. (1999) Bioinformatics 15:1000-1011. 
 
1211
 
 
1212
 
 
1213
Notes for 2.0.14 release:
 
1214
 
 
1215
 
 
1216
Bug fixes:
 
1217
 
 
1218
1.) extra line returns between sequences in the a FASTA file 
 
1219
causes formatdb to produce corrupted databases.
 
1220
 
 
1221
2.) ";" at the beginning of a line was not being treated as a comment.
 
1222
 
 
1223
3.) a problem with the formatter causes blast to core-dump if
 
1224
the FASTA definition line only contains an identifier and
 
1225
no description.
 
1226
 
 
1227
4.) a problem in the ungapped extension for protein sequences
 
1228
causes a rare problem.
 
1229
 
 
1230
5.) the '-U' option that causes lower-case sequence to be masked
 
1231
does not work correctly for blastx.
 
1232
 
 
1233
 
 
1234
Notes for 2.0.13 release:
 
1235
 
 
1236
Enhancements:
 
1237
 
 
1238
1.) The output format for pairwise alignments was changed to
 
1239
put each new gi (if the sequence has redundant gi's) on a
 
1240
new line.  If HTML output is specified then each gi is hyperlinked.
 
1241
 
 
1242
Bug fixes:
 
1243
 
 
1244
1.) An NCBI toolkit problem parsing the new RefSeq format in FASTA files
 
1245
(two bars instead of three) was fixed.  This fix applies to all
 
1246
BLAST binaries (formatdb, blastall, blastpgp, etc.).
 
1247
 
 
1248
2.) A problem that caused BLAST version 2.0.12 under NT to freeze in
 
1249
multithreaded mode has been fixed.
 
1250
 
 
1251
Notes for 2.0.12 release:
 
1252
 
 
1253
Enhancements:
 
1254
 
 
1255
1.) Bl2seq can now perform nucleotide-protein (blastx style) comparisons.
 
1256
This necessitated changing the '-p' option from a Boolean to a
 
1257
string.  Valid arguments are "blastn", "blastp", or "blastx".
 
1258
 
 
1259
Bug fixes:
 
1260
 
 
1261
1.) A problem in the NCBI threads library that caused BLAST to sometimes
 
1262
stick was corrected.  Many thanks to Haruna Cofer and colleauges at SGI
 
1263
for providing a fix.
 
1264
 
 
1265
2.) A problem that caused BLAST to core-dump (especially on long queries)
 
1266
has been fixed.  Many thanks to Gary Williams for providing examples.
 
1267
 
 
1268
3.) A problem that prevented the search of multiple multivolume databases
 
1269
has been fixed.  
 
1270
 
 
1271
 
 
1272
 
 
1273
Notes for 2.0.11 release:
 
1274
 
 
1275
Enhancements:
 
1276
 
 
1277
1.) Optimizations were contributed by Chris Joerg of COMPAQ.  These changes
 
1278
reduce the number of cache misses, unroll loops, and make some instructions
 
1279
unnecessary.  These improvements can speed up BLAST for long sequences
 
1280
several-fold.
 
1281
 
 
1282
2.) A database is now only memory-mapped while being searched.  If multiple databases
 
1283
are searched and the total exceeds the allowed memory-map limit this allows 
 
1284
all databases to be searched as memory-mapped files.  If a database cannot
 
1285
be memory-mapped it is read as an ordinary file, rather than causing an error.
 
1286
 
 
1287
Bug fixes:
 
1288
 
 
1289
1.) Formatdb was fixed to correct a problem with FASTA string identifiers under NT.
 
1290
 
 
1291
2.) Blastpgp was fixed to prevent a core-dump under LINUX
 
1292
 
 
1293
3.) BLASTN was found to miss some hits near the expect value cutoff.  This has been
 
1294
corrected.
 
1295
 
 
1296
 
 
1297
 
 
1298
Notes for 2.0.10 release:
 
1299
 
 
1300
Enhancements:
 
1301
 
 
1302
1.) Bl2seq, a utility to compare two sequences using the blastn or blastp approach,
 
1303
is included in the archive.  See the full description in the README.bls for details.
 
1304
 
 
1305
2.) A 'sparse' option ('-s') has been added to formatdb.  This option limits the indices
 
1306
for the string identifiers (used by formatdb) to accessions (i.e., no locus names).
 
1307
This is especially useful for sequences sets like the EST's where the accession and locus
 
1308
names are identical.  Formatdb runs faster and produces smaller temporary files if this
 
1309
option is used.  It is strongly recommended for EST's, STS's, GSS's, and HTGS's.
 
1310
 
 
1311
3.) A volume option ('-v') has been added to formatdb.  This option breaks up large
 
1312
FASTA files into 'volumes' (each with a maximum size of 2 billion letters).
 
1313
As part of the creation of a volume formatdb writes a new type of BLAST database file,
 
1314
called an alias file, with the extension 'nal' or 'pal', is written.  This option
 
1315
should be used if one wishes to formatdb large databases (e.g., over 2 billion 
 
1316
base pairs).
 
1317
 
 
1318
4.) It is is now possible to jump start the command line version of PSI-BLAST (blastpgp) 
 
1319
from a multiple alignment that includes the query sequence using the -B option. Details 
 
1320
are in README.bls.
 
1321
 
 
1322
5.) The maximum wordsize limit for BLASTN has been removed.
 
1323
 
 
1324
Bug fixes:
 
1325
 
 
1326
1.) A problem if the database length, set by the '-z' option was greater than
 
1327
2 billion, was fixed.
 
1328
 
 
1329
2.) A core-dump that resulted from the use of the coil-coil masking
 
1330
('-F C') was fixed by including a file needed for the data directory.
 
1331
 
 
1332
3.) A bug was fixed that caused some very short alignments to be assigned incorrect 
 
1333
expect values. 
 
1334
 
 
1335
4.) A bug was fixed that caused formatdb to produce incorrect BLAST databases if
 
1336
the input was ASN.1.
 
1337
 
 
1338
5.) A serious performance problem with BLASTN and longer words (greater than 16)
 
1339
was fixed.
 
1340
 
 
1341
Notes for 2.0.9 release:
 
1342
 
 
1343
Enhancements:
 
1344
 
 
1345
1.) two new options have been added to blastall: to produce output in HTML and 
 
1346
to search a subset of the database based upon a list of GI's.  Please see 
 
1347
the options section for full information.  
 
1348
 
 
1349
2.) two new options have been added to blastpgp: to produce HTML output and to
 
1350
produce an ASCII version of the PSI-BLAST Matrix.  Please see the options section
 
1351
for more information.
 
1352
 
 
1353
3.) formatdb has a new option to allow specification of a 'base' name.  see the options
 
1354
section for full details.
 
1355
 
 
1356
4.) it is possible to mask only during the phase when the lookup table is being built, 
 
1357
but not during the extensions.  See the options section for full details.
 
1358
 
 
1359
Bug fixes:
 
1360
 
 
1361
1.) a problem that occurred when too many HSP's aligned to the same part
 
1362
of the query from one database sequence has been fixed.
 
1363
 
 
1364
2.) a problem that caused seedtop to not perform pattern-matching for DNA
 
1365
sequences has been fixed.
 
1366
 
 
1367
3.) the number of HSP's saved for ungapped BLAST and tblastx is now limited to
 
1368
200 to prevent problems with memory and speed.
 
1369
 
 
1370
4.) a missing thread join that caused problems under DEC Alpha has been added.
 
1371
 
 
1372
5.) a formatting problem with the database summary at the beginning of the
 
1373
BLAST output (if multiple databases totaling over 2 Gig) has been fixed.
 
1374
 
 
1375
6.) a bug in formatdb that caused a core-dump if the total number of sequences was an
 
1376
exact multiple of 100000 was fixed.
 
1377
 
 
1378
 
 
1379
Notes for 2.0.8 release:
 
1380
 
 
1381
Enhancements:
 
1382
 
 
1383
1.) Frame and strand information was added to the output.  Examples of the
 
1384
new output format may be found at http://www.ncbi.nlm.nih.gov/BLAST/example.html.
 
1385
 
 
1386
2.) An option that specifes the query strand to be searched (for blastn, blastx, and tblastx)
 
1387
has been added.  The option is '-S'.
 
1388
 
 
1389
Bug fixes:
 
1390
 
 
1391
1.) The problem with the 'too-wide' parameter input screen under NT was fixed.
 
1392
 
 
1393
2.) BLAST no longer core-dump's when the query is NULL.
 
1394
 
 
1395
3.) BLAST no longer core-dump's when the query contains an '@' and blastx or tblastx is selected.
 
1396
 
 
1397
Notes for 2.0.7 release:
 
1398
 
 
1399
Bug fixes:
 
1400
 
 
1401
1.) BLAST now multi-threads properly under LINUX.
 
1402
 
 
1403
2.) A problem with very redundant databases and psi-blast was fixed.
 
1404
 
 
1405
3.) A problem with the formatting of the number of identities and positives
 
1406
was fixed.  This affected results on the minus strand only and did not
 
1407
affect the expect value or scores.
 
1408
 
 
1409
4.) A problem that caused tblastn to core-dump very occassionally was corrected.
 
1410
 
 
1411
5.) A problem with multiple patterns in PHI-BLAST was fixed.
 
1412
 
 
1413
6.) A limit on the number of HSP's that were saved (100) was removed.
 
1414
 
 
1415
Notes for 2.0.6 release:
 
1416
 
 
1417
Enhancements:
 
1418
 
 
1419
1.) PHI-BLAST is included in this release.  Please see notes on PHI-BLAST for
 
1420
details.
 
1421
 
 
1422
2.) SEG has become an integral part of the NCBI toolkit and it is no longer necessary
 
1423
to install it separately.  It is also now supported under non-UNIX platforms.
 
1424
 
 
1425
3.) Access to filtering options.
 
1426
 
 
1427
If one uses "-F T" then normal filtering by seg or dust (for blastn)
 
1428
occurs (likewise "-F F" means no filtering whatsoever).  The seg options
 
1429
can be changed by using:
 
1430
 
 
1431
-F "S 10 1.0 1.5"
 
1432
 
 
1433
which specifies a window of 10, locut of 1.0 and hicut of 1.5.  One may
 
1434
also specify coiled-coiled filtering by specifying:
 
1435
 
 
1436
-F "C"
 
1437
 
 
1438
There are three parameters for this: window, cutoff (prob of a coil-coil), and
 
1439
linker (distance between two coiled-coiled regions that should be linked
 
1440
together).  These are now set to
 
1441
 
 
1442
window: 22
 
1443
cutoff: 40.0
 
1444
linker: 32
 
1445
 
 
1446
One may also change the coiled-coiled parameters in a manner analogous to
 
1447
that of seg:
 
1448
 
 
1449
-F "C 28 40.0 32" will change the window to 28.
 
1450
 
 
1451
One may also run both seg and coiled-coiled together by using a ";":
 
1452
 
 
1453
-F "C;S"
 
1454
 
 
1455
4.) BLAST has been changed to reduce the number of redundant hits that a user
 
1456
may see.  This is acheived by keeping track of the number of hits completely
 
1457
contained in a certain region and eliminating those lower scoring hits that
 
1458
are redundant with others.  This behavior may be controlled with the -K and -L
 
1459
options:
 
1460
 
 
1461
  -K  Number of best hits from a region to keep [Integer]
 
1462
    default = 50
 
1463
  -L  Length of region used to judge hits [Integer]
 
1464
    default = 20
 
1465
 
 
1466
Setting -K to zero turns off this feature.  This is the default only on blastall.
 
1467
 
 
1468
Bug fixes:
 
1469
 
 
1470
1.) There was a problem with the procedure that called the external utility seg.
 
1471
The need to fix this was obviated by the integration of seg into the toolkit.
 
1472
This showed up under LINUX.
 
1473
 
 
1474
2.) There was a memory problem with formatdb that has been fixed.  This showed up
 
1475
mostly under NT and LINUX.
 
1476
 
 
1477
3.) A problem with running in multi-processing mode under IRIX6.5 (as a non-root user)
 
1478
was fixed.
 
1479
 
 
1480
Notes for 2.0.5 release:
 
1481
 
 
1482
Enhancements:
 
1483
 
 
1484
1.) The BLAST version is printed by formatdb in it's log file.
 
1485
 
 
1486
2.) Multi-database searches no longer require that the -o option be used when
 
1487
preparing the databases (i.e., with formatdb).
 
1488
 
 
1489
Bugs fixed:
 
1490
 
 
1491
1.) A serious bug with multi-database iterative searches was fixed (thanks to
 
1492
Steve Brenner for providing an example).
 
1493
 
 
1494
2.) 'lcl' is not formatted in the BLAST report when the sequence identifier
 
1495
is a local identifier or does not contain a bar ("|").
 
1496
 
 
1497
3.) A large memory leak in formatdb was fixed.
 
1498
 
 
1499
4.) An unnecessary cast that caused formatdb to fail on Solaris 2.5 machines
 
1500
if the binary was made under 2.6 was fixed.
 
1501
 
 
1502
5.) Better error checking was added to protect against core-dumps.
 
1503
 
 
1504
6.) Some problems with the sum statistics treatment of the blastx and tblastn
 
1505
programs reported by D. Rozenbaum were fixed.  The number of alignments
 
1506
involved in a sum group was misrepresented.  Also the incorrect length for
 
1507
the database sequence was used, sometimes casuing a slight change in the
 
1508
value reported.
 
1509
 
 
1510
7.) A problem with blastpgp was fixed that reported incorrect values for
 
1511
matrices other than BLOSUM62 during iterative searches.
 
1512
 
 
1513
Notes for 2.0.4 release:
 
1514
 
 
1515
Enhancements:
 
1516
 
 
1517
1.) multiple database searches:
 
1518
 
 
1519
Version 2.0.4 will accept multiple database names (bracketed by quotations).
 
1520
An example would be
 
1521
 
 
1522
              -d "nr est"
 
1523
 
 
1524
which will search both the nr and est databases, presenting the results as if one
 
1525
'virtual' database consisting of all the entries from both were searched.   The
 
1526
statistics are based on the 'virtual' database.
 
1527
 
 
1528
2.) new options:
 
1529
 
 
1530
  -W  Word size, default if zero [Integer]
 
1531
    default = 0
 
1532
  -z  Effective length of the database (use zero for the real size) [Integer]
 
1533
    default = 0
 
1534
 
 
1535
3.) The number of identities, positives, and gaps are now printed out before the
 
1536
alignments for gapped blastx, tblastn, and tblastx.  Additionally this feature is
 
1537
now also enabled for ungapped BLAST.
 
1538
 
 
1539
4.) Formatdb now accepts ASN.1, as well as FASTA, as input.
 
1540
 
 
1541
Bugs fixed:
 
1542
 
 
1543
1.) In blastx, tblastn, and tblastx a codon was incorrectly formatted as a start codon in
 
1544
some cases.
 
1545
 
 
1546
2.) The last alignment of the last sequence being presented was incorrectly dropped
 
1547
in some cases.  This change could affect the statistical significance of the last database
 
1548
sequence if the dropped alignment had a lower e-value than any other alignments from the
 
1549
same database sequence.