~ubuntu-branches/ubuntu/karmic/ncbi-tools6/karmic

« back to all changes in this revision

Viewing changes to network/wwwblast/docs/pattern.html

  • Committer: Bazaar Package Importer
  • Author(s): Aaron M. Ucko
  • Date: 2005-03-27 12:00:15 UTC
  • mfrom: (2.1.2 hoary)
  • Revision ID: james.westby@ubuntu.com-20050327120015-embhesp32nj73p9r
Tags: 6.1.20041020-3
* Fix FTBFS under GCC 4.0 caused by inconsistent use of "static" on
  functions.  (Closes: #295110.)
* Add a watch file, now that we can.  (Upstream's layout needs version=3.)

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
<HTML>
 
2
<TITLE>PHI Blast Pattern description</TITLE>
 
3
<BODY BGCOLOR="#FFFFFF" LINK="#0000FF" VLINK="#660099" ALINK="#660099">
 
4
<h2>Rules for pattern syntax for PHI-BLAST.</h2>
 
5
 
 
6
The syntax for patterns in PHI-BLAST follows the conventions
 
7
of PROSITE. When using the stand-alone program, it
 
8
is permissible to have multiple patterns in a file separated
 
9
by a blank line between patterns. When using the Web-page
 
10
only one pattern is allowed per query.
 
11
<P>
 
12
Valid protein characters for PHI-BLAST patterns:
 
13
<PRE>
 
14
    ABCDEFGHIKLMNPQRSTVWXYZU
 
15
</PRE>
 
16
Valid DNA characters for PHI-BLAST patterns:
 
17
<PRE>
 
18
    ACGT
 
19
</PRE>
 
20
Other useful delimiters:
 
21
<PRE>
 
22
    [ ]    means any one of the characters enclosed in the brackets
 
23
        e.g., [LFYT] means one occurrence of L or F or Y or T
 
24
    -      means nothing (this is a spacer character used by PROSITE)
 
25
    x with nothing following means any residue
 
26
    x(5)  means 5 positions in which any residue is allowed (and similarly for any other
 
27
          single number in parentheses after x)
 
28
    x(2,4) means 2 to 4 positions where any residue is allowed,
 
29
           and similarly for any other two numbers separated by a comma;
 
30
           the first number should be < the second number.           
 
31
    >      can occur only at the end of a pattern and means nothing
 
32
           it may occur before a period
 
33
           (another spacer used by PROSITE)
 
34
 
 
35
    .      may be used at the end of the pattern and means nothing
 
36
</PRE>
 
37
When using the stand-alone program, the pattern should
 
38
be in a file, with the first line starting:
 
39
<PRE>
 
40
 ID
 
41
</PRE>
 
42
followed by 2 spaces and a text string givign the pattern a name.
 
43
<P>
 
44
There should also be a line starting
 
45
<PRE>
 
46
 PA
 
47
</PRE>
 
48
followed by 2 spaces followed by the pattern description.
 
49
<P>
 
50
All other PROSITE codes in the first two columns are allowed,
 
51
but only the HI code, described below is relevant to PHI-BLAST.
 
52
<P>
 
53
Here is an example from PROSITE.
 
54
<PRE>
 
55
ID   CNMP_BINDING_2; PATTERN.
 
56
AC   PS00889;
 
57
DT   OCT-1993 (CREATED); OCT-1993 (DATA UPDATE); NOV-1995 (INFO UPDATE).
 
58
DE   Cyclic nucleotide-binding domain signature 2.
 
59
PA   [LIVMF]-G-E-x-[GAS]-[LIVM]-x(5,11)-R-[STAQ]-A-x-[LIVMA]-x-[STACV].
 
60
NR   /RELEASE=32,49340;
 
61
NR   /TOTAL=57(36); /POSITIVE=57(36); /UNKNOWN=0(0); /FALSE_POS=0(0);
 
62
NR   /FALSE_NEG=1; /PARTIAL=1;
 
63
CC   /TAXO-RANGE=??EP?; /MAX-REPEAT=2;
 
64
</PRE>
 
65
The line starting
 
66
<PRE>
 
67
    ID
 
68
</PRE>
 
69
gives the pattern a name.
 
70
The lines starting
 
71
<PRE>
 
72
     AC, DT, DE, NR, NR, CC
 
73
</PRE>
 
74
are relevant to PROSITE users, but irrelevant to PHI-BLAST.
 
75
These lines are tolerated, but ignored by PHI-BLAST.
 
76
<P>
 
77
The line starting
 
78
<PRE>
 
79
     PA
 
80
describes the pattern as:
 
81
      one of LIVMF
 
82
followed by
 
83
      G
 
84
followed by
 
85
      E
 
86
followed by 
 
87
      any single character
 
88
followed by
 
89
      one of GAS
 
90
followed by
 
91
      one of LIVM
 
92
followed by 
 
93
      any 5 to 11 characters
 
94
followed by
 
95
      R
 
96
followed by
 
97
      one of STAQ
 
98
followed by
 
99
      A
 
100
followed by
 
101
      any single character
 
102
followed by
 
103
      one of LIVMA
 
104
followed by
 
105
      any single character
 
106
followed by 
 
107
      one of STACV
 
108
</PRE>
 
109
In this case the pattern ends with a period.
 
110
It can end with nothing after the last specifying symbol
 
111
or any number of > signs or periods or combination thereof.
 
112
<P>
 
113
Here is another example, illustrating the use of an HI line.
 
114
<PRE>
 
115
ID    ER_TARGET; PATTERN.
 
116
PA  [KRHQSA]-[DENQ]-E-L>.
 
117
HI (19 22)
 
118
HI (201 204)
 
119
</PRE>
 
120
In this example, the HI lines specify that the pattern
 
121
occurs twice, once from positions 19 through 22 in the
 
122
sequence and once from positions 201 through 204 in the
 
123
sequence.
 
124
These specifications are relevant when stand-alone PHI-BLAST is
 
125
used with the "seedp"
 
126
option, in which the interesting occurrences of the pattern
 
127
in the sequence are specified. In this case the
 
128
HI lines specify which occurrence(s) of the pattern
 
129
should be used to find good alignments.
 
130
<P>
 
131
In general, the seedp option is more useful than the
 
132
standard patternp option ONLY when the
 
133
pattern occurs K > 1 times in the sequence AND
 
134
the user is interested in matching to J < K of those
 
135
occurrences.
 
136
Then using the HI lines enables the user to specify which
 
137
occurrences are of interest.
 
138
</BODY>
 
139
</HTML>