~ubuntu-branches/ubuntu/precise/ncbi-tools6/precise

« back to all changes in this revision

Viewing changes to debian/man/fa2htgs.1

  • Committer: Bazaar Package Importer
  • Author(s): Aaron M. Ucko
  • Date: 2005-03-27 12:00:15 UTC
  • mfrom: (2.1.2 hoary)
  • Revision ID: james.westby@ubuntu.com-20050327120015-embhesp32nj73p9r
Tags: 6.1.20041020-3
* Fix FTBFS under GCC 4.0 caused by inconsistent use of "static" on
  functions.  (Closes: #295110.)
* Add a watch file, now that we can.  (Upstream's layout needs version=3.)

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
 
.TH FA2HTGS 1 2001-12-28 NCBI "NCBI Tools User's Manual"
2
 
.SH NAME
3
 
fa2htgs \- formatter for high throughput genome sequencing project submissions
4
 
.SH SYNOPSIS
5
 
.B fa2htgs
6
 
[\|\fB-\fP\|]
7
 
[\|\fB-6\fP\ \fIstr\fP\|]
8
 
[\|\fB-7\fP\ \fIstr\fP\|]
9
 
[\|\fB-A\fP\ \fIfilename\fP\|]
10
 
[\|\fB-C\fP\ \fIstr\fP\|]
11
 
[\|\fB-D\fP\|]
12
 
[\|\fB-L\fP\ \fIfilename\fP\|]
13
 
[\|\fB-M\fP\ \fIstr\fP\|]
14
 
[\|\fB-N\fP\|]
15
 
[\|\fB-O\fP\ \fIfilename\fP\|]
16
 
[\|\fB-P\fP\ \fIstr\fP\|]
17
 
[\|\fB-S\fP\ \fIstr\fP\|]
18
 
[\|\fB-T\fP\ \fIfilename\fP\|]
19
 
[\|\fB-X\fP\|]
20
 
[\|\fB-a\fP\ \fIstr\fP\|]
21
 
[\|\fB-b\fP\ \fIN\fP\|]
22
 
[\|\fB-c\fP\ \fIstr\fP\|]
23
 
[\|\fB-d\fP\ \fIstr\fP\|]
24
 
[\|\fB-e\fP\ \fIfilename\fP\|]
25
 
[\|\fB-f\fP\|]
26
 
\fB-g\fP\ \fIstr\fP
27
 
[\|\fB-h\fP\ \fIstr\fP\|]
28
 
[\|\fB-i\fP\ \fIfilename\fP\|]
29
 
[\|\fB-l\fP\ \fIN\fP\|]
30
 
[\|\fB-m\fP\|]
31
 
[\|\fB-n\fP\ \fIstr\fP\|]
32
 
[\|\fB-o\fP\ \fIfilename\fP\|]
33
 
[\|\fB-p\fP\ \fIN\fP\|]
34
 
[\|\fB-q\fP\|]
35
 
[\|\fB-r\fP\ \fIstr\fP\|]
36
 
\fB-s\fP\ \fIstr\fP
37
 
[\|\fB-t\fP\ \fIfilename\fP\|]
38
 
[\|\fB-u\fP\|]
39
 
[\|\fB-v\fP\|]
40
 
[\|\fB-x\fP\ \fIstr\fP\|]
41
 
.SH DESCRIPTION
42
 
This manual page documents briefly the \fBfa2htgs\fP command.
43
 
This manual page was written for the Debian GNU/Linux distribution
44
 
because the original program does not have a manual page.
45
 
.PP
46
 
\fBfa2htgs\fP is a program used to generate Seq-submits (an ASN.1
47
 
sequence submission file) for high throughput genome sequencing
48
 
projects.
49
 
.PP
50
 
\fBfa2htgs\fP will read a FASTA file (or an Ace Contig file with Phrap
51
 
sequence quality values), a Sequin submission template file, (to get
52
 
contact and citation information for the submission), and a series of
53
 
command line arguments (see below).  This program will then combines
54
 
these information to make a submission suitable for GenBank. Once you
55
 
have generated your submission file, you need to follow the submission
56
 
protocol (see the README present on your FTP account or mailed out to
57
 
your Center).
58
 
.PP
59
 
\fBfa2htgs\fP is intended for the automation by scripts for bulk
60
 
submission of unannotated genome sequence. It can easily be extended
61
 
from its current simple form to allow more complicated processing.  A
62
 
submission prepared with \fBfa2htgs\fP can also be read into
63
 
\fBPsequin\fP(1), and then annotated more extensively.
64
 
.PP
65
 
Questions and concerns about this processing protocol, or how to 
66
 
use this tool should be forwarded to <htgs@ncbi.nlm.nih.gov>.
67
 
.SH OPTIONS
68
 
A summary of options is included below.
69
 
.TP
70
 
\fB-\fP
71
 
Print usage message
72
 
.TP
73
 
\fB-6\fP\ \fIstr\fP
74
 
SP6 clone (e.g., Contig1,left)
75
 
.TP
76
 
\fB-7\fP\ \fIstr\fP
77
 
T7 clone (e.g., Contig2,right)
78
 
.TP
79
 
\fB-A\fP\ \fIfilename\fP
80
 
Filename for accession list input (mutually exclusive with \fB-T\fP
81
 
and \fB-i\fP).  The input file contains a tab-delimited table with
82
 
three to five columns, which are accession number, start position,
83
 
stop position, and (optionally) length and strand.  If start > stop,
84
 
the minus strand on the referenced accession is used.  A gap is
85
 
indicated by the word "gap" instead of an accession, 0 for the start
86
 
and stop positions, and a number for the length.
87
 
.TP
88
 
\fB-C\fP\ \fIstr\fP
89
 
Clone library name (will appear as \fB/clone-lib="\fP\fIstr\fP\fB"\fP
90
 
on the source feature)
91
 
.TP
92
 
\fB-D\fP
93
 
HTGS_DRAFT sequence
94
 
.TP
95
 
\fB-L\fP\ \fIfilename\fP
96
 
Read phrap contig order from \fIfilename\fP.  This is a tab-delimited
97
 
file that can be used to drive the order of contigs (normally
98
 
specified by \fB-P\fP), as well as indicating the SP6 and T7 ends.  It
99
 
can also be used when contigs are known to be in opposite orientation.
100
 
For example:
101
 
.nf
102
 
 
103
 
    Contig2     +       1       SP6     left
104
 
    Contig3     +       1
105
 
    Contig1     -               T7      right
106
 
 
107
 
.fi
108
 
The first column is the contig name, the second is the orientation,
109
 
the third is the fragment_group, the fourth indicates the SP6 or T7
110
 
end, and the fifth says which side of SP6 or T7 end had vector
111
 
removed.
112
 
.TP
113
 
\fB-M\fP\ \fIstr\fP
114
 
Map name (will appear as \fB/map="\fP\fIstr\fP\fB"\fP on the source feature)
115
 
.TP
116
 
\fB-N\fP
117
 
Annotate assembly_fragments
118
 
.TP
119
 
\fB-O\fP\ \fIfilename\fP
120
 
Read comment from \fIfilename\fP (100-character-per-line maximum;
121
 
\fB~\fP is a linebreak and \fB`~\fP is a literal \fB~\fP.  You can
122
 
check the format with \fBPSequin\fP(1).)
123
 
.TP
124
 
\fB-P\fP\ \fIstr\fP
125
 
Contigs to use, separated by commas.  If \fB-P\fP is not indicated
126
 
with the \fB-T\fP option, then the fragments will go in in the order
127
 
that they are in the ace file (which is appropriate for a phase 1
128
 
record, but not for a phase 2 or 3).  If you need to set the order of
129
 
the segments of the ace file, you need to set it with the \fB-P\fP
130
 
flag, like this: \fB-P "Contig1,Contig4,Contig3,Contig2,Contig5"\fP
131
 
.TP
132
 
\fB-S\fP\ \fIstr\fP
133
 
Strain name
134
 
.TP
135
 
\fB-T\fP\ \fIfilename\fP
136
 
Filename for phrap input (mutually exclusive with \fB-A\fP and \fB-i\fP)
137
 
.TP
138
 
\fB-X\fP
139
 
The coordinates in the input file are on the resulting segmented
140
 
sequence.  (Bases 1 through \fIn\fP of each accession are used.)
141
 
Otherwise, the coordinates are on the individual accessions, which
142
 
need not start at base 1 of the record.
143
 
.TP
144
 
\fB-a\fP\ \fIstr\fP
145
 
GenBank accession; use if and only if updating a sequence.
146
 
.TP
147
 
\fB-b\fP\ \fIN\fP
148
 
Gap length (default = 100; anything from 0 to 1000000000 is legal)
149
 
.TP
150
 
\fB-c\fP\ \fIstr\fP
151
 
Clone name (will appear as \fB/clone\fP in the source feature; can be
152
 
the same as \fB-s\fP)
153
 
.TP
154
 
\fB-d\fP\ \fIstr\fP
155
 
Title for sequence (will appear in GenBank \fBDEFINITION\fP line)
156
 
.TP
157
 
\fB-e\fP\ \fIfilename\fP
158
 
Log errors to \fIfilename\fP
159
 
.TP
160
 
\fB-f\fP
161
 
htgs_fulltop keyword
162
 
.TP
163
 
\fB-g\fP\ \fIstr\fP
164
 
Genome Center tag (probably the same as your login name on the NCBI FTP server)
165
 
.TP
166
 
\fB-h\fP\ \fIstr\fP
167
 
Chromosome (will appear as \fB/chromosome\fP in the source feature)
168
 
.TP
169
 
\fB-i\fP\ \fIfilename\fP
170
 
Filename for fasta input (default is stdin; mutually exclusive with
171
 
\fB-A\fP and \fB-T\fP)
172
 
.TP
173
 
\fB-l\fP\ \fIN\fP
174
 
Length of sequence in bp (default = 0). The length is checked against
175
 
the actual number of bases we get. For phase 1 and 2 sequence it is
176
 
also used to estimate gap lengths. For phase 1 and 2 records, it is
177
 
important to use a number GREATER than the amount of provided
178
 
nucleotide, otherwise this will generate false 'gaps'.  Here is
179
 
assumed that the putative full length of the BAC or cosmid will be
180
 
used.  There should be at least 20 to 30 'n' in between the segments
181
 
(you can check for these in Sequin), as this will ensure proper
182
 
behavior when this sequence is used with BLAST.  Otherwise
183
 
'artifactual' unrelated segment neighbors may be brought into
184
 
proximity of each other.
185
 
.TP
186
 
\fB-m\fP
187
 
Take comment from template
188
 
.TP
189
 
\fB-n\fP\ \fIstr\fP
190
 
Organism name (default = Homo sapiens)
191
 
.TP
192
 
\fB-o\fP\ \fIfilename\fP
193
 
Filename for asn.1 output (default = stdout)
194
 
.TP
195
 
\fB-p\fP\ \fIN\fP
196
 
HTGS phase:
197
 
.RS
198
 
.PD 0
199
 
.IP 1
200
 
A collection of unordered contigs with gaps of unknown length.  A
201
 
Phase 1 record must at the very least have two segments with one gap.
202
 
(default)
203
 
.IP 2
204
 
A series of ordered contigs, possibly with known gap lengths.  This
205
 
could be a single sequence without gaps, if the sequence has
206
 
ambiguities to resolve.
207
 
.IP 3
208
 
A single contiguous sequence.  This sequence is finished, but not
209
 
necessarily annotated.
210
 
.PD
211
 
.RE
212
 
.TP
213
 
\fB-q\fP
214
 
htgs_cancelled keyword
215
 
.TP
216
 
\fB-r\fP\ \fIstr\fP
217
 
Remark for update (brief comment describing the nature of the update,
218
 
such as "new sequence", "new citation", or "updated features")
219
 
.TP
220
 
\fB-s\fP\ \fIstr\fP
221
 
Sequence name.  The sequence must have a name that is unique within
222
 
the genome center. We use the combination of the genome center name
223
 
(\fB-g\fP argument) and the sequence name (\fB-s\fP) to track this
224
 
sequence and to talk to you about it.  The name can have any form you
225
 
like but must be unique within your center.
226
 
.TP
227
 
\fB-t\fP\ \fIfilename\fP
228
 
Filename for Seq-submit template (default = template.sub)
229
 
.TP
230
 
\fB-u\fP
231
 
Take biosource from template
232
 
.TP
233
 
\fB-v\fP
234
 
htgs_activefin keyword
235
 
.TP
236
 
\fB-x\fP\ \fIstr\fP
237
 
Secondary accession numbers, separated by commas, s.t. U10000,L11000.
238
 
.PP
239
 
.RS
240
 
In some cases a large segment will supersede another or group of other
241
 
accession numbers (records).  These records which are no longer wanted
242
 
in GenBank should be made secondary. Using the \fB-x\fP argument you
243
 
can list the Accession Numbers you want to make secondary.  This will
244
 
instruct us to remove the accession number(s) from GenBank, and will
245
 
no longer be part of the GenBank release. They will nonetheless be
246
 
available from Entrez.
247
 
.PP
248
 
\fBGREAT CARE\fP should be taken when using this argument!!!  Improper
249
 
use of accession numbers here will result in the inappropriate
250
 
withdrawal of GenBank records from GenBank, EMBL and DDBJ.  We provide
251
 
this parameter as a convenience to submitting centers, but this may
252
 
need removed if it is not used carefully.
253
 
.RE
254
 
.SH AUTHOR
255
 
This manual page was written by Aaron M. Ucko <ucko@debian.org>,
256
 
for the Debian GNU/Linux system (but may be used by others).
257
 
.SH SEE ALSO
258
 
.ad l
259
 
.BR Psequin (1),
260
 
/usr/share/doc/ncbi-tools-bin/README.fa2htgs.gz