~ubuntu-branches/ubuntu/trusty/tagsoup/trusty-proposed

« back to all changes in this revision

Viewing changes to .pc/0001-manpages.patch/tagsoup.1

  • Committer: Package Import Robot
  • Author(s): Emmanuel Bourg
  • Date: 2013-05-29 23:56:56 UTC
  • mfrom: (1.1.4)
  • Revision ID: package-import@ubuntu.com-20130529235656-du2tr6r4047oxtde
Tags: 1.2.1+-1
* Adopting package (Closes: #639723)
* The Maven artifacts are now deployed to /usr/share/maven-repo
* Improved the manpages (broken comment, fixed the command syntax)
* debian/control:
  - Updated Standards-Version to 3.9.4
  - Updated the Vcs-* fields (tagsoup is back to trunk/)
* debian/rules:
  - Added a clean target
  - Added a get-orig-pom target to fetch the pom from
    the central Maven repository

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
\' This file is part of TagSoup and is Copyright 2002-2008 by John Cowan.
 
2
\'
 
3
\' TagSoup is licensed under the Apache License,
 
4
\' Version 2.0.  You may obtain a copy of this license at
 
5
\' http://www.apache.org/licenses/LICENSE-2.0 .  You may also have
 
6
\' additional legal rights not granted by this license.
 
7
\'
 
8
\' TagSoup is distributed in the hope that it will be useful, but
 
9
\' unless required by applicable law or agreed to in writing, TagSoup
 
10
\' is distributed on an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS
 
11
\' OF ANY KIND, either express or implied; not even the implied warranty
 
12
\' of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.
 
13
\'
 
14
.TH TAGSOUP "1" "January 2008" "TagSoup 1.2" "User Commands"
 
15
.SH NAME
 
16
tagsoup \- convert nasty, ugly HTML to clean XHTML
 
17
.SH SYNOPSIS
 
18
.B java -jar tagsoup-1.2
 
19
[
 
20
.I options
 
21
] [
 
22
.I files
 
23
]
 
24
.SH DESCRIPTION
 
25
.\" Add any additional description here
 
26
.PP
 
27
Rectify arbitrary HTML into clean XHTML,
 
28
using a tailored description of HTML.
 
29
The output will be well-formed XML, but not necessarily
 
30
.I valid
 
31
XHTML.
 
32
.PP
 
33
.TP
 
34
.B --files
 
35
multiple input
 
36
.I files
 
37
should be processed into corresponding output files
 
38
.TP
 
39
.BI --encoding= encoding
 
40
specifies the encoding of input files
 
41
.TP
 
42
.BI --output-encoding= encoding
 
43
specifies the encoding of the output
 
44
(if the encoding name begins with ``utf'',
 
45
the output will not contain character entities;
 
46
otherwise, all non-ASCII characters are
 
47
represented as entities)
 
48
.TP
 
49
.B --html
 
50
output rectified HTML rather than XML,
 
51
omitting the XML declaration
 
52
and any namespace declarations
 
53
.TP
 
54
.B --method=html
 
55
output rectified HTML rather than XML
 
56
(end-tags are omitted for empty elements,
 
57
and no character escaping is done in
 
58
script and style elements)
 
59
.TP
 
60
.B --omit-xml-declaration
 
61
omit the XML declaration
 
62
.TP
 
63
.B --lexical
 
64
output lexical features (specifically comments and any DOCTYPE declaration)
 
65
.TP
 
66
.B --nons
 
67
suppress namespaces in output
 
68
.TP
 
69
.B --nobogons
 
70
suppress unknown non-HTML elements in output
 
71
.TP
 
72
.B --nodefaults
 
73
suppress default attribute values
 
74
.TP
 
75
.B --nocolons
 
76
change explicit colons
 
77
in element and attribute names
 
78
to underscores
 
79
.TP
 
80
.B --norestart
 
81
don't restart any restartable elements
 
82
.TP
 
83
.B --ignorable
 
84
pass through ignorable whitespace
 
85
(whitespace in element-only content)
 
86
via SAX method handler ignorableWhitespace
 
87
.TP
 
88
.B --any
 
89
treat unknown non-HTML elements as allowing any content (default)
 
90
.TP
 
91
.B --emptybogons
 
92
treat unknown non-HTML elements as empty elements
 
93
.TP
 
94
.B --norootbogons
 
95
don't allow unknown non-HTML elements to be root elements
 
96
.TP
 
97
.BI --doctype-system= system-id
 
98
force DOCTYPE declaration to be output with specified system identifier
 
99
.TP
 
100
.BI --doctype-public= public-id
 
101
force DOCTYPE declaration to be output with specified public identifier
 
102
.TP
 
103
.B --standalone=[yes|no]
 
104
specify standalone pseudo-attribute in output XML declaration
 
105
.TP
 
106
.BI --version= version
 
107
specify version pseudo-attribute in output XML declaration
 
108
(does not affect actual version of XML output)
 
109
.TP
 
110
.B --nocdata
 
111
treat the CDATA-content elements
 
112
.I script
 
113
and
 
114
.I style
 
115
as ordinary elements
 
116
(mostly for testing)
 
117
.TP
 
118
.B --pyx
 
119
output PYX format rather than XML
 
120
(mostly for testing)
 
121
.TP
 
122
.B --pyxin
 
123
input is PYX-format HTML
 
124
(mostly for testing)
 
125
.TP
 
126
.B --reuse
 
127
reuse the same Parser object internally
 
128
(for testing only)
 
129
.TP
 
130
.B --help
 
131
output basic help
 
132
.TP
 
133
.B --version
 
134
output version number
 
135
.PP
 
136
.B TagSoup
 
137
is a parser and reformatter for nasty, ugly HTML.
 
138
Its normal processing mode is to accept HTML files on the command line,
 
139
or from the standard input if none are given, and output them
 
140
as clean XML
 
141
to the standard output.  The encoding is assumed to be the platform-local
 
142
encoding on input, and is always UTF-8 on output.
 
143
.PP
 
144
When the
 
145
.B --files
 
146
option is given, each input file is processed into an output file of the
 
147
corresponding name, with the extension changed to
 
148
.IR xhtml .
 
149
If the extension is already
 
150
.IR xhtml ,
 
151
it is changed to
 
152
.IR xhtml_ .
 
153
.PP
 
154
TagSoup will repair, by whatever means necessary,
 
155
violations of XML well-formedness.  In particular, it will fix up
 
156
malformed attribute names and supply missing attribute-value quotation marks.
 
157
More significantly, it supplies end-tags where HTML allows them
 
158
to be omitted, and sometimes where it doesn't.  It will even supply
 
159
start-tags where necessary; for example, if a document begins with a
 
160
<li> tag, TagSoup will automatically prefix it with <html><body><ul>.
 
161
.PP
 
162
.SH BUGS
 
163
TagSoup can be fooled by missing close quotes after attribute values, and by
 
164
incorrect character encodings (it does not contain an encoding guesser).
 
165
.PP
 
166
TagSoup doesn't understand namespace declarations, which are not properly
 
167
part of HTML.  Instead, any element or attribute name beginning
 
168
.IR foo :
 
169
will be put into the artificial namespace
 
170
.RI urn:x-prefix: foo .
 
171
.PP
 
172
For the same reasons, namespace-qualified attributes like
 
173
xml:space
 
174
can't be returned as default values,
 
175
though an explicit attribute in the xml namespace
 
176
will be returned with the proper namespace URI.
 
177
.SH AUTHOR
 
178
John Cowan <cowan@ccil.org>
 
179
.SH COPYRIGHT
 
180
Copyright \(co 2002-2008 John Cowan
 
181
.br
 
182
TagSoup is free software; see the source for copying conditions.  There is NO
 
183
warranty; not even for MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.