~ubuntu-branches/ubuntu/precise/xom/precise

« back to all changes in this revision

Viewing changes to src/nu/xom/xinclude/EncodingHeuristics.java

Committer: Bazaar Package Importer
Author(s): Varun Hiremath
Date: 2007-11-25 15:50:40 UTC
Revision ID: james.westby@ubuntu.com-20071125155040-r75ikcqf1vu0cei7

Tags: upstream-1.1

Import upstream version 1.1

files added:

LICENSE.txt

README.txt

Todo.txt

build.xml

classes15

classes15/nu

classes15/nu/xom

data

data/!file.xml

data/$file.xml

data/%file.xml

data/&file.xml

data/'file.xml

data/()file.xml

data/+file.xml

data/097.ent

data/097.xml

data/;file.xml

data/=file.xml

data/@file.xml

data/BaseURIWithEntitiesTest.xml

data/[file].xml

data/^file.xml

data/`file.xml

data/baserelative

data/baserelative/dir

data/baserelative/dir/test.dtd

data/baserelative/test.xml

data/canonical

data/canonical/input

data/canonical/input/commentbeforeroot.xml

data/canonical/input/doc.dtd

data/canonical/input/emptyelement.xml

data/canonical/input/escapeattributevalue.xml

data/canonical/input/rootelementindefaultnamespace.xml

data/canonical/input/specialcharactersinattributevalue.xml

data/canonical/input/spectest1.xml

data/canonical/input/test3.3.xml

data/canonical/input/test3.4.xml

data/canonical/input/test3.5.xml

data/canonical/input/test3.6.xml

data/canonical/input/world.txt

data/canonical/output

data/canonical/output/commentbeforeroot.xml.out

data/canonical/output/emptyelement.xml.out

data/canonical/output/escapeattributevalue.xml.out

data/canonical/output/rootelementindefaultnamespace.xml.out

data/canonical/output/specialcharactersinattributevalue.xml.out

data/canonical/output/spectest1.xml.out

data/canonical/output/test3.3.xml.out

data/canonical/output/test3.4.xml.out

data/canonical/output/test3.5.xml.out

data/canonical/output/test3.6.xml.out

data/canonical/wocommentsoutput

data/canonical/wocommentsoutput/commentbeforeroot.xml.out

data/canonical/wocommentsoutput/emptyelement.xml.out

data/canonical/wocommentsoutput/escapeattributevalue.xml.out

data/canonical/wocommentsoutput/rootelementindefaultnamespace.xml.out

data/canonical/wocommentsoutput/specialcharactersinattributevalue.xml.out

data/canonical/wocommentsoutput/spectest1.xml.out

data/canonical/wocommentsoutput/test3.3.xml.out

data/canonical/wocommentsoutput/test3.4.xml.out

data/canonical/wocommentsoutput/test3.5.xml.out

data/canonical/wocommentsoutput/test3.6.xml.out

data/comp.xml

data/content.dtd

data/contentindtd.xml

data/data_ISO-8859-2.txt

data/data_ISO-8859-2.xml

data/data_ISO-8859-7.xml

data/data_ISO-8859-8.xml

data/data_UTF-8.xml

data/dtd

data/dtd/xhtml-lat1.ent

data/dtd/xhtml-special.ent

data/dtd/xhtml-symbol.ent

data/dtd/xhtml1-strict.dtd

data/dtd/xhtml1-transitional.dtd

data/dtdtest.xhtml

data/ent21.xml

data/entities

data/entities/external.xml

data/entitytest.xml

data/external.dtd

data/external.xml

data/externalDTDtest.xml

data/fibonacci_ebcdic.txt

data/file name.xml

data/ge.dtd

data/ge.txt

data/ge.xml

data/hoschektest.xml

data/internalandexternaldtdsubsettest.xml

data/internaldtdsubsettest.xml

data/namespacetest.xsl

data/nfctest.xml

data/nfctests.xml

data/outer21.xml

data/pe.dtd

data/pe.txt

data/pe.xml

data/prettytest.xml

data/prettyxml.xml

data/rddltest.html

data/schematest.xml

data/schematest.xsd

data/simplehoschektest.xml

data/soapresponse.xml

data/test.xml

data/test_ebcdic.xml

data/undeclare.xml

data/xinclude

data/xinclude/debug

data/xinclude/input

data/xinclude/input/EBCDIC.xml

data/xinclude/input/UCS4BE.xml

data/xinclude/input/UCS4LE.xml

data/xinclude/input/UTF16BigEndianWithByteOrderMark.xml

data/xinclude/input/UTF16LittleEndianWithByteOrderMark.xml

data/xinclude/input/UTF32BE.xml

data/xinclude/input/UTF32LE.xml

data/xinclude/input/UTF8WithByteOrderMark.xml

data/xinclude/input/UnicodeBigUnmarked.xml

data/xinclude/input/UnicodeLittleUnmarked.xml

data/xinclude/input/_0123456789.txt

data/xinclude/input/_ABCDEFGHIJKLMNOPQRSTUVWXYZ.txt

data/xinclude/input/a

data/xinclude/input/a/a.xml

data/xinclude/input/abcdefghijklmnopqrstuvwxyz.txt

data/xinclude/input/acceptenglish.xml

data/xinclude/input/acceptfrench.xml

data/xinclude/input/accepthtml.xml

data/xinclude/input/acceptplaintext.xml

data/xinclude/input/b

data/xinclude/input/b/b.xml

data/xinclude/input/badelementschemedata.xml

data/xinclude/input/badencoding.xml

data/xinclude/input/badparseattribute.xml

data/xinclude/input/badxptr.xml

data/xinclude/input/badxptr2.xml

data/xinclude/input/badxptr3.xml

data/xinclude/input/badxptr4.xml

data/xinclude/input/basedata

data/xinclude/input/basedata/red.xml

data/xinclude/input/baseinclude.xml

data/xinclude/input/basewithfragmentid.xml

data/xinclude/input/basewithfragmentidchild.xml

data/xinclude/input/bdisclaimer.xml

data/xinclude/input/c1.xml

data/xinclude/input/c2.xml

data/xinclude/input/c3.xml

data/xinclude/input/c5.xml

data/xinclude/input/circle1.xml

data/xinclude/input/circle2a.xml

data/xinclude/input/circle2b.xml

data/xinclude/input/circleback.xml

data/xinclude/input/circlepointer1.xml

data/xinclude/input/circlepointer2.xml

data/xinclude/input/circlepointer3.xml

data/xinclude/input/colonizedschemename.xml

data/xinclude/input/count.txt

data/xinclude/input/d1.xml

data/xinclude/input/data.xml

data/xinclude/input/digitencoding.xml

data/xinclude/input/disclaimer.xml

data/xinclude/input/docwith2id.xml

data/xinclude/input/docwithid.xml

data/xinclude/input/docwithidandtumbler.xml

data/xinclude/input/docwithxmlid.xml

data/xinclude/input/emptyencoding.xml

data/xinclude/input/emptyfallback.xml

data/xinclude/input/encodingheuristicstest.xml

data/xinclude/input/extraattributes.xml

data/xinclude/input/fallbackbadparseattribute.xml

data/xinclude/input/fallbackbadxpointer.xml

data/xinclude/input/fallbackcontainsfallback.xml

data/xinclude/input/fallbackinternalxpointer.xml

data/xinclude/input/fallbacknohreforparse.xml

data/xinclude/input/fallbacktest.xml

data/xinclude/input/fallbacktest2.xml

data/xinclude/input/fallbacktest3.xml

data/xinclude/input/fallbacktotext.xml

data/xinclude/input/fallbackxpointerpointsnowhere.xml

data/xinclude/input/french.xml

data/xinclude/input/french2.xml

data/xinclude/input/hiddenerror.xml

data/xinclude/input/hiddenerror2.xml

data/xinclude/input/hiddenerror3.xml

data/xinclude/input/ignoresfragmentid.xml

data/xinclude/input/includedocumentwithintradocumentreferences.xml

data/xinclude/input/includefromsamedocumentwithbase.xml

data/xinclude/input/internalcircular.xml

data/xinclude/input/internalcircularviaancestor.xml

data/xinclude/input/langtest1.xml

data/xinclude/input/langtest2.xml

data/xinclude/input/langtest3.xml

data/xinclude/input/laterfailure.xml

data/xinclude/input/laterfailure2.xml

data/xinclude/input/latin1.xml

data/xinclude/input/legalcircle.xml

data/xinclude/input/lineends.txt

data/xinclude/input/lineends.xml

data/xinclude/input/lowercasealphabet.xml

data/xinclude/input/lowerpunctuation.xml

data/xinclude/input/marshtest.xml

data/xinclude/input/marshtestwithxmlbase.xml

data/xinclude/input/marshtestwithxmlbaseandemptyhref.xml

data/xinclude/input/meaninglessfragmentid.xml

data/xinclude/input/metafallbacktest.xml

data/xinclude/input/metafallbacktest2.xml

data/xinclude/input/metafallbacktest3.xml

data/xinclude/input/metafallbacktest4.xml

data/xinclude/input/metafallbacktest5.xml

data/xinclude/input/metafallbacktest6.xml

data/xinclude/input/metafallbacktestwithfragmentid.xml

data/xinclude/input/metafallbacktestwithxpointer.xml

data/xinclude/input/metafallbacktestwithxpointer2.xml

data/xinclude/input/metafallbacktotexttest.xml

data/xinclude/input/metafallbackwithbadxpointertest.xml

data/xinclude/input/metamissingfallbacktestwithxpointer.xml

data/xinclude/input/middlepunctuationerror.xml

data/xinclude/input/missingfile.xml

data/xinclude/input/missinghref.xml

data/xinclude/input/multiplefallbacks.xml

data/xinclude/input/multiplefallbacks2.xml

data/xinclude/input/nakedfallback.xml

data/xinclude/input/namespaceinner.xml

data/xinclude/input/namespacetest.xml

data/xinclude/input/nestedxinclude.xml

data/xinclude/input/nestedxincludenamespace.xml

data/xinclude/input/nofallbacktest.xml

data/xinclude/input/nolang.xml

data/xinclude/input/numeric.xml

data/xinclude/input/onedown.xml

data/xinclude/input/onlyxpointer.xml

data/xinclude/input/paralleltest.xml

data/xinclude/input/parseequalxml.xml

data/xinclude/input/punctuation.xml

data/xinclude/input/recursewithinsamedocument.xml

data/xinclude/input/red.dtd

data/xinclude/input/relative.xml

data/xinclude/input/resolvethruxpointer.xml

data/xinclude/input/rootfailuretest.xml

data/xinclude/input/roottest.xml

data/xinclude/input/roottest2.xml

data/xinclude/input/simple.xml

data/xinclude/input/simple2.xml

data/xinclude/input/test.xml

data/xinclude/input/test0.xml

data/xinclude/input/test2.xml

data/xinclude/input/test3.xml

data/xinclude/input/text

data/xinclude/input/text/.AppleFileInfo

data/xinclude/input/text/.AppleFileInfo/UnicodeBigUnmarked.xml..RF

data/xinclude/input/text/.AppleFileInfo/UnicodeLittleUnmarked.xml..RF

data/xinclude/input/text/EBCDIC.xml

data/xinclude/input/text/UTF32BE.xml

data/xinclude/input/text/UTF32LE.xml

data/xinclude/input/text/UTF8.xml

data/xinclude/input/text/UnicodeBigUnmarked.xml

data/xinclude/input/text/UnicodeLittleUnmarked.xml

data/xinclude/input/tobinbottom.xml

data/xinclude/input/tobinmiddle.xml

data/xinclude/input/tobintop.xml

data/xinclude/input/toplevel.xml

data/xinclude/input/ucs4bigendian.xml

data/xinclude/input/ucs4littleendian.xml

data/xinclude/input/unrecognizedscheme.xml

data/xinclude/input/unrecognizedschemewithfallback.xml

data/xinclude/input/uppercase.txt

data/xinclude/input/uppercasealphabet.xml

data/xinclude/input/utf16.txt

data/xinclude/input/utf16.xml

data/xinclude/input/utf16be.txt

data/xinclude/input/utf16be.xml

data/xinclude/input/utf16le.xml

data/xinclude/input/utf8.xml

data/xinclude/input/utf8bom.xml

data/xinclude/input/xmlbasetest.xml

data/xinclude/input/xmlbasetest2.xml

data/xinclude/input/xmlbasetest3.xml

data/xinclude/input/xmlidtest.xml

data/xinclude/input/xpointeroverridesfragmentid.xml

data/xinclude/input/xpointerselectsnonelements.xml

data/xinclude/input/xpointerwithpercentescape.xml

data/xinclude/input/xptr2tumblertest.xml

data/xinclude/input/xptrdoublechildsequence.xml

data/xinclude/input/xptrdoubleelementtest.xml

data/xinclude/input/xptrdoubletumblertest.xml

data/xinclude/input/xptrfallback.xml

data/xinclude/input/xptridandtumblertest.xml

data/xinclude/input/xptridtest.xml

data/xinclude/input/xptridtest2.xml

data/xinclude/input/xptrsyntaxerrorbutfallback.xml

data/xinclude/input/xptrtumblerfailsbutfallback.xml

data/xinclude/input/xptrtumblertest.xml

data/xinclude/input/xptrtumblertest2.xml

data/xinclude/input/xptrtumblertest3.xml

data/xinclude/output

data/xinclude/output/EBCDIC.xml

data/xinclude/output/UTF16BigEndianWithByteOrderMark.xml

data/xinclude/output/UTF16LittleEndianWithByteOrderMark.xml

data/xinclude/output/UTF32BE.xml

data/xinclude/output/UTF32LE.xml

data/xinclude/output/UTF8WithByteOrderMark.xml

data/xinclude/output/UnicodeBigUnmarked.xml

data/xinclude/output/UnicodeLittleUnmarked.xml

data/xinclude/output/acceptascii.xml

data/xinclude/output/acceptenglish.xml

data/xinclude/output/acceptfrench.xml

data/xinclude/output/accepthtml.xml

data/xinclude/output/acceptjis.xml

data/xinclude/output/acceptplaintext.xml

data/xinclude/output/badelementschemedata.xml

data/xinclude/output/basewithfragmentid.xml

data/xinclude/output/c1.xml

data/xinclude/output/c1a.xml

data/xinclude/output/c1b.xml

data/xinclude/output/c2.xml

data/xinclude/output/c2a.xml

data/xinclude/output/c2b.xml

data/xinclude/output/c2c.xml

data/xinclude/output/c2d.xml

data/xinclude/output/c3.xml

data/xinclude/output/c5.xml

data/xinclude/output/d1.xml

data/xinclude/output/disclaimer.xml

data/xinclude/output/emptyfallback.xml

data/xinclude/output/encodingheuristicstest.xml

data/xinclude/output/fallbacktest.xml

data/xinclude/output/fallbacktest2.xml

data/xinclude/output/ignoresfragmentid.xml

data/xinclude/output/includedocumentwithintradocumentreferences.xml

data/xinclude/output/includefromsamedocumentwithbase.xml

data/xinclude/output/langtest1.xml

data/xinclude/output/langtest2.xml

data/xinclude/output/langtest3.xml

data/xinclude/output/latin1.xml

data/xinclude/output/legalcircle.xml

data/xinclude/output/lineends.xml

data/xinclude/output/lowercasealphabet.xml

data/xinclude/output/lowerpunctuation.xml

data/xinclude/output/marshtest.xml

data/xinclude/output/marshtestwithxmlbase.xml

data/xinclude/output/metafallbacktest.xml

data/xinclude/output/metafallbacktest2.xml

data/xinclude/output/metafallbacktest5.xml

data/xinclude/output/metafallbacktest6.xml

data/xinclude/output/metafallbacktestwithxpointer.xml

data/xinclude/output/metafallbacktestwithxpointer2.xml

data/xinclude/output/metafallbacktotexttest.xml

data/xinclude/output/middlepunctuation.xml

data/xinclude/output/namespacetest.xml

data/xinclude/output/numeric.xml

data/xinclude/output/onlyxpointer.xml

data/xinclude/output/paralleltest.xml

data/xinclude/output/punctuation.xml

data/xinclude/output/recursewithinsamedocument.xml

data/xinclude/output/relative.xml

data/xinclude/output/resolvethruxpointer.xml

data/xinclude/output/roottest.xml

data/xinclude/output/roottest2.xml

data/xinclude/output/simple.xml

data/xinclude/output/test.xml

data/xinclude/output/tobintop.xml

data/xinclude/output/triple.xml

data/xinclude/output/unrecognizedschemewithfallback.xml

data/xinclude/output/uppercasealphabet.xml

data/xinclude/output/utf16.txt

data/xinclude/output/utf16.xml

data/xinclude/output/xmlbasetest.xml

data/xinclude/output/xmlbasetest2.xml

data/xinclude/output/xmlbasetest3.xml

data/xinclude/output/xmlidtest.xml

data/xinclude/output/xpointeroverridesfragmentid.xml

data/xinclude/output/xptrdandtumblertest.xml

data/xinclude/output/xptrdoubleelementtest.xml

data/xinclude/output/xptrfallback.xml

data/xinclude/output/xptridandtumblertest.xml

data/xinclude/output/xptridtest.xml

data/xinclude/output/xptridtest2.xml

data/xinclude/output/xptrtumblertest.xml

data/xmlbasetest.xml

data/xmlid

data/xmlid/catalog.xml

data/xmlid/tests

data/xmlid/tests/001_normalize.xml

data/xmlid/tests/002_undecl.xml

data/xmlid/tests/003_dtd.xml

data/xmlid/tests/004_schema.xml

data/xmlid/tests/005_errdtdbad.xml

data/xmlid/tests/005_errdup.xml

data/xmlid/tests/006_errschemabad.xml

data/xmlid/tests/007_errdup.xml

data/xmlid/tests/008_ok10.xml

data/xmlid/tests/009_ok11.xml

data/xmlid/tests/010_okxref.xml

data/xmlid/tests/011_oknormalize.xml

data/xmlid/tests/badschema.xsd

data/xmlid/tests/badxml.xsd

data/xmlid/tests/schema.xsd

data/xmlid/tests/xml.xsd

data/xmlspacetest.xml

data/xslt

data/xslt/debug

data/xslt/debug/8-12.xml

data/xslt/debug/8-15.xml

data/xslt/debug/8-8.xml

data/xslt/input

data/xslt/input/8-1.xml

data/xslt/input/8-10.xsl

data/xslt/input/8-12.xsl

data/xslt/input/8-14.xml

data/xslt/input/8-15.xsl

data/xslt/input/8-2.xsl

data/xslt/input/8-4.xsl

data/xslt/input/8-5.xsl

data/xslt/input/8-6.xsl

data/xslt/input/8-7.xsl

data/xslt/input/8-8.xsl

data/xslt/input/commentwithparent.xsl

data/xslt/input/fragment.xsl

data/xslt/input/id_transform.xsl

data/xslt/input/identity.xsl

data/xslt/input/illegaltransform.xsl

data/xslt/input/namespaceparamtest.xsl

data/xslt/input/paramtest.xsl

data/xslt/input/piwithparent.xsl

data/xslt/input/singlestring.xsl

data/xslt/input/textmethod.xsl

data/xslt/output

data/xslt/output/8-12.xml

data/xslt/output/8-15.xml

data/xslt/output/8-8.xml

data/xslt/output/8-8c.xml

data/xtest.xml

data/{file}.xml

fatsrc

fatsrc/nu

fatsrc/nu/xom

fatsrc/nu/xom/Text.java

lgpl.txt

lib/LICENSE-DOM.html

lib/LICENSE-Jaxen.txt

lib/LICENSE-SAX.html

lib/XalanLicense.txt

lib/XercesLicense.txt

lib/junit_license.html

overview.html

project.xml

src/nu

src/nu/xom

src/nu/xom/ASCIIWriter.java

src/nu/xom/Attribute.java

src/nu/xom/Builder.java

src/nu/xom/CDATASection.java

src/nu/xom/Comment.java

src/nu/xom/CycleException.java

src/nu/xom/DocType.java

src/nu/xom/Document.java

src/nu/xom/DocumentFragment.java

src/nu/xom/EBCDICWriter.java

src/nu/xom/Element.java

src/nu/xom/Elements.java

src/nu/xom/GenericWriter.java

src/nu/xom/ISOArabicWriter.java

src/nu/xom/ISOCyrillicWriter.java

src/nu/xom/ISOGreekWriter.java

src/nu/xom/ISOHebrewWriter.java

src/nu/xom/ISOThaiWriter.java

src/nu/xom/IllegalAddException.java

src/nu/xom/IllegalCharacterDataException.java

src/nu/xom/IllegalDataException.java

src/nu/xom/IllegalNameException.java

src/nu/xom/IllegalTargetException.java

src/nu/xom/Info.java

src/nu/xom/JaxenConnector.java

src/nu/xom/JaxenNavigator.java

src/nu/xom/Latin10Writer.java

src/nu/xom/Latin1Writer.java

src/nu/xom/Latin2Writer.java

src/nu/xom/Latin3Writer.java

src/nu/xom/Latin4Writer.java

src/nu/xom/Latin5Writer.java

src/nu/xom/Latin6Writer.java

src/nu/xom/Latin7Writer.java

src/nu/xom/Latin8Writer.java

src/nu/xom/Latin9Writer.java

src/nu/xom/MalformedURIException.java

src/nu/xom/MultipleParentException.java

src/nu/xom/Namespace.java

src/nu/xom/NamespaceConflictException.java

src/nu/xom/Namespaces.java

src/nu/xom/NoSuchAttributeException.java

src/nu/xom/NoSuchChildException.java

src/nu/xom/Node.java

src/nu/xom/NodeFactory.java

src/nu/xom/Nodes.java

src/nu/xom/NonVerifyingHandler.java

src/nu/xom/ParentNode.java

src/nu/xom/ParsingException.java

src/nu/xom/ProcessingInstruction.java

src/nu/xom/Serializer.java

src/nu/xom/Text.java

src/nu/xom/TextWriter.java

src/nu/xom/TextWriterFactory.java

src/nu/xom/UCSWriter.java

src/nu/xom/URIUtil.java

src/nu/xom/UnavailableCharacterException.java

src/nu/xom/UnicodeUtil.java

src/nu/xom/UnicodeWriter.java

src/nu/xom/UnsynchronizedBufferedWriter.java

src/nu/xom/ValidityException.java

src/nu/xom/Verifier.java

src/nu/xom/WellformednessException.java

src/nu/xom/XML1_0Parser.java

src/nu/xom/XMLException.java

src/nu/xom/XOMHandler.java

src/nu/xom/XPathContext.java

src/nu/xom/XPathException.java

src/nu/xom/XPathTypeException.java

src/nu/xom/benchmarks

src/nu/xom/benchmarks/BigText.java

src/nu/xom/benchmarks/DOMConverterBench.java

src/nu/xom/benchmarks/DocumentModifier.java

src/nu/xom/benchmarks/ElementCopyBench.java

src/nu/xom/benchmarks/FastReproducer.java

src/nu/xom/benchmarks/MemoryTest.java

src/nu/xom/benchmarks/Reproducer.java

src/nu/xom/benchmarks/ToXMLBench.java

src/nu/xom/benchmarks/TreeWalker.java

src/nu/xom/benchmarks/package.html

src/nu/xom/canonical

src/nu/xom/canonical/CanonicalizationException.java

src/nu/xom/canonical/Canonicalizer.java

src/nu/xom/canonical/package.html

src/nu/xom/characters.dat

src/nu/xom/compositions.dat

src/nu/xom/converters

src/nu/xom/converters/DOMConverter.java

src/nu/xom/converters/SAXConverter.java

src/nu/xom/converters/package.html

src/nu/xom/doc-files

src/nu/xom/doc-files/xom.png

src/nu/xom/package.html

src/nu/xom/samples

src/nu/xom/samples/Account.java

src/nu/xom/samples/Agency.java

src/nu/xom/samples/AttributesToElements.java

src/nu/xom/samples/AttributesXMLBudget.java

src/nu/xom/samples/Budget.java

src/nu/xom/samples/BudgetData.java

src/nu/xom/samples/Bureau.java

src/nu/xom/samples/CanonicalizerDriver.java

src/nu/xom/samples/CommentReader.java

src/nu/xom/samples/CrimsonPrinter.java

src/nu/xom/samples/DTDGenerator.java

src/nu/xom/samples/DatabaseBuilder.java

src/nu/xom/samples/DatabaseConverter.java

src/nu/xom/samples/DocumentMerger.java

src/nu/xom/samples/EZSerializer.java

src/nu/xom/samples/ElementLister.java

src/nu/xom/samples/EncodingDemo.java

src/nu/xom/samples/ExampleExtractor.java

src/nu/xom/samples/ExampleLister.java

src/nu/xom/samples/FibonacciAttributes.java

src/nu/xom/samples/FibonacciEBCDIC.java

src/nu/xom/samples/FibonacciFile.java

src/nu/xom/samples/FibonacciLatin1.java

src/nu/xom/samples/FibonacciSOAPClient.java

src/nu/xom/samples/FibonacciServlet.java

src/nu/xom/samples/FibonacciXML.java

src/nu/xom/samples/FibonacciXMLRPCClient.java

src/nu/xom/samples/FibonacciXOMSOAPServlet.java

src/nu/xom/samples/FibonacciXOMXMLRPCServlet.java

src/nu/xom/samples/FilterDriver.java

src/nu/xom/samples/FlatXMLBudget.java

src/nu/xom/samples/HelloNamespaces.java

src/nu/xom/samples/HelloWorld.java

src/nu/xom/samples/HelloXMLBase.java

src/nu/xom/samples/HierarchicalXMLBudget.java

src/nu/xom/samples/IDFilter.java

src/nu/xom/samples/IDTagger.java

src/nu/xom/samples/Linkset.java

src/nu/xom/samples/MathMLFibonacci.java

src/nu/xom/samples/MinimalNodeFactory.java

src/nu/xom/samples/NodeLister.java

src/nu/xom/samples/NonRecursiveSerializer.java

src/nu/xom/samples/NormalizingFactory.java

src/nu/xom/samples/PoliteSpider.java

src/nu/xom/samples/PrettyFibonacci.java

src/nu/xom/samples/PrettyPrinter.java

src/nu/xom/samples/ProcessingInstructionLister.java

src/nu/xom/samples/PropertyPrinter.java

src/nu/xom/samples/PseudoAttributes.java

src/nu/xom/samples/PureValidator.java

src/nu/xom/samples/RDDLFilter.java

src/nu/xom/samples/RDDLStripper.java

src/nu/xom/samples/RDDLToTable.java

src/nu/xom/samples/ROT13File.java

src/nu/xom/samples/ROT13XML.java

src/nu/xom/samples/RSSHeadlines.java

src/nu/xom/samples/ResourceToTable.java

src/nu/xom/samples/Restructurer.java

src/nu/xom/samples/SQLToXML.java

src/nu/xom/samples/SchemaValidator.java

src/nu/xom/samples/SimpleSVG.java

src/nu/xom/samples/SourceCodeGenerator.java

src/nu/xom/samples/SourceCodeSerializer.java

src/nu/xom/samples/StreamingCommentReader.java

src/nu/xom/samples/StreamingElementLister.java

src/nu/xom/samples/StreamingExampleExtractor.java

src/nu/xom/samples/StreamingNodeLister.java

src/nu/xom/samples/StreamingProcessingInstructionLister.java

src/nu/xom/samples/StreamingROT13.java

src/nu/xom/samples/StreamingTextExtractor.java

src/nu/xom/samples/StreamingTreeReporter.java

src/nu/xom/samples/StreamingTypeCounter.java

src/nu/xom/samples/StreamingXHTMLPurifier.java

src/nu/xom/samples/StreamingXHTMLQualifier.java

src/nu/xom/samples/Subfunction.java

src/nu/xom/samples/TextExtractor.java

src/nu/xom/samples/TextMerger.java

src/nu/xom/samples/TextSerializer.java

src/nu/xom/samples/Transformer.java

src/nu/xom/samples/TreePrinter.java

src/nu/xom/samples/TreeReporter.java

src/nu/xom/samples/TreeViewer.java

src/nu/xom/samples/ValidFibonacci.java

src/nu/xom/samples/Validator.java

src/nu/xom/samples/WrappingSerializer.java

src/nu/xom/samples/XHTMLPurifier.java

src/nu/xom/samples/XHTMLQualifier.java

src/nu/xom/samples/XHTMLValidator.java

src/nu/xom/samples/XIncludeDriver.java

src/nu/xom/samples/XLinkSpider.java

src/nu/xom/samples/XMLPrinter.java

src/nu/xom/samples/XOMChecker.java

src/nu/xom/samples/XPathDriver.java

src/nu/xom/samples/XPathHeadlines.java

src/nu/xom/samples/package.html

src/nu/xom/tests

src/nu/xom/tests/AttributeTest.java

src/nu/xom/tests/AttributeTypeTest.java

src/nu/xom/tests/AttributesTest.java

src/nu/xom/tests/BaseURITest.java

src/nu/xom/tests/BuilderTest.java

src/nu/xom/tests/CDATASectionTest.java

src/nu/xom/tests/CanonicalizationExceptionTest.java

src/nu/xom/tests/CanonicalizerTest.java

src/nu/xom/tests/CommentTest.java

src/nu/xom/tests/DOMConverterTest.java

src/nu/xom/tests/DocTypeTest.java

src/nu/xom/tests/DocumentTest.java

src/nu/xom/tests/EBCDICTest.java

src/nu/xom/tests/ElementTest.java

src/nu/xom/tests/EncodingTest.java

src/nu/xom/tests/FastTests.java

src/nu/xom/tests/IDTest.java

src/nu/xom/tests/InfoTest.java

src/nu/xom/tests/LeafNodeTest.java

src/nu/xom/tests/MegaTest.java

src/nu/xom/tests/NamespaceNodeTest.java

src/nu/xom/tests/NamespacesTest.java

src/nu/xom/tests/NodeFactoryTest.java

src/nu/xom/tests/NodesTest.java

src/nu/xom/tests/ParentNodeTest.java

src/nu/xom/tests/ParsingExceptionTest.java

src/nu/xom/tests/ProcessingInstructionTest.java

src/nu/xom/tests/RoundTripTest.java

src/nu/xom/tests/SAXConverterTest.java

src/nu/xom/tests/SerializerTest.java

src/nu/xom/tests/SubclassTest.java

src/nu/xom/tests/TextTest.java

src/nu/xom/tests/ValidityExceptionTest.java

src/nu/xom/tests/VerifierTest.java

src/nu/xom/tests/XIncludeExceptionTest.java

src/nu/xom/tests/XIncludeTest.java

src/nu/xom/tests/XMLExceptionTest.java

src/nu/xom/tests/XMLWriter.java

src/nu/xom/tests/XOMTestCase.java

src/nu/xom/tests/XOMTestCaseTest.java

src/nu/xom/tests/XOMTests.java

src/nu/xom/tests/XPathExceptionTest.java

src/nu/xom/tests/XPathTest.java

src/nu/xom/tests/XSLExceptionTest.java

src/nu/xom/tests/XSLTransformTest.java

src/nu/xom/tests/package.html

src/nu/xom/tools

src/nu/xom/tools/XHTMLJavaDoc.java

src/nu/xom/tools/package.html

src/nu/xom/xinclude

src/nu/xom/xinclude/BadEncodingAttributeException.java

src/nu/xom/xinclude/BadHTTPHeaderException.java

src/nu/xom/xinclude/BadHrefAttributeException.java

src/nu/xom/xinclude/BadParseAttributeException.java

src/nu/xom/xinclude/EncodingHeuristics.java

src/nu/xom/xinclude/InclusionLoopException.java

src/nu/xom/xinclude/MisplacedFallbackException.java

src/nu/xom/xinclude/NoIncludeLocationException.java

src/nu/xom/xinclude/XIncludeException.java

src/nu/xom/xinclude/XIncluder.java

src/nu/xom/xinclude/XPointer.java

src/nu/xom/xinclude/XPointerException.java

src/nu/xom/xinclude/XPointerResourceException.java

src/nu/xom/xinclude/XPointerSyntaxException.java

src/nu/xom/xinclude/package.html

src/nu/xom/xslt

src/nu/xom/xslt/XOMInputSource.java

src/nu/xom/xslt/XOMReader.java

src/nu/xom/xslt/XOMResult.java

src/nu/xom/xslt/XOMSource.java

src/nu/xom/xslt/XSLException.java

src/nu/xom/xslt/XSLTHandler.java

src/nu/xom/xslt/XSLTransform.java

src/nu/xom/xslt/package.html

src15

src15/nu

src15/nu/xom

src15/nu/xom/JDK15XML1_0Parser.java

xom.graffle

Show diffs side-by-side

added added

removed removed

src/nu/xom/xinclude/EncodingHeuristics.java

This library is free software; you can redistribute it and/or modify

it under the terms of version 2.1 of the GNU Lesser General Public

License as published by the Free Software Foundation.

This library is distributed in the hope that it will be useful,

but WITHOUT ANY WARRANTY; without even the implied warranty of

MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the

GNU Lesser General Public License for more details.

You should have received a copy of the GNU Lesser General Public

License along with this library; if not, write to the

Free Software Foundation, Inc., 59 Temple Place, Suite 330,

Boston, MA 02111-1307 USA

You can contact Elliotte Rusty Harold by sending e-mail to

elharo@metalab.unc.edu. Please include the word "XOM" in the

subject line. The XOM home page is located at http://www.xom.nu/

package nu.xom.xinclude;

import java.io.IOException;

import java.io.InputStream;

/**

* <p>

* <code>EncodingHeuristics</code> reads from a stream

* (which should be buffered) and attempts to guess

* what the encoding of the text in the stream is.

* Byte order marks are stripped from the stream.

* If it fails to determine the type of the encoding,

* it returns the default UTF-8.

* </p>

* @author Elliotte Rusty Harold

* @version 1.0

class EncodingHeuristics {

// No instances allowed

private EncodingHeuristics() {}

/**

* <p>

* This utility method uses a variety of heuristics to

* attempt to guess the encoding from the initial

* characters.

* </p>

* @param in <code>InputStream</code> to read from.

* @return String The name of the encoding.

* @throws IOException if the stream cannot be reset back

* to where it was when the method was invoked.

public static String readEncodingFromStream(InputStream in)

throws IOException {

// This may fail if there are a lot of space

// characters before the end of the encoding declaration

in.mark(1024);

try {

// Lots of things can go wrong here. If any do,

// return "UTF-8" as the default.

int byte1 = in.read();

int byte2 = in.read();

if (byte1 == 0xFE && byte2 == 0xFF) {

// Don't reset because the byte order mark should not be

// included per section 4.3 of the XInclude spec

return "UnicodeBig";

}

else if (byte1 == 0xFF && byte2 == 0xFE) {

// Don't reset because the byte order mark should not be

// included per section 4.3 of the XInclude spec

return "UnicodeLittle";

}

/* In accordance with the Character Model,

when the text format is a Unicode encoding, the XInclude

processor must fail the inclusion when the text in the

selected range is non-normalized. When transcoding

characters to a Unicode encoding from a legacy encoding,

a normalizing transcoder must be used. */

int byte3 = in.read();

// check for UTF-8 byte order mark

if (byte1 == 0xEF && byte2 == 0xBB && byte3 == 0xBF) {

// Don't reset because the byte order mark should not be

// included per section 4.3 of the XInclude spec

return "UTF-8";

}

int byte4 = in.read();

if (byte1 == 0x00

&& byte2 == 0x00 && byte3 == 0xFE && byte4 == 0xFF) {

100

// Don't reset because the byte order mark should not be

101

// included per section 4.3 of the XInclude spec

102

// Most Java VMs don't support this next one

103

return "UTF32BE";

104

}

105

else if (byte1 == 0x00 && byte2 == 0x00

106

&& byte3 == 0xFF && byte4 == 0xFE) {

107

// Don't reset because the byte order mark should not be

108

// included per section 4.3 of the XInclude spec

109

// Most Java VMs don't support this next one

110

return "UTF32LE";

111

}

112

113

// no byte order mark present; first character must be

114

// less than sign or white space

115

// Let's look for less-than signs first

116

if (byte1 == 0x00 && byte2 == 0x00

117

&& byte3 == 0x00 && byte4 == '<') {

118

in.reset();

119

return "UTF32BE";

120

}

121

else if (byte1 == '<' && byte2 == 0x00

122

&& byte3 == 0x00 && byte4 == 0x00) {

123

in.reset();

124

return "UTF32LE";

125

}

126

else if (byte1 == 0x00 && byte2 == '<'

127

&& byte3 == 0x00 && byte4 == '?') {

128

in.reset();

129

return "UnicodeBigUnmarked";

130

}

131

else if (byte1 == '<' && byte2 == 0x00

132

&& byte3 == '?' && byte4 == 0x00) {

133

in.reset();

134

return "UnicodeLittleUnmarked";

135

}

136

else if (byte1 == '<' && byte2 == '?'

137

&& byte3 == 'x' && byte4 == 'm') {

138

// ASCII compatible, must read encoding declaration.

139

// 1024 bytes will be far enough to read most

140

// XML declarations

141

byte[] data = new byte[1024];

142

data[0] = (byte) byte1;

143

data[1] = (byte) byte2;

144

data[2] = (byte) byte3;

145

data[3] = (byte) byte4;

146

int length = in.read(data, 4, 1020) + 4;

147

// Use Latin-1 (ISO-8859-1) because it's ASCII compatible

148

// and all byte sequences are legal Latin-1 sequences

149

// so I don't have to worry about encoding errors if I

150

// slip past the end of the XML/text declaration

151

String declaration=new String(data, 0, length, "8859_1");

152

// If any of these throw a

153

// StringIndexOutOfBoundsException,

154

// we just fall into the catch block and return null

155

// since this can't be well-formed XML

156

String encoding = findEncodingDeclaration(declaration);

157

in.reset();

158

return encoding;

159

160

}

161

else if (byte1 == 0x4C && byte2 == 0x6F

162

&& byte3 == 0xA7 && byte4 == 0x94) {

163

// EBCDIC compatible, must read encoding declaration

164

byte[] buffer = new byte[1016];

165

for (int i = 0; i < buffer.length; i++) {

166

int c = in.read();

167

if (c == -1) break;

168

buffer[i] = (byte) c;

169

}

170

in.reset();

171

// Most EBCDIC encodings are compatible with Cp037 over

172

// the range we care about

173

return findEncodingDeclaration(new String(buffer, "Cp037"));

174

}

175

176

}

177

catch (Exception ex) {

178

in.reset();

179

return "UTF-8";

180

}

181

182

// no XML or text declaration present

183

in.reset();

184

return "UTF-8";

185

186

}

187

188

189

private static String findEncodingDeclaration(String declaration)

190

throws IOException {

191

192

int position = declaration.indexOf("encoding") + 8;

193

char c;

194

// get rid of white space before equals sign

195

while (true) {

196

c = declaration.charAt(position++);

197

if (c !=' ' && c != '\t' && c != '\r' && c != '\n') {

198

break;

199

}

200

}

201

if (c != '=') { // malformed

202

throw new IOException("Couldn't determine encoding");

203

}

204

// get rid of white space after equals sign

205

while (true) {

206

c = declaration.charAt(position++);

207

if (c !=' ' && c != '\t' && c != '\r' && c != '\n') {

208

break;

209

}

210

}

211

char delimiter = c;

212

if (delimiter != '\'' && delimiter != '"') { // malformed

213

return "UTF-8";

214

}

215

// now positioned to read encoding name

216

StringBuffer encodingName = new StringBuffer();

217

while (true) {

218

c = declaration.charAt(position++);

219

if (c == delimiter) break;

220

encodingName.append(c);

221

}

222

return encodingName.toString();

223

224

}

225

226

}

b'\\ No newline at end of file'

Older »