~openerp-dev/openobject-server/trunk-bug-712254-ysa

« back to all changes in this revision

Viewing changes to bin/reportlab/lib/rparsexml.py

Committer: pinky
Date: 2006-12-07 13:41:40 UTC
Revision ID: pinky-3f10ee12cea3c4c75cef44ab04ad33ef47432907

New trunk

files added:

MANIFEST.in

bin/PKG-INFO

bin/__init__.py

bin/addons

bin/addons/__init__.py

bin/addons/base

bin/addons/base/__init__.py

bin/addons/base/__terp__.py

bin/addons/base/base.sql

bin/addons/base/base_data.xml

bin/addons/base/base_demo.xml

bin/addons/base/base_menu.xml

bin/addons/base/base_update.xml

bin/addons/base/ir

bin/addons/base/ir/__init__.py

bin/addons/base/ir/ir.xml

bin/addons/base/ir/ir_actions.py

bin/addons/base/ir/ir_attachment.py

bin/addons/base/ir/ir_cron.py

bin/addons/base/ir/ir_default.py

bin/addons/base/ir/ir_exports.py

bin/addons/base/ir/ir_fields_description.py

bin/addons/base/ir/ir_model.py

bin/addons/base/ir/ir_report_custom.py

bin/addons/base/ir/ir_sequence.py

bin/addons/base/ir/ir_translation.py

bin/addons/base/ir/ir_ui_menu.py

bin/addons/base/ir/ir_ui_view.py

bin/addons/base/ir/ir_values.py

bin/addons/base/ir/workflow

bin/addons/base/ir/workflow/__init__.py

bin/addons/base/ir/workflow/instance_print.py

bin/addons/base/ir/workflow/print_instance.py

bin/addons/base/ir/workflow/pydot

bin/addons/base/ir/workflow/pydot/LICENSE

bin/addons/base/ir/workflow/pydot/PKG-INFO

bin/addons/base/ir/workflow/pydot/README

bin/addons/base/ir/workflow/pydot/__init__.py

bin/addons/base/ir/workflow/pydot/dot_parser.py

bin/addons/base/ir/workflow/pydot/pydot.py

bin/addons/base/ir/workflow/pydot/setup.py

bin/addons/base/ir/workflow/workflow.py

bin/addons/base/ir/workflow/workflow_print.py

bin/addons/base/ir/workflow/workflow_view.xml

bin/addons/base/module

bin/addons/base/module/__init__.py

bin/addons/base/module/module.py

bin/addons/base/module/module.py.old

bin/addons/base/module/module_data.xml

bin/addons/base/module/module_report.xml

bin/addons/base/module/module_view.xml

bin/addons/base/module/module_wizard.xml

bin/addons/base/module/report

bin/addons/base/module/report/__init__.py

bin/addons/base/module/report/ir_module_reference.rml

bin/addons/base/module/report/ir_module_reference.sxw

bin/addons/base/module/report/ir_module_reference_print.py

bin/addons/base/module/wizard

bin/addons/base/module/wizard/__init__.py

bin/addons/base/module/wizard/add_new.py

bin/addons/base/module/wizard/wizard_export_lang.py

bin/addons/base/module/wizard/wizard_import_lang.py

bin/addons/base/module/wizard/wizard_install_module.py

bin/addons/base/module/wizard/wizard_module_info_get.py

bin/addons/base/module/wizard/wizard_module_lang_install.py

bin/addons/base/module/wizard/wizard_module_upgrade.py

bin/addons/base/module/wizard/wizard_update_module.py

bin/addons/base/report

bin/addons/base/report/custom.xsl

bin/addons/base/report/custom_default.xsl

bin/addons/base/report/custom_new.xsl

bin/addons/base/report/custom_rml.xsl

bin/addons/base/report/rml_template.xsl

bin/addons/base/res

bin/addons/base/res/__init__.py

bin/addons/base/res/ir_property.py

bin/addons/base/res/ir_property_view.xml

bin/addons/base/res/partner

bin/addons/base/res/partner/__init__.py

bin/addons/base/res/partner/crm.py

bin/addons/base/res/partner/crm_demo.xml

bin/addons/base/res/partner/crm_view.xml

bin/addons/base/res/partner/partner.py

bin/addons/base/res/partner/partner_data.xml

bin/addons/base/res/partner/partner_demo.xml

bin/addons/base/res/partner/partner_report.xml

bin/addons/base/res/partner/partner_view.xml

bin/addons/base/res/partner/partner_wizard.xml

bin/addons/base/res/partner/report

bin/addons/base/res/partner/report/__init__.py

bin/addons/base/res/partner/report/business_card.xml

bin/addons/base/res/partner/report/business_card.xsl

bin/addons/base/res/partner/report/partner_address.xml

bin/addons/base/res/partner/report/partner_address.xsl

bin/addons/base/res/partner/wizard

bin/addons/base/res/partner/wizard/__init__.py

bin/addons/base/res/partner/wizard/wizard_clear_ids.py

bin/addons/base/res/partner/wizard/wizard_ean_check.py

bin/addons/base/res/partner/wizard/wizard_sms.py

bin/addons/base/res/partner/wizard/wizard_spam.py

bin/addons/base/res/res_company.py

bin/addons/base/res/res_currency.py

bin/addons/base/res/res_currency_view.xml

bin/addons/base/res/res_request.py

bin/addons/base/res/res_request_view.xml

bin/addons/base/res/res_user.py

bin/addons/gen_graph.sh

bin/addons/module_graph.py

bin/gpl.txt

bin/i18n

bin/i18n/VERSION

bin/i18n/cs_CZ.csv

bin/i18n/de_DE.csv

bin/i18n/es_AR.csv

bin/i18n/es_ES.csv

bin/i18n/fr_CH.csv

bin/i18n/fr_FR.csv

bin/i18n/hu_HU.csv

bin/i18n/it_IT.csv

bin/i18n/nl_NL.csv

bin/i18n/pt_BR.csv

bin/i18n/pt_PT.csv

bin/i18n/ro_RO.csv

bin/i18n/ru_RU.csv

bin/i18n/sv_SE.csv

bin/i18n/zh_CN.csv

bin/i18n/zh_TW.csv

bin/ir

bin/ir/__init__.py

bin/ir/ir.py

bin/netsvc.py

bin/osv

bin/osv/__init__.py

bin/osv/fields.py

bin/osv/orm.py

bin/osv/osv.py

bin/pooler.py

bin/pychart

bin/pychart/__init__.py

bin/pychart/afm

bin/pychart/afm/AvantGarde_Book.py

bin/pychart/afm/AvantGarde_BookOblique.py

bin/pychart/afm/AvantGarde_Demi.py

bin/pychart/afm/AvantGarde_DemiOblique.py

bin/pychart/afm/Bookman_Demi.py

bin/pychart/afm/Bookman_DemiItalic.py

bin/pychart/afm/Bookman_Light.py

bin/pychart/afm/Bookman_LightItalic.py

bin/pychart/afm/Courier.py

bin/pychart/afm/Courier_Bold.py

bin/pychart/afm/Courier_BoldOblique.py

bin/pychart/afm/Courier_Oblique.py

bin/pychart/afm/Helvetica.py

bin/pychart/afm/Helvetica_Bold.py

bin/pychart/afm/Helvetica_BoldOblique.py

bin/pychart/afm/Helvetica_Light.py

bin/pychart/afm/Helvetica_LightOblique.py

bin/pychart/afm/Helvetica_Narrow.py

bin/pychart/afm/Helvetica_Narrow_Bold.py

bin/pychart/afm/Helvetica_Narrow_BoldOblique.py

bin/pychart/afm/Helvetica_Narrow_Oblique.py

bin/pychart/afm/Helvetica_Oblique.py

bin/pychart/afm/NewCenturySchlbk_Bold.py

bin/pychart/afm/NewCenturySchlbk_BoldItalic.py

bin/pychart/afm/NewCenturySchlbk_Italic.py

bin/pychart/afm/NewCenturySchlbk_Roman.py

bin/pychart/afm/Palatino_Bold.py

bin/pychart/afm/Palatino_BoldItalic.py

bin/pychart/afm/Palatino_Italic.py

bin/pychart/afm/Palatino_Roman.py

bin/pychart/afm/Symbol.py

bin/pychart/afm/Times_Bold.py

bin/pychart/afm/Times_BoldItalic.py

bin/pychart/afm/Times_Italic.py

bin/pychart/afm/Times_Roman.py

bin/pychart/afm/Utopia_Bold.py

bin/pychart/afm/Utopia_BoldItalic.py

bin/pychart/afm/Utopia_Italic.py

bin/pychart/afm/Utopia_Regular.py

bin/pychart/afm/ZapfChancery_MediumItalic.py

bin/pychart/afm/ZapfDingbats.py

bin/pychart/afm/__init__.py

bin/pychart/afm/dir.py

bin/pychart/area.py

bin/pychart/area_doc.py

bin/pychart/arrow.py

bin/pychart/arrow_doc.py

bin/pychart/axis.py

bin/pychart/axis_doc.py

bin/pychart/axis_x_doc.py

bin/pychart/axis_y_doc.py

bin/pychart/bar_plot.py

bin/pychart/bar_plot_doc.py

bin/pychart/basecanvas.py

bin/pychart/canvas.py

bin/pychart/category_coord.py

bin/pychart/chart_data.py

bin/pychart/chart_object.py

bin/pychart/color.py

bin/pychart/color_doc.py

bin/pychart/coord.py

bin/pychart/doc_support.py

bin/pychart/empty_docs.py

bin/pychart/error_bar.py

bin/pychart/error_bar_doc.py

bin/pychart/fill_style.py

bin/pychart/fill_style_doc.py

bin/pychart/font.py

bin/pychart/generate_docs.py

bin/pychart/gs_frontend.py

bin/pychart/interval_bar_plot.py

bin/pychart/legend.py

bin/pychart/legend_doc.py

bin/pychart/line_plot.py

bin/pychart/line_plot_doc.py

bin/pychart/line_style.py

bin/pychart/line_style_doc.py

bin/pychart/linear_coord.py

bin/pychart/log_coord.py

bin/pychart/object_set.py

bin/pychart/pdfcanvas.py

bin/pychart/pie_plot.py

bin/pychart/pie_plot_doc.py

bin/pychart/pngcanvas.py

bin/pychart/pscanvas.py

bin/pychart/pychart_types.py

bin/pychart/pychart_util.py

bin/pychart/range_plot.py

bin/pychart/range_plot_doc.py

bin/pychart/rose_plot.py

bin/pychart/scaling.py

bin/pychart/svgcanvas.py

bin/pychart/text_box.py

bin/pychart/text_box_doc.py

bin/pychart/theme.py

bin/pychart/tick_mark.py

bin/pychart/tick_mark_doc.py

bin/pychart/typechecker.py

bin/pychart/version.py

bin/pychart/x11canvas.py

bin/pychart/zap.py

bin/report

bin/report/__init__.py

bin/report/common.py

bin/report/custom.py

bin/report/int_to_text.py

bin/report/interface.py

bin/report/misc.py

bin/report/print_fnc.py

bin/report/print_xml.py

bin/report/printscreen

bin/report/printscreen/__init__.py

bin/report/printscreen/ps_form.py

bin/report/printscreen/ps_list.py

bin/report/render

bin/report/render/__init__.py

bin/report/render/render.py

bin/report/render/rml.py

bin/report/render/rml2html

bin/report/render/rml2html/__init__.py

bin/report/render/rml2html/rml2html.py

bin/report/render/rml2html/utils.py

bin/report/render/rml2pdf

bin/report/render/rml2pdf/__init__.py

bin/report/render/rml2pdf/color.py

bin/report/render/rml2pdf/trml2pdf.py

bin/report/render/rml2pdf/utils.py

bin/report/render/simple.py

bin/report/report_sxw.py

bin/reportlab

bin/reportlab/__init__.py

bin/reportlab/extensions

bin/reportlab/extensions/README

bin/reportlab/extensions/__init__.py

bin/reportlab/fonts

bin/reportlab/fonts/00readme.txt

bin/reportlab/fonts/Dustismo_Roman.ttf

bin/reportlab/fonts/PenguinAttack.ttf

bin/reportlab/fonts/Wargames.afm

bin/reportlab/fonts/Wargames.pfb

bin/reportlab/graphics

bin/reportlab/graphics/__init__.py

bin/reportlab/graphics/charts

bin/reportlab/graphics/charts/__init__.py

bin/reportlab/graphics/charts/areas.py

bin/reportlab/graphics/charts/axes.py

bin/reportlab/graphics/charts/barcharts.py

bin/reportlab/graphics/charts/dotbox.py

bin/reportlab/graphics/charts/doughnut.py

bin/reportlab/graphics/charts/legends.py

bin/reportlab/graphics/charts/linecharts.py

bin/reportlab/graphics/charts/lineplots.py

bin/reportlab/graphics/charts/markers.py

bin/reportlab/graphics/charts/piecharts.py

bin/reportlab/graphics/charts/slidebox.py

bin/reportlab/graphics/charts/spider.py

bin/reportlab/graphics/charts/textlabels.py

bin/reportlab/graphics/charts/utils.py

bin/reportlab/graphics/charts/utils3d.py

bin/reportlab/graphics/renderPDF.py

bin/reportlab/graphics/renderPM.py

bin/reportlab/graphics/renderPS.py

bin/reportlab/graphics/renderSVG.py

bin/reportlab/graphics/renderbase.py

bin/reportlab/graphics/samples

bin/reportlab/graphics/samples/__init__.py

bin/reportlab/graphics/samples/bubble.py

bin/reportlab/graphics/samples/clustered_bar.py

bin/reportlab/graphics/samples/clustered_column.py

bin/reportlab/graphics/samples/excelcolors.py

bin/reportlab/graphics/samples/exploded_pie.py

bin/reportlab/graphics/samples/filled_radar.py

bin/reportlab/graphics/samples/line_chart.py

bin/reportlab/graphics/samples/linechart_with_markers.py

bin/reportlab/graphics/samples/radar.py

bin/reportlab/graphics/samples/runall.py

bin/reportlab/graphics/samples/scatter.py

bin/reportlab/graphics/samples/scatter_lines.py

bin/reportlab/graphics/samples/scatter_lines_markers.py

bin/reportlab/graphics/samples/simple_pie.py

bin/reportlab/graphics/samples/stacked_bar.py

bin/reportlab/graphics/samples/stacked_column.py

bin/reportlab/graphics/shapes.py

bin/reportlab/graphics/testdrawings.py

bin/reportlab/graphics/testshapes.py

bin/reportlab/graphics/widgetbase.py

bin/reportlab/graphics/widgets

bin/reportlab/graphics/widgets/__init__.py

bin/reportlab/graphics/widgets/eventcal.py

bin/reportlab/graphics/widgets/flags.py

bin/reportlab/graphics/widgets/grids.py

bin/reportlab/graphics/widgets/markers.py

bin/reportlab/graphics/widgets/signsandsymbols.py

bin/reportlab/lib

bin/reportlab/lib/PyFontify.py

bin/reportlab/lib/__init__.py

bin/reportlab/lib/abag.py

bin/reportlab/lib/attrmap.py

bin/reportlab/lib/codecharts.py

bin/reportlab/lib/colors.py

bin/reportlab/lib/corp.py

bin/reportlab/lib/enums.py

bin/reportlab/lib/extformat.py

bin/reportlab/lib/fonts.py

bin/reportlab/lib/formatters.py

bin/reportlab/lib/logger.py

bin/reportlab/lib/normalDate.py

bin/reportlab/lib/pagesizes.py

bin/reportlab/lib/randomtext.py

bin/reportlab/lib/rparsexml.py

bin/reportlab/lib/sequencer.py

bin/reportlab/lib/set_ops.py

bin/reportlab/lib/styles.py

bin/reportlab/lib/tocindex.py

bin/reportlab/lib/units.py

bin/reportlab/lib/utils.py

bin/reportlab/lib/validators.py

bin/reportlab/lib/xmllib.py

bin/reportlab/lib/yaml.py

bin/reportlab/pdfbase

bin/reportlab/pdfbase/__init__.py

bin/reportlab/pdfbase/_cidfontdata.py

bin/reportlab/pdfbase/_fontdata.py

bin/reportlab/pdfbase/cidfonts.py

bin/reportlab/pdfbase/pdfdoc.py

bin/reportlab/pdfbase/pdfform.py

bin/reportlab/pdfbase/pdfmetrics.py

bin/reportlab/pdfbase/pdfpattern.py

bin/reportlab/pdfbase/pdfutils.py

bin/reportlab/pdfbase/ttfonts.py

bin/reportlab/pdfgen

bin/reportlab/pdfgen/__init__.py

bin/reportlab/pdfgen/canvas.py

bin/reportlab/pdfgen/pathobject.py

bin/reportlab/pdfgen/pdfgeom.py

bin/reportlab/pdfgen/pdfimages.py

bin/reportlab/pdfgen/pycanvas.py

bin/reportlab/pdfgen/textobject.py

bin/reportlab/platypus

bin/reportlab/platypus/__init__.py

bin/reportlab/platypus/doctemplate.py

bin/reportlab/platypus/figures.py

bin/reportlab/platypus/flowables.py

bin/reportlab/platypus/frames.py

bin/reportlab/platypus/para.py

bin/reportlab/platypus/paragraph.py

bin/reportlab/platypus/paraparser.py

bin/reportlab/platypus/tableofcontents.py

bin/reportlab/platypus/tables.py

bin/reportlab/platypus/xpreformatted.py

bin/reportlab/rl_config.py

bin/reportlab/tools

bin/reportlab/tools/README

bin/reportlab/tools/__init__.py

bin/reportlab/tools/docco

bin/reportlab/tools/docco/README

bin/reportlab/tools/docco/__init__.py

bin/reportlab/tools/docco/codegrab.py

bin/reportlab/tools/docco/docpy.py

bin/reportlab/tools/docco/examples.py

bin/reportlab/tools/docco/graphdocpy.py

bin/reportlab/tools/docco/rl_doc_utils.py

bin/reportlab/tools/docco/rltemplate.py

bin/reportlab/tools/docco/stylesheet.py

bin/reportlab/tools/docco/t_parse.py

bin/reportlab/tools/docco/yaml.py

bin/reportlab/tools/docco/yaml2pdf.py

bin/reportlab/tools/py2pdf

bin/reportlab/tools/py2pdf/README

bin/reportlab/tools/py2pdf/__init__.py

bin/reportlab/tools/py2pdf/demo-config.txt

bin/reportlab/tools/py2pdf/demo.py

bin/reportlab/tools/py2pdf/idle_print.py

bin/reportlab/tools/py2pdf/py2pdf.py

bin/reportlab/tools/py2pdf/vertpython.jpg

bin/reportlab/tools/pythonpoint

bin/reportlab/tools/pythonpoint/README

bin/reportlab/tools/pythonpoint/__init__.py

bin/reportlab/tools/pythonpoint/customshapes.py

bin/reportlab/tools/pythonpoint/demos

bin/reportlab/tools/pythonpoint/demos/htu.xml

bin/reportlab/tools/pythonpoint/demos/leftlogo.a85

bin/reportlab/tools/pythonpoint/demos/leftlogo.gif

bin/reportlab/tools/pythonpoint/demos/lj8100.jpg

bin/reportlab/tools/pythonpoint/demos/monterey.xml

bin/reportlab/tools/pythonpoint/demos/outline.gif

bin/reportlab/tools/pythonpoint/demos/pplogo.gif

bin/reportlab/tools/pythonpoint/demos/python.gif

bin/reportlab/tools/pythonpoint/demos/pythonpoint.xml

bin/reportlab/tools/pythonpoint/demos/spectrum.png

bin/reportlab/tools/pythonpoint/demos/vertpython.gif

bin/reportlab/tools/pythonpoint/pythonpoint.dtd

bin/reportlab/tools/pythonpoint/pythonpoint.py

bin/reportlab/tools/pythonpoint/stdparser.py

bin/reportlab/tools/pythonpoint/styles

bin/reportlab/tools/pythonpoint/styles/__init__.py

bin/reportlab/tools/pythonpoint/styles/horrible.py

bin/reportlab/tools/pythonpoint/styles/htu.py

bin/reportlab/tools/pythonpoint/styles/modern.py

bin/reportlab/tools/pythonpoint/styles/projection.py

bin/reportlab/tools/pythonpoint/styles/standard.py

bin/server.cert

bin/server.pkey

bin/service

bin/service/__init__.py

bin/service/security.py

bin/service/web_services.py

bin/sql_db.py

bin/ssl

bin/ssl/SecureXMLRPCServer.py

bin/ssl/__init__.py

bin/ssl/server.cert

bin/ssl/server.pkey

bin/tinyerp-server.py

bin/tools

bin/tools/__init__.py

bin/tools/amount_to_text.py

bin/tools/config.py

bin/tools/convert.py

bin/tools/decimal.py

bin/tools/import_email.py

bin/tools/misc.py

bin/tools/threadinglocal.py

bin/tools/translate.py

bin/tools/upgrade.py

bin/wizard

bin/wizard/__init__.py

bin/workflow

bin/workflow/__init__.py

bin/workflow/common.py

bin/workflow/instance.py

bin/workflow/wkf_expr.py

bin/workflow/wkf_logs.py

bin/workflow/wkf_service.py

bin/workflow/workitem.py

doc/COPYING

doc/Changelog

doc/INSTALL

doc/README

doc/README.pychart

doc/migrate

doc/migrate/3.3.0-3.4.0

doc/migrate/3.3.0-3.4.0/README

doc/migrate/3.3.0-3.4.0/post.py

doc/migrate/3.3.0-3.4.0/pre.py

doc/migrate/3.4.0-4.0.0

doc/migrate/3.4.0-4.0.0/pre.py

doc/tinyerp-icon.ico

doc/tinyerp-icon.png

man/terp_serverrc.5

man/tinyerp-server.1

setup.py

Show diffs side-by-side

added added

removed removed

bin/reportlab/lib/rparsexml.py

"""Radically simple xml parsing

Example parse

( "this",

{"type": "xml"},

[ "text ",

("b", None, ["in"], None),

" xml"

]

None )

{ 0: "this"

"type": "xml"

1: ["text ",

{0: "b", 1:["in"]},

" xml"]

}

Ie, xml tag translates to a tuple:

(name, dictofattributes, contentlist, miscellaneousinfo)

where miscellaneousinfo can be anything, (but defaults to None)

(with the intention of adding, eg, line number information)

special cases: name of "" means "top level, no containing tag".

Top level parse always looks like this

("", list, None, None)

contained text of None means <simple_tag\>

In order to support stuff like

AT THE MOMENT & ETCETERA ARE IGNORED. THEY MUST BE PROCESSED

IN A POST-PROCESSING STEP.

PROLOGUES ARE NOT UNDERSTOOD. OTHER STUFF IS PROBABLY MISSING.

"""

RequirePyRXP = 0 # set this to 1 to disable the nonvalidating fallback parser.

import string

try:

#raise ImportError, "dummy error"

simpleparse = 0

import pyRXP

if pyRXP.version>='0.5':

def warnCB(s):

print s

pyRXP_parser = pyRXP.Parser(

ErrorOnValidityErrors=1,

NoNoDTDWarning=1,

ExpandCharacterEntities=0,

ExpandGeneralEntities=0,

warnCB = warnCB,

srcName='string input')

def parsexml(xmlText, oneOutermostTag=0,eoCB=None,entityReplacer=None):

pyRXP_parser.eoCB = eoCB

p = pyRXP_parser.parse(xmlText)

return oneOutermostTag and p or ('',None,[p],None)

else:

def parsexml(xmlText, oneOutermostTag=0,eoCB=None,entityReplacer=None):

'''eoCB is the entity open callback'''

def warnCB(s):

print s

flags = 0x0157e1ff | pyRXP.PARSER_FLAGS['ErrorOnValidityErrors']

for k in ('ExpandCharacterEntities','ExpandGeneralEntities'):

flags = flags & (~pyRXP.PARSER_FLAGS[k])

p = pyRXP.parse(xmlText,srcName='string input',flags=flags,warnCB=warnCB,eoCB=eoCB)

return oneOutermostTag and p or ('',None,[p],None)

except ImportError:

simpleparse = 1

NONAME = ""

NAMEKEY = 0

CONTENTSKEY = 1

CDATAMARKER = "<![CDATA["

LENCDATAMARKER = len(CDATAMARKER)

CDATAENDMARKER = "]]>"

replacelist = [("<", "<"), (">", ">"), ("&", "&")] # amp must be last

#replacelist = []

def unEscapeContentList(contentList):

result = []

from string import replace

for e in contentList:

if "&" in e:

for (old, new) in replacelist:

e = replace(e, old, new)

result.append(e)

return result

def parsexmlSimple(xmltext, oneOutermostTag=0,eoCB=None,entityReplacer=unEscapeContentList):

"""official interface: discard unused cursor info"""

if RequirePyRXP:

100

raise ImportError, "pyRXP not found, fallback parser disabled"

101

(result, cursor) = parsexml0(xmltext,entityReplacer=entityReplacer)

102

if oneOutermostTag:

103

return result[2][0]

104

else:

105

return result

106

107

if simpleparse:

108

parsexml = parsexmlSimple

109

110

def parseFile(filename):

111

raw = open(filename, 'r').read()

112

return parsexml(raw)

113

114

verbose = 0

115

116

def skip_prologue(text, cursor):

117

"""skip any prologue found after cursor, return index of rest of text"""

118

### NOT AT ALL COMPLETE!!! definitely can be confused!!!

119

from string import find

120

prologue_elements = ("!DOCTYPE", "?xml", "!--")

121

done = None

122

while done is None:

123

#print "trying to skip:", repr(text[cursor:cursor+20])

124

openbracket = find(text, "<", cursor)

125

if openbracket<0: break

126

past = openbracket+1

127

found = None

128

for e in prologue_elements:

129

le = len(e)

130

if text[past:past+le]==e:

131

found = 1

132

cursor = find(text, ">", past)

133

if cursor<0:

134

raise ValueError, "can't close prologue %s" % `e`

135

cursor = cursor+1

136

if found is None:

137

done=1

138

#print "done skipping"

139

return cursor

140

141

def parsexml0(xmltext, startingat=0, toplevel=1,

142

# snarf in some globals

143

strip=string.strip, split=string.split, find=string.find, entityReplacer=unEscapeContentList,

144

#len=len, None=None

145

#LENCDATAMARKER=LENCDATAMARKER, CDATAMARKER=CDATAMARKER

146

147

"""simple recursive descent xml parser...

148

return (dictionary, endcharacter)

149

special case: comment returns (None, endcharacter)"""

150

#from string import strip, split, find

151

#print "parsexml0", `xmltext[startingat: startingat+10]`

152

# DEFAULTS

153

NameString = NONAME

154

ContentList = AttDict = ExtraStuff = None

155

if toplevel is not None:

156

#if verbose: print "at top level"

157

#if startingat!=0:

158

# raise ValueError, "have to start at 0 for top level!"

159

xmltext = strip(xmltext)

160

cursor = startingat

161

#look for interesting starting points

162

firstbracket = find(xmltext, "<", cursor)

163

afterbracket2char = xmltext[firstbracket+1:firstbracket+3]

164

#print "a", `afterbracket2char`

165

#firstampersand = find(xmltext, "&", cursor)

166

#if firstampersand>0 and firstampersand<firstbracket:

167

# raise ValueError, "I don't handle ampersands yet!!!"

168

docontents = 1

169

if firstbracket<0:

170

# no tags

171

#if verbose: print "no tags"

172

if toplevel is not None:

173

#D = {NAMEKEY: NONAME, CONTENTSKEY: [xmltext[cursor:]]}

174

ContentList = [xmltext[cursor:]]

175

if entityReplacer: ContentList = entityReplacer(ContentList)

176

return (NameString, AttDict, ContentList, ExtraStuff), len(xmltext)

177

else:

178

raise ValueError, "no tags at non-toplevel %s" % `xmltext[cursor:cursor+20]`

179

#D = {}

180

L = []

181

# look for start tag

182

# NEED to force always outer level is unnamed!!!

183

#if toplevel and firstbracket>0:

184

#afterbracket2char = xmltext[firstbracket:firstbracket+2]

185

if toplevel is not None:

186

#print "toplevel with no outer tag"

187

NameString = name = NONAME

188

cursor = skip_prologue(xmltext, cursor)

189

#break

190

elif firstbracket<0:

191

raise ValueError, "non top level entry should be at start tag: %s" % repr(xmltext[:10])

192

# special case: CDATA

193

elif afterbracket2char=="![" and xmltext[firstbracket:firstbracket+9]=="<![CDATA[":

194

#print "in CDATA", cursor

195

# skip straight to the close marker

196

startcdata = firstbracket+9

197

endcdata = find(xmltext, CDATAENDMARKER, startcdata)

198

if endcdata<0:

199

raise ValueError, "unclosed CDATA %s" % repr(xmltext[cursor:cursor+20])

200

NameString = CDATAMARKER

201

ContentList = [xmltext[startcdata: endcdata]]

202

cursor = endcdata+len(CDATAENDMARKER)

203

docontents = None

204

# special case COMMENT

205

elif afterbracket2char=="!-" and xmltext[firstbracket:firstbracket+4]=="<!--":

206

#print "in COMMENT"

207

endcommentdashes = find(xmltext, "--", firstbracket+4)

208

if endcommentdashes<firstbracket:

209

raise ValueError, "unterminated comment %s" % repr(xmltext[cursor:cursor+20])

210

endcomment = endcommentdashes+2

211

if xmltext[endcomment]!=">":

212

raise ValueError, "invalid comment: contains double dashes %s" % repr(xmltext[cursor:cursor+20])

213

return (None, endcomment+1) # shortcut exit

214

else:

215

# get the rest of the tag

216

#if verbose: print "parsing start tag"

217

# make sure the tag isn't in doublequote pairs

218

closebracket = find(xmltext, ">", firstbracket)

219

noclose = closebracket<0

220

startsearch = closebracket+1

221

pastfirstbracket = firstbracket+1

222

tagcontent = xmltext[pastfirstbracket:closebracket]

223

# shortcut, no equal means nothing but name in the tag content

224

if '=' not in tagcontent:

225

if tagcontent[-1]=="/":

226

# simple case

227

#print "simple case", tagcontent

228

tagcontent = tagcontent[:-1]

229

docontents = None

230

name = strip(tagcontent)

231

NameString = name

232

cursor = startsearch

233

else:

234

if '"' in tagcontent:

235

# check double quotes

236

stop = None

237

# not inside double quotes! (the split should have odd length)

238

if noclose or len(split(tagcontent+".", '"'))% 2:

239

stop=1

240

while stop is None:

241

closebracket = find(xmltext, ">", startsearch)

242

startsearch = closebracket+1

243

noclose = closebracket<0

244

tagcontent = xmltext[pastfirstbracket:closebracket]

245

# not inside double quotes! (the split should have odd length)

246

if noclose or len(split(tagcontent+".", '"'))% 2:

247

stop=1

248

if noclose:

249

raise ValueError, "unclosed start tag %s" % repr(xmltext[firstbracket:firstbracket+20])

250

cursor = startsearch

251

#cursor = closebracket+1

252

# handle simple tag /> syntax

253

if xmltext[closebracket-1]=="/":

254

#if verbose: print "it's a simple tag"

255

closebracket = closebracket-1

256

tagcontent = tagcontent[:-1]

257

docontents = None

258

#tagcontent = xmltext[firstbracket+1:closebracket]

259

tagcontent = strip(tagcontent)

260

taglist = split(tagcontent, "=")

261

#if not taglist:

262

# raise ValueError, "tag with no name %s" % repr(xmltext[firstbracket:firstbracket+20])

263

taglist0 = taglist[0]

264

taglist0list = split(taglist0)

265

#if len(taglist0list)>2:

266

# raise ValueError, "bad tag head %s" % repr(taglist0)

267

name = taglist0list[0]

268

#print "tag name is", name

269

NameString = name

270

# now parse the attributes

271

attributename = taglist0list[-1]

272

# put a fake att name at end of last taglist entry for consistent parsing

273

taglist[-1] = taglist[-1]+" f"

274

AttDict = D = {}

275

taglistindex = 1

276

lasttaglistindex = len(taglist)

277

#for attentry in taglist[1:]:

278

while taglistindex<lasttaglistindex:

279

#print "looking for attribute named", attributename

280

attentry = taglist[taglistindex]

281

taglistindex = taglistindex+1

282

attentry = strip(attentry)

283

if attentry[0]!='"':

284

raise ValueError, "attribute value must start with double quotes" + repr(attentry)

285

while '"' not in attentry[1:]:

286

# must have an = inside the attribute value...

287

if taglistindex>lasttaglistindex:

288

raise ValueError, "unclosed value " + repr(attentry)

289

nextattentry = taglist[taglistindex]

290

taglistindex = taglistindex+1

291

attentry = "%s=%s" % (attentry, nextattentry)

292

attentry = strip(attentry) # only needed for while loop...

293

attlist = split(attentry)

294

nextattname = attlist[-1]

295

attvalue = attentry[:-len(nextattname)]

296

attvalue = strip(attvalue)

297

try:

298

first = attvalue[0]; last=attvalue[-1]

299

except:

300

raise ValueError, "attvalue,attentry,attlist="+repr((attvalue, attentry,attlist))

301

if first==last=='"' or first==last=="'":

302

attvalue = attvalue[1:-1]

303

#print attributename, "=", attvalue

304

D[attributename] = attvalue

305

attributename = nextattname

306

# pass over other tags and content looking for end tag

307

if docontents is not None:

308

#print "now looking for end tag"

309

ContentList = L

310

while docontents is not None:

311

nextopenbracket = find(xmltext, "<", cursor)

312

if nextopenbracket<cursor:

313

#if verbose: print "no next open bracket found"

314

if name==NONAME:

315

#print "no more tags for noname", repr(xmltext[cursor:cursor+10])

316

docontents=None # done

317

remainder = xmltext[cursor:]

318

cursor = len(xmltext)

319

if remainder:

320

L.append(remainder)

321

else:

322

raise ValueError, "no close bracket for %s found after %s" % (name,repr(xmltext[cursor: cursor+20]))

323

# is it a close bracket?

324

elif xmltext[nextopenbracket+1]=="/":

325

#print "found close bracket", repr(xmltext[nextopenbracket:nextopenbracket+20])

326

nextclosebracket = find(xmltext, ">", nextopenbracket)

327

if nextclosebracket<nextopenbracket:

328

raise ValueError, "unclosed close tag %s" % repr(xmltext[nextopenbracket: nextopenbracket+20])

329

closetagcontents = xmltext[nextopenbracket+2: nextclosebracket]

330

closetaglist = split(closetagcontents)

331

#if len(closetaglist)!=1:

332

#print closetagcontents

333

#raise ValueError, "bad close tag format %s" % repr(xmltext[nextopenbracket: nextopenbracket+20])

334

# name should match

335

closename = closetaglist[0]

336

#if verbose: print "closetag name is", closename

337

if name!=closename:

338

prefix = xmltext[:cursor]

339

endlinenum = len(split(prefix, "\n"))

340

prefix = xmltext[:startingat]

341

linenum = len(split(prefix, "\n"))

342

raise ValueError, \

343

"at lines %s...%s close tag name doesn't match %s...%s %s" %(

344

linenum, endlinenum, `name`, `closename`, repr(xmltext[cursor: cursor+100]))

345

remainder = xmltext[cursor:nextopenbracket]

346

if remainder:

347

#if verbose: print "remainder", repr(remainder)

348

L.append(remainder)

349

cursor = nextclosebracket+1

350

#print "for", name, "found close tag"

351

docontents = None # done

352

# otherwise we are looking at a new tag, recursively parse it...

353

# first record any intervening content

354

else:

355

remainder = xmltext[cursor:nextopenbracket]

356

if remainder:

357

L.append(remainder)

358

#if verbose:

359

# #print "skipping", repr(remainder)

360

# #print "--- recursively parsing starting at", xmltext[nextopenbracket:nextopenbracket+20]

361

(parsetree, cursor) = parsexml0(xmltext, startingat=nextopenbracket, toplevel=None, entityReplacer=entityReplacer)

362

if parsetree:

363

L.append(parsetree)

364

# maybe should check for trailing garbage?

365

# toplevel:

366

# remainder = strip(xmltext[cursor:])

367

# if remainder:

368

# raise ValueError, "trailing garbage at top level %s" % repr(remainder[:20])

369

if ContentList:

370

if entityReplacer: ContentList = entityReplacer(ContentList)

371

t = (NameString, AttDict, ContentList, ExtraStuff)

372

return (t, cursor)

373

374

import types

375

def pprettyprint(parsedxml):

376

"""pretty printer mainly for testing"""

377

st = types.StringType

378

if type(parsedxml) is st:

379

return parsedxml

380

(name, attdict, textlist, extra) = parsedxml

381

if not attdict: attdict={}

382

join = string.join

383

attlist = []

384

for k in attdict.keys():

385

v = attdict[k]

386

attlist.append("%s=%s" % (k, `v`))

387

attributes = join(attlist, " ")

388

if not name and attributes:

389

raise ValueError, "name missing with attributes???"

390

if textlist is not None:

391

# with content

392

textlistpprint = map(pprettyprint, textlist)

393

textpprint = join(textlistpprint, "\n")

394

if not name:

395

return textpprint # no outer tag

396

# indent it

397

nllist = string.split(textpprint, "\n")

398

textpprint = " "+join(nllist, "\n ")

399

return "<%s %s>\n%s\n</%s>" % (name, attributes, textpprint, name)

400

# otherwise must be a simple tag

401

return "<%s %s/>" % (name, attributes)

402

403

dump = 0

404

def testparse(s):

405

from time import time

406

from pprint import pprint

407

now = time()

408

D = parsexmlSimple(s)

409

print "DONE", time()-now

410

if dump&4:

411

pprint(D)

412

#pprint(D)

413

if dump&1:

414

print "============== reformatting"

415

p = pprettyprint(D)

416

print p

417

418

def test():

419

testparse("""<this type="xml">text <>in <funnytag foo="bar"/> xml</this>

420

421

<![CDATA[

422

423

<tag with="<brackets in values>">just testing brackets feature</tag>

424

""")

425

426

filenames = [ #"../../reportlab/demos/pythonpoint/pythonpoint.xml",

427

"samples/hamlet.xml"]

428

429

#filenames = ["moa.xml"]

430

431

dump=1

432

if __name__=="__main__":

433

test()

434

from time import time

435

now = time()

436

for f in filenames:

437

t = open(f).read()

438

print "parsing", f

439

testparse(t)

440

print "elapsed", time()-now

Older »