~ubuntu-branches/ubuntu/jaunty/couchdb/jaunty

« back to all changes in this revision

Viewing changes to src/mochiweb/mochiweb_html.erl

Committer: Bazaar Package Importer
Author(s): Noah Slater
Date: 2008-05-24 16:30:21 UTC
mfrom: (1.1.1 upstream)
Revision ID: james.westby@ubuntu.com-20080524163021-bpkh6s1090i37xy1

Tags: 0.7.3~svn650270-2

* Added release partitioning to database and log directories.
* Corrected postrm maintainer script to not remove logs.

files added:
LICENCE

debian/README.Debian

debian/patches

debian/patches/directory-version.patch

debian/patches/remove-icu-config.patch

etc/couchdb

etc/couchdb/Makefile.am

etc/couchdb/Makefile.in

etc/couchdb/conf

etc/couchdb/conf/mime.types

etc/couchdb/couch.ini.tpl.in

etc/couchdb/couch_httpd.conf.tpl.in

etc/launchd/org.apache.couchdb.plist.tpl.in

share/www/browse/_compact_database.html

share/www/browse/_create_database.html

share/www/browse/_create_document.html

share/www/browse/_delete_database.html

share/www/browse/_delete_document.html

share/www/browse/_save_view_as.html

share/www/image/compact.gif

share/www/image/grippie.gif

share/www/image/progress.gif

share/www/image/spinner.gif

share/www/script/jquery.cookies.js

share/www/script/jquery.couch.js

share/www/script/jquery.dialog.js

share/www/script/jquery.resizer.js

share/www/script/jquery.suggest.js

share/www/script/json2.js

src/couchdb

src/couchdb/Makefile.am

src/couchdb/Makefile.in

src/couchdb/cjson.erl

src/couchdb/couch.app.tpl.in

src/couchdb/couch_btree.erl

src/couchdb/couch_db.erl

src/couchdb/couch_db.hrl

src/couchdb/couch_db_update_notifier.erl

src/couchdb/couch_doc.erl

src/couchdb/couch_erl_driver.c

src/couchdb/couch_event_sup.erl

src/couchdb/couch_file.erl

src/couchdb/couch_ft_query.erl

src/couchdb/couch_httpd.erl

src/couchdb/couch_js.c

src/couchdb/couch_key_tree.erl

src/couchdb/couch_log.erl

src/couchdb/couch_query_servers.erl

src/couchdb/couch_rep.erl

src/couchdb/couch_server.erl

src/couchdb/couch_server_sup.erl

src/couchdb/couch_stream.erl

src/couchdb/couch_util.erl

src/couchdb/couch_view.erl

src/mochiweb

src/mochiweb/Makefile.am

src/mochiweb/Makefile.in

src/mochiweb/mochihex.erl

src/mochiweb/mochijson.erl

src/mochiweb/mochijson2.erl

src/mochiweb/mochinum.erl

src/mochiweb/mochiweb.app

src/mochiweb/mochiweb.erl

src/mochiweb/mochiweb_app.erl

src/mochiweb/mochiweb_charref.erl

src/mochiweb/mochiweb_cookies.erl

src/mochiweb/mochiweb_echo.erl

src/mochiweb/mochiweb_headers.erl

src/mochiweb/mochiweb_html.erl

src/mochiweb/mochiweb_http.erl

src/mochiweb/mochiweb_multipart.erl

src/mochiweb/mochiweb_request.erl

src/mochiweb/mochiweb_response.erl

src/mochiweb/mochiweb_skel.erl

src/mochiweb/mochiweb_socket_server.erl

src/mochiweb/mochiweb_sup.erl

src/mochiweb/mochiweb_util.erl

src/mochiweb/reloader.erl

files removed:
COPYING

INSTALL

build-contrib/apache_2.txt.gz

etc/conf

etc/conf/mime.types

etc/couch.ini.tpl.in

etc/couch_httpd.conf.tpl.in

etc/launchd/org.couchdb.couchdb.plist.tpl.in

share/www/COPYING

share/www/script/cookies.js

share/www/script/json.js

src/CouchDB

src/CouchDB/Makefile.am

src/CouchDB/Makefile.in

src/CouchDB/cjson.erl

src/CouchDB/couch_btree.erl

src/CouchDB/couch_db.erl

src/CouchDB/couch_db.hrl

src/CouchDB/couch_db_sup.erl

src/CouchDB/couch_db_update_notifier.erl

src/CouchDB/couch_doc.erl

src/CouchDB/couch_erl_driver.c

src/CouchDB/couch_event_sup.erl

src/CouchDB/couch_file.erl

src/CouchDB/couch_ft_query.erl

src/CouchDB/couch_log.erl

src/CouchDB/couch_query_servers.erl

src/CouchDB/couch_rep.erl

src/CouchDB/couch_server.erl

src/CouchDB/couch_server_sup.erl

src/CouchDB/couch_stream.erl

src/CouchDB/couch_util.erl

src/CouchDB/couch_view_group.erl

src/CouchDB/mod_couch.erl

src/Emakefile.in

src/build_couch.erl.in

src/couch_inets

src/couch_inets/couch_inets.app

src/couch_inets/couch_inets.app.in

src/couch_inets/ftp.erl

src/couch_inets/ftp_internal.hrl

src/couch_inets/ftp_progress.erl

src/couch_inets/ftp_response.erl

src/couch_inets/ftp_sup.erl

src/couch_inets/http.erl

src/couch_inets/http_base_64.erl

src/couch_inets/http_chunk.erl

src/couch_inets/http_cookie.erl

src/couch_inets/http_internal.hrl

src/couch_inets/http_request.erl

src/couch_inets/http_response.erl

src/couch_inets/http_transport.erl

src/couch_inets/http_uri.erl

src/couch_inets/http_util.erl

src/couch_inets/httpc_handler.erl

src/couch_inets/httpc_internal.hrl

src/couch_inets/httpc_manager.erl

src/couch_inets/httpc_request.erl

src/couch_inets/httpc_response.erl

src/couch_inets/httpc_sup.erl

src/couch_inets/httpd.erl

src/couch_inets/httpd.hrl

src/couch_inets/httpd_acceptor.erl

src/couch_inets/httpd_acceptor_sup.erl

src/couch_inets/httpd_cgi.erl

src/couch_inets/httpd_conf.erl

src/couch_inets/httpd_esi.erl

src/couch_inets/httpd_example.erl

src/couch_inets/httpd_instance_sup.erl

src/couch_inets/httpd_manager.erl

src/couch_inets/httpd_misc_sup.erl

src/couch_inets/httpd_request.erl

src/couch_inets/httpd_request_handler.erl

src/couch_inets/httpd_response.erl

src/couch_inets/httpd_script_env.erl

src/couch_inets/httpd_socket.erl

src/couch_inets/httpd_sup.erl

src/couch_inets/httpd_util.erl

src/couch_inets/inets.erl

src/couch_inets/inets_app.erl

src/couch_inets/inets_internal.hrl

src/couch_inets/inets_sup.erl

src/couch_inets/mod_actions.erl

src/couch_inets/mod_alias.erl

src/couch_inets/mod_auth.erl

src/couch_inets/mod_auth.hrl

src/couch_inets/mod_auth_dets.erl

src/couch_inets/mod_auth_mnesia.erl

src/couch_inets/mod_auth_plain.erl

src/couch_inets/mod_auth_server.erl

src/couch_inets/mod_browser.erl

src/couch_inets/mod_cgi.erl

src/couch_inets/mod_dir.erl

src/couch_inets/mod_disk_log.erl

src/couch_inets/mod_esi.erl

src/couch_inets/mod_get.erl

src/couch_inets/mod_head.erl

src/couch_inets/mod_htaccess.erl

src/couch_inets/mod_include.erl

src/couch_inets/mod_log.erl

src/couch_inets/mod_range.erl

src/couch_inets/mod_responsecontrol.erl

src/couch_inets/mod_security.erl

src/couch_inets/mod_security_server.erl

src/couch_inets/mod_trace.erl

src/couch_inets/tftp.erl

src/couch_inets/tftp.hrl

src/couch_inets/tftp_binary.erl

src/couch_inets/tftp_engine.erl

src/couch_inets/tftp_file.erl

src/couch_inets/tftp_lib.erl

src/couch_inets/tftp_sup.erl

src/js

src/js/Makefile.ref

src/js/README.html

src/js/SpiderMonkey.rsp

src/js/config

src/js/config.mk

src/js/config/AIX4.1.mk

src/js/config/AIX4.2.mk

src/js/config/AIX4.3.mk

src/js/config/Darwin.mk

src/js/config/Darwin1.3.mk

src/js/config/Darwin1.4.mk

src/js/config/Darwin5.2.mk

src/js/config/Darwin5.3.mk

src/js/config/HP-UXB.10.10.mk

src/js/config/HP-UXB.10.20.mk

src/js/config/HP-UXB.11.00.mk

src/js/config/IRIX.mk

src/js/config/IRIX5.3.mk

src/js/config/IRIX6.1.mk

src/js/config/IRIX6.2.mk

src/js/config/IRIX6.3.mk

src/js/config/IRIX6.5.mk

src/js/config/Linux_All.mk

src/js/config/Mac_OS10.0.mk

src/js/config/OSF1V4.0.mk

src/js/config/OSF1V5.0.mk

src/js/config/OpenBSD4.2.mk

src/js/config/SunOS4.1.4.mk

src/js/config/SunOS5.3.mk

src/js/config/SunOS5.4.mk

src/js/config/SunOS5.5.1.mk

src/js/config/SunOS5.5.mk

src/js/config/SunOS5.6.mk

src/js/config/SunOS5.7.mk

src/js/config/SunOS5.8.mk

src/js/config/SunOS5.9.mk

src/js/config/WINNT4.0.mk

src/js/config/WINNT5.0.mk

src/js/config/WINNT5.1.mk

src/js/config/WINNT5.2.mk

src/js/config/dgux.mk

src/js/editline

src/js/editline/Makefile.ref

src/js/editline/README

src/js/editline/editline.3

src/js/editline/editline.c

src/js/editline/editline.h

src/js/editline/sysunix.c

src/js/editline/unix.h

src/js/fdlibm

src/js/fdlibm/Makefile.in

src/js/fdlibm/Makefile.ref

src/js/fdlibm/e_acos.c

src/js/fdlibm/e_acosh.c

src/js/fdlibm/e_asin.c

src/js/fdlibm/e_atan2.c

src/js/fdlibm/e_atanh.c

src/js/fdlibm/e_cosh.c

src/js/fdlibm/e_exp.c

src/js/fdlibm/e_fmod.c

src/js/fdlibm/e_gamma.c

src/js/fdlibm/e_gamma_r.c

src/js/fdlibm/e_hypot.c

src/js/fdlibm/e_j0.c

src/js/fdlibm/e_j1.c

src/js/fdlibm/e_jn.c

src/js/fdlibm/e_lgamma.c

src/js/fdlibm/e_lgamma_r.c

src/js/fdlibm/e_log.c

src/js/fdlibm/e_log10.c

src/js/fdlibm/e_pow.c

src/js/fdlibm/e_rem_pio2.c

src/js/fdlibm/e_remainder.c

src/js/fdlibm/e_scalb.c

src/js/fdlibm/e_sinh.c

src/js/fdlibm/e_sqrt.c

src/js/fdlibm/fdlibm.h

src/js/fdlibm/fdlibm.mak

src/js/fdlibm/fdlibm.mdp

src/js/fdlibm/k_cos.c

src/js/fdlibm/k_rem_pio2.c

src/js/fdlibm/k_sin.c

src/js/fdlibm/k_standard.c

src/js/fdlibm/k_tan.c

src/js/fdlibm/s_asinh.c

src/js/fdlibm/s_atan.c

src/js/fdlibm/s_cbrt.c

src/js/fdlibm/s_ceil.c

src/js/fdlibm/s_copysign.c

src/js/fdlibm/s_cos.c

src/js/fdlibm/s_erf.c

src/js/fdlibm/s_expm1.c

src/js/fdlibm/s_fabs.c

src/js/fdlibm/s_finite.c

src/js/fdlibm/s_floor.c

src/js/fdlibm/s_frexp.c

src/js/fdlibm/s_ilogb.c

src/js/fdlibm/s_isnan.c

src/js/fdlibm/s_ldexp.c

src/js/fdlibm/s_lib_version.c

src/js/fdlibm/s_log1p.c

src/js/fdlibm/s_logb.c

src/js/fdlibm/s_matherr.c

src/js/fdlibm/s_modf.c

src/js/fdlibm/s_nextafter.c

src/js/fdlibm/s_rint.c

src/js/fdlibm/s_scalbn.c

src/js/fdlibm/s_signgam.c

src/js/fdlibm/s_significand.c

src/js/fdlibm/s_sin.c

src/js/fdlibm/s_tan.c

src/js/fdlibm/s_tanh.c

src/js/fdlibm/w_acos.c

src/js/fdlibm/w_acosh.c

src/js/fdlibm/w_asin.c

src/js/fdlibm/w_atan2.c

src/js/fdlibm/w_atanh.c

src/js/fdlibm/w_cosh.c

src/js/fdlibm/w_exp.c

src/js/fdlibm/w_fmod.c

src/js/fdlibm/w_gamma.c

src/js/fdlibm/w_gamma_r.c

src/js/fdlibm/w_hypot.c

src/js/fdlibm/w_j0.c

src/js/fdlibm/w_j1.c

src/js/fdlibm/w_jn.c

src/js/fdlibm/w_lgamma.c

src/js/fdlibm/w_lgamma_r.c

src/js/fdlibm/w_log.c

src/js/fdlibm/w_log10.c

src/js/fdlibm/w_pow.c

src/js/fdlibm/w_remainder.c

src/js/fdlibm/w_scalb.c

src/js/fdlibm/w_sinh.c

src/js/fdlibm/w_sqrt.c

src/js/js.c

src/js/js.mak

src/js/js.mdp

src/js/js.msg

src/js/js.pkg

src/js/js3240.rc

src/js/jsOS240.def

src/js/jsapi.c

src/js/jsapi.h

src/js/jsarena.c

src/js/jsarena.h

src/js/jsarray.c

src/js/jsarray.h

src/js/jsatom.c

src/js/jsatom.h

src/js/jsbit.h

src/js/jsbool.c

src/js/jsbool.h

src/js/jsclist.h

src/js/jscntxt.c

src/js/jscntxt.h

src/js/jscompat.h

src/js/jsconfig.h

src/js/jsconfig.mk

src/js/jscpucfg.c

src/js/jscpucfg.h

src/js/jsdate.c

src/js/jsdate.h

src/js/jsdbgapi.c

src/js/jsdbgapi.h

src/js/jsdhash.c

src/js/jsdhash.h

src/js/jsdtoa.c

src/js/jsdtoa.h

src/js/jsemit.c

src/js/jsemit.h

src/js/jsexn.c

src/js/jsexn.h

src/js/jsfile.c

src/js/jsfile.h

src/js/jsfile.msg

src/js/jsfun.c

src/js/jsfun.h

src/js/jsgc.c

src/js/jsgc.h

src/js/jshash.c

src/js/jshash.h

src/js/jsify.pl

src/js/jsinterp.c

src/js/jsinterp.h

src/js/jsiter.c

src/js/jsiter.h

src/js/jskeyword.tbl

src/js/jskwgen.c

src/js/jslibmath.h

src/js/jslock.c

src/js/jslock.h

src/js/jslocko.asm

src/js/jslog2.c

src/js/jslong.c

src/js/jslong.h

src/js/jsmath.c

src/js/jsmath.h

src/js/jsnum.c

src/js/jsnum.h

src/js/jsobj.c

src/js/jsobj.h

src/js/jsopcode.c

src/js/jsopcode.h

src/js/jsopcode.tbl

src/js/jsosdep.h

src/js/jsotypes.h

src/js/jsparse.c

src/js/jsparse.h

src/js/jsprf.c

src/js/jsprf.h

src/js/jsproto.tbl

src/js/jsprvtd.h

src/js/jspubtd.h

src/js/jsregexp.c

src/js/jsregexp.h

src/js/jsscan.c

src/js/jsscan.h

src/js/jsscope.c

src/js/jsscope.h

src/js/jsscript.c

src/js/jsscript.h

src/js/jsshell.msg

src/js/jsstddef.h

src/js/jsstr.c

src/js/jsstr.h

src/js/jstypes.h

src/js/jsutil.c

src/js/jsutil.h

src/js/jsxdrapi.c

src/js/jsxdrapi.h

src/js/jsxml.c

src/js/jsxml.h

src/js/lock_SunOS.s

src/js/plify_jsdhash.sed

src/js/prmjtime.c

src/js/prmjtime.h

src/js/resource.h

src/js/rules.mk

src/js/win32.order

files modified:
AUTHORS

BUGS

ChangeLog

Makefile.am

Makefile.in

NEWS

NOTICE

README

THANKS

acinclude.m4

acinclude.m4.in

authors.xml

autom4te.cache/output.0

autom4te.cache/output.1

autom4te.cache/traces.0

autom4te.cache/traces.1

bin/Makefile.am

bin/Makefile.in

bin/couchdb.tpl.in

bin/couchjs.tpl.in

bootstrap

config.h.in

configure

configure.ac

debian/changelog

debian/control

debian/copyright

debian/postinst

debian/postrm

debian/rules

etc/Makefile.am

etc/Makefile.in

etc/default/Makefile.am

etc/default/Makefile.in

etc/init/Makefile.am

etc/init/Makefile.in

etc/init/couchdb.tpl.in *

etc/launchd/Makefile.am

etc/launchd/Makefile.in

etc/logrotate.d/Makefile.am

etc/logrotate.d/Makefile.in

share/Makefile.am

share/Makefile.in

share/server/main.js

share/www/browse/database.html

share/www/browse/document.html

share/www/browse/index.html

share/www/couch_tests.html

share/www/index.html

share/www/replicator.html

share/www/script/browse.js

share/www/script/couch.js

share/www/script/couch_tests.js

share/www/script/jquery.js

share/www/script/pprint.js

share/www/script/shell.js

share/www/shell.html

share/www/style/layout.css

src/Makefile.am

src/Makefile.in

src/fulltext/lucene/CouchConfig.java

src/fulltext/lucene/CouchDbDirFilter.java

src/fulltext/lucene/LuceneIndexer.java

src/fulltext/lucene/LuceneSearcher.java

src/fulltext/lucene/readme.txt

var/Makefile.am

var/Makefile.in

Show diffs side-by-side

added added

removed removed

src/mochiweb/mochiweb_html.erl

%% @author Bob Ippolito <bob@mochimedia.com>

%% @doc Loosely tokenizes and generates parse trees for HTML 4.

-module(mochiweb_html).

-export([tokens/1, parse/1, parse_tokens/1, to_tokens/1, escape/1,

escape_attr/1, to_html/1, test/0]).

% This is a macro to placate syntax highlighters..

-define(QUOTE, $\").

-define(SQUOTE, $\').

-define(ADV_COL(S, N),

S#decoder{column=N+S#decoder.column,

offset=N+S#decoder.offset}).

-define(INC_COL(S),

S#decoder{column=1+S#decoder.column,

offset=1+S#decoder.offset}).

-define(INC_LINE(S),

S#decoder{column=1,

line=1+S#decoder.line,

offset=1+S#decoder.offset}).

-define(INC_CHAR(S, C),

case C of

$\n ->

S#decoder{column=1,

line=1+S#decoder.line,

offset=1+S#decoder.offset};

_ ->

S#decoder{column=1+S#decoder.column,

offset=1+S#decoder.offset}

end).

-define(IS_WHITESPACE(C),

(C =:= $\s orelse C =:= $\t orelse C =:= $\r orelse C =:= $\n)).

-define(IS_LITERAL_SAFE(C),

((C >= $A andalso C =< $Z) orelse (C >= $a andalso C =< $z)

orelse (C >= $0 andalso C =< $9))).

-record(decoder, {line=1,

column=1,

offset=0}).

%% @type html_node() = {string(), [html_attr()], [html_node() | string()]}

%% @type html_attr() = {string(), string()}

%% @type html_data() = {data, string(), Whitespace::boolean()}

%% @type start_tag() = {start_tag, Name, [html_attr()], Singleton::boolean()}

%% @type end_tag() = {end_tag, Name}

%% @type html_comment() = {comment, Comment}

%% @type html_doctype() = {doctype, [Doctype]}

%% @type inline_html() = {'=', iolist()}

%% External API.

%% @spec parse(string() | binary()) -> html_node()

%% @doc tokenize and then transform the token stream into a HTML tree.

parse(Input) ->

parse_tokens(tokens(Input)).

%% @spec parse_tokens([html_token()]) -> html_node()

%% @doc Transform the output of tokens(Doc) into a HTML tree.

parse_tokens(Tokens) when is_list(Tokens) ->

%% Skip over doctype, processing instructions

F = fun (X) ->

case X of

{start_tag, _, _, false} ->

false;

_ ->

true

end

end,

[{start_tag, Tag, Attrs, false} | Rest] = lists:dropwhile(F, Tokens),

{Tree, _} = tree(Rest, [norm({Tag, Attrs})]),

Tree.

%% @spec tokens(StringOrBinary) -> [html_token()]

%% @doc Transform the input UTF-8 HTML into a token stream.

tokens(Input) ->

tokens(iolist_to_binary(Input), #decoder{}, []).

%% @spec to_tokens(html_node()) -> [html_token()]

%% @doc Convert a html_node() tree to a list of tokens.

to_tokens({Tag0}) ->

to_tokens({Tag0, [], []});

to_tokens(T={'=', _}) ->

[T];

to_tokens(T={doctype, _}) ->

[T];

to_tokens(T={comment, _}) ->

[T];

to_tokens({Tag0, Acc}) ->

to_tokens({Tag0, [], Acc});

to_tokens({Tag0, Attrs, Acc}) ->

Tag = to_tag(Tag0),

to_tokens([{Tag, Acc}], [{start_tag, Tag, Attrs, is_singleton(Tag)}]).

%% @spec to_html([html_token()] | html_node()) -> iolist()

%% @doc Convert a list of html_token() to a HTML document.

to_html(Node) when is_tuple(Node) ->

100

to_html(to_tokens(Node));

101

to_html(Tokens) when is_list(Tokens) ->

102

to_html(Tokens, []).

103

104

%% @spec escape(string() | binary()) -> string()

105

%% @doc Escape a string such that it's safe for HTML (amp; lt; gt;).

106

escape(B) when is_binary(B) ->

107

escape(binary_to_list(B), []);

108

escape(A) when is_atom(A) ->

109

escape(atom_to_list(A), []);

110

escape(S) when is_list(S) ->

111

escape(S, []).

112

113

%% @spec escape_attr(S::string()) -> string()

114

%% @doc Escape a string such that it's safe for HTML attrs

115

%% (amp; lt; gt; quot;).

116

escape_attr(B) when is_binary(B) ->

117

escape_attr(binary_to_list(B), []);

118

escape_attr(A) when is_atom(A) ->

119

escape_attr(atom_to_list(A), []);

120

escape_attr(S) when is_list(S) ->

121

escape_attr(S, []);

122

escape_attr(I) when is_integer(I) ->

123

escape_attr(integer_to_list(I), []);

124

escape_attr(F) when is_float(F) ->

125

escape_attr(mochinum:digits(F), []).

126

127

%% @spec test() -> ok

128

%% @doc Run tests for mochiweb_html.

129

test() ->

130

test_destack(),

131

test_tokens(),

132

test_parse(),

133

test_parse_tokens(),

134

test_escape(),

135

test_escape_attr(),

136

test_to_html(),

137

ok.

138

139

140

%% Internal API

141

142

test_to_html() ->

143

Expect = <<"<html><head><title>hey!</title></head><body><p class=\"foo\">what's up<br /></p><div>sucka</div></body></html>">>,

144

Expect = iolist_to_binary(

145

to_html({html, [],

146

[{<<"head">>, [],

147

[{title, <<"hey!">>}]},

148

{body, [],

149

[{p, [{class, foo}], [<<"what's">>, <<" up">>, {br}]},

150

{'div', <<"sucka">>},

151

{comment, <<" comment! ">>}]}]})),

152

Expect1 = <<"<!DOCTYPE html PUBLIC \"-//W3C//DTD XHTML 1.0 Transitional//EN\" \"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd\">">>,

153

Expect1 = iolist_to_binary(

154

to_html({doctype,

155

[<<"html">>, <<"PUBLIC">>,

156

<<"-//W3C//DTD XHTML 1.0 Transitional//EN">>,

157

<<"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">>]})),

158

ok.

159

to_html([], Acc) ->

160

lists:reverse(Acc);

161

to_html([{'=', Content} | Rest], Acc) ->

162

to_html(Rest, [Content | Acc]);

163

to_html([{pi, Tag, Attrs} | Rest], Acc) ->

164

Open = [<<"<?">>,

165

Tag,

166

attrs_to_html(Attrs, []),

167

<<"?>">>],

168

to_html(Rest, [Open | Acc]);

169

to_html([{comment, Comment} | Rest], Acc) ->

170

to_html(Rest, [[<<"">>] | Acc]);

171

to_html([{doctype, Parts} | Rest], Acc) ->

172

Inside = doctype_to_html(Parts, Acc),

173

to_html(Rest, [[<<"<!DOCTYPE">>, Inside, <<">">>] | Acc]);

174

to_html([{data, Data, _Whitespace} | Rest], Acc) ->

175

to_html(Rest, [escape(Data) | Acc]);

176

to_html([{start_tag, Tag, Attrs, Singleton} | Rest], Acc) ->

177

Open = [<<"<">>,

178

Tag,

179

attrs_to_html(Attrs, []),

180

case Singleton of

181

true -> <<" />">>;

182

false -> <<">">>

183

end],

184

to_html(Rest, [Open | Acc]);

185

to_html([{end_tag, Tag} | Rest], Acc) ->

186

to_html(Rest, [[<<"</">>, Tag, <<">">>] | Acc]).

187

188

doctype_to_html([], Acc) ->

189

lists:reverse(Acc);

190

doctype_to_html([Word | Rest], Acc) ->

191

case lists:all(fun (C) -> ?IS_LITERAL_SAFE(C) end,

192

binary_to_list(iolist_to_binary(Word))) of

193

true ->

194

doctype_to_html(Rest, [[<<" ">>, Word] | Acc]);

195

false ->

196

doctype_to_html(Rest, [[<<" \"">>, escape_attr(Word), ?QUOTE] | Acc])

197

end.

198

199

attrs_to_html([], Acc) ->

200

lists:reverse(Acc);

201

attrs_to_html([{K, V} | Rest], Acc) ->

202

attrs_to_html(Rest,

203

[[<<" ">>, escape(K), <<"=\"">>,

204

escape_attr(V), <<"\"">>] | Acc]).

205

206

test_escape() ->

207

<<"&quot;\"word <<up!&quot;">> =

208

escape(<<""\"word <<up!"">>),

209

ok.

210

211

test_escape_attr() ->

212

<<"&quot;"word <<up!&quot;">> =

213

escape_attr(<<""\"word <<up!"">>),

214

ok.

215

216

escape([], Acc) ->

217

list_to_binary(lists:reverse(Acc));

218

escape("<" ++ Rest, Acc) ->

219

escape(Rest, lists:reverse("<", Acc));

220

escape(">" ++ Rest, Acc) ->

221

escape(Rest, lists:reverse(">", Acc));

222

escape("&" ++ Rest, Acc) ->

223

escape(Rest, lists:reverse("&", Acc));

224

escape([C | Rest], Acc) ->

225

escape(Rest, [C | Acc]).

226

227

escape_attr([], Acc) ->

228

list_to_binary(lists:reverse(Acc));

229

escape_attr("<" ++ Rest, Acc) ->

230

escape_attr(Rest, lists:reverse("<", Acc));

231

escape_attr(">" ++ Rest, Acc) ->

232

escape_attr(Rest, lists:reverse(">", Acc));

233

escape_attr("&" ++ Rest, Acc) ->

234

escape_attr(Rest, lists:reverse("&", Acc));

235

escape_attr([?QUOTE | Rest], Acc) ->

236

escape_attr(Rest, lists:reverse(""", Acc));

237

escape_attr([C | Rest], Acc) ->

238

escape_attr(Rest, [C | Acc]).

239

240

to_tag(A) when is_atom(A) ->

241

norm(atom_to_list(A));

242

to_tag(L) ->

243

norm(L).

244

245

to_tokens([], Acc) ->

246

lists:reverse(Acc);

247

to_tokens([{Tag, []} | Rest], Acc) ->

248

to_tokens(Rest, [{end_tag, to_tag(Tag)} | Acc]);

249

to_tokens([{Tag0, [{T0} | R1]} | Rest], Acc) ->

250

%% Allow {br}

251

to_tokens([{Tag0, [{T0, [], []} | R1]} | Rest], Acc);

252

to_tokens([{Tag0, [T0={'=', _C0} | R1]} | Rest], Acc) ->

253

%% Allow {'=', iolist()}

254

to_tokens([{Tag0, R1} | Rest], [T0 | Acc]);

255

to_tokens([{Tag0, [T0={comment, _C0} | R1]} | Rest], Acc) ->

256

%% Allow {comment, iolist()}

257

to_tokens([{Tag0, R1} | Rest], [T0 | Acc]);

258

to_tokens([{Tag0, [{T0, A0=[{_, _} | _]} | R1]} | Rest], Acc) ->

259

%% Allow {p, [{"class", "foo"}]}

260

to_tokens([{Tag0, [{T0, A0, []} | R1]} | Rest], Acc);

261

to_tokens([{Tag0, [{T0, C0} | R1]} | Rest], Acc) ->

262

%% Allow {p, "content"} and {p, <<"content">>}

263

to_tokens([{Tag0, [{T0, [], C0} | R1]} | Rest], Acc);

264

to_tokens([{Tag0, [{T0, A1, C0} | R1]} | Rest], Acc) when is_binary(C0) ->

265

%% Allow {"p", [{"class", "foo"}], <<"content">>}

266

to_tokens([{Tag0, [{T0, A1, binary_to_list(C0)} | R1]} | Rest], Acc);

267

to_tokens([{Tag0, [{T0, A1, C0=[C | _]} | R1]} | Rest], Acc)

268

when is_integer(C) ->

269

%% Allow {"p", [{"class", "foo"}], "content"}

270

to_tokens([{Tag0, [{T0, A1, [C0]} | R1]} | Rest], Acc);

271

to_tokens([{Tag0, [{T0, A1, C1} | R1]} | Rest], Acc) ->

272

%% Native {"p", [{"class", "foo"}], ["content"]}

273

Tag = to_tag(Tag0),

274

T1 = to_tag(T0),

275

case is_singleton(norm(T1)) of

276

true ->

277

to_tokens([{Tag, R1} | Rest], [{start_tag, T1, A1, true} | Acc]);

278

false ->

279

to_tokens([{T1, C1}, {Tag, R1} | Rest],

280

[{start_tag, T1, A1, false} | Acc])

281

end;

282

to_tokens([{Tag0, [L | R1]} | Rest], Acc) when is_list(L) ->

283

%% List text

284

Tag = to_tag(Tag0),

285

to_tokens([{Tag, R1} | Rest], [{data, iolist_to_binary(L), false} | Acc]);

286

to_tokens([{Tag0, [B | R1]} | Rest], Acc) when is_binary(B) ->

287

%% Binary text

288

Tag = to_tag(Tag0),

289

to_tokens([{Tag, R1} | Rest], [{data, B, false} | Acc]).

290

291

test_tokens() ->

292

[{start_tag, <<"foo">>, [{<<"bar">>, <<"baz">>},

293

{<<"wibble">>, <<"wibble">>},

294

{<<"alice">>, <<"bob">>}], true}] =

295

tokens(<<"<foo bar=baz wibble='wibble' alice=\"bob\"/>">>),

296

[{start_tag, <<"foo">>, [{<<"bar">>, <<"baz">>},

297

{<<"wibble">>, <<"wibble">>},

298

{<<"alice">>, <<"bob">>}], true}] =

299

tokens(<<"<foo bar=baz wibble='wibble' alice=bob/>">>),

300

[{comment, <<"[if lt IE 7]>\n<style type=\"text/css\">\n.no_ie { display: none; }\n</style>\n<![endif]">>}] =

301

tokens(<<"">>),

302

ok.

303

304

tokens(B, S=#decoder{offset=O}, Acc) ->

305

case B of

306

<<_:O/binary>> ->

307

lists:reverse(Acc);

308

_ ->

309

{Tag, S1} = tokenize(B, S),

310

tokens(B, S1, [Tag | Acc])

311

end.

312

313

tokenize(B, S=#decoder{offset=O}) ->

314

case B of

315

<<_:O/binary, "<!--", _/binary>> ->

316

tokenize_comment(B, ?ADV_COL(S, 4));

317

<<_:O/binary, "<!DOCTYPE", _/binary>> ->

318

tokenize_doctype(B, ?ADV_COL(S, 10));

319

<<_:O/binary, "<![CDATA[", _/binary>> ->

320

tokenize_cdata(B, ?ADV_COL(S, 9));

321

<<_:O/binary, "<?", _/binary>> ->

322

{Tag, S1} = tokenize_literal(B, ?ADV_COL(S, 2)),

323

{Attrs, S2} = tokenize_attributes(B, S1),

324

S3 = find_qgt(B, S2),

325

{{pi, Tag, Attrs}, S3};

326

<<_:O/binary, "&", _/binary>> ->

327

tokenize_charref(B, ?INC_COL(S));

328

<<_:O/binary, "</", _/binary>> ->

329

{Tag, S1} = tokenize_literal(B, ?ADV_COL(S, 2)),

330

{S2, _} = find_gt(B, S1),

331

{{end_tag, Tag}, S2};

332

<<_:O/binary, "<", C, _/binary>> when ?IS_WHITESPACE(C) ->

333

%% This isn't really strict HTML but we want this for markdown

334

tokenize_data(B, ?INC_COL(S));

335

<<_:O/binary, "<", _/binary>> ->

336

{Tag, S1} = tokenize_literal(B, ?INC_COL(S)),

337

{Attrs, S2} = tokenize_attributes(B, S1),

338

{S3, HasSlash} = find_gt(B, S2),

339

Singleton = HasSlash orelse is_singleton(norm(binary_to_list(Tag))),

340

{{start_tag, Tag, Attrs, Singleton}, S3};

341

_ ->

342

tokenize_data(B, S)

343

end.

344

345

test_parse() ->

346

D0 = <<"<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.01//EN\" \"http://www.w3.org/TR/html4/strict.dtd\">

347

<html>

348

<head>

349

350

351

352

353

<!--[if lt IE 7]>

354

355

.no_ie { display: none; }

356

</style>

357

<![endif]-->

358

359

360

</head>

361

<body id=\"home\" class=\"tundra\"><![CDATA[<<thisCDATA>>]]></body>

362

</html>">>,

363

Expect = {<<"html">>, [],

364

[{<<"head">>, [],

365

[{<<"meta">>,

366

[{<<"http-equiv">>,<<"Content-Type">>},

367

{<<"content">>,<<"text/html; charset=UTF-8">>}],

368

[]},

369

{<<"title">>,[],[<<"Foo">>]},

370

{<<"link">>,

371

[{<<"rel">>,<<"stylesheet">>},

372

{<<"type">>,<<"text/css">>},

373

{<<"href">>,<<"/static/rel/dojo/resources/dojo.css">>},

374

{<<"media">>,<<"screen">>}],

375

[]},

376

{<<"link">>,

377

[{<<"rel">>,<<"stylesheet">>},

378

{<<"type">>,<<"text/css">>},

379

{<<"href">>,<<"/static/foo.css">>},

380

{<<"media">>,<<"screen">>}],

381

[]},

382

{comment,<<"[if lt IE 7]>\n <style type=\"text/css\">\n .no_ie { display: none; }\n </style>\n <![endif]">>},

383

{<<"link">>,

384

[{<<"rel">>,<<"icon">>},

385

{<<"href">>,<<"/static/images/favicon.ico">>},

386

{<<"type">>,<<"image/x-icon">>}],

387

[]},

388

{<<"link">>,

389

[{<<"rel">>,<<"shortcut icon">>},

390

{<<"href">>,<<"/static/images/favicon.ico">>},

391

{<<"type">>,<<"image/x-icon">>}],

392

[]}]},

393

{<<"body">>,

394

[{<<"id">>,<<"home">>},

395

{<<"class">>,<<"tundra">>}],

396

[<<"<<thisCDATA>>">>]}]},

397

Expect = parse(D0),

398

ok.

399

400

test_parse_tokens() ->

401

D0 = [{doctype,[<<"HTML">>,<<"PUBLIC">>,<<"-//W3C//DTD HTML 4.01 Transitional//EN">>]},

402

{data,<<"\n">>,true},

403

{start_tag,<<"html">>,[],false}],

404

{<<"html">>, [], []} = parse_tokens(D0),

405

D1 = D0 ++ [{end_tag, <<"html">>}],

406

{<<"html">>, [], []} = parse_tokens(D1),

407

D2 = D0 ++ [{start_tag, <<"body">>, [], false}],

408

{<<"html">>, [], [{<<"body">>, [], []}]} = parse_tokens(D2),

409

D3 = D0 ++ [{start_tag, <<"head">>, [], false},

410

{end_tag, <<"head">>},

411

{start_tag, <<"body">>, [], false}],

412

{<<"html">>, [], [{<<"head">>, [], []}, {<<"body">>, [], []}]} = parse_tokens(D3),

413

D4 = D3 ++ [{data,<<"\n">>,true},

414

{start_tag,<<"div">>,[{<<"class">>,<<"a">>}],false},

415

{start_tag,<<"a">>,[{<<"name">>,<<"#anchor">>}],false},

416

{end_tag,<<"a">>},

417

{end_tag,<<"div">>},

418

{start_tag,<<"div">>,[{<<"class">>,<<"b">>}],false},

419

{start_tag,<<"div">>,[{<<"class">>,<<"c">>}],false},

420

{end_tag,<<"div">>},

421

{end_tag,<<"div">>}],

422

{<<"html">>, [],

423

[{<<"head">>, [], []},

424

{<<"body">>, [],

425

[{<<"div">>, [{<<"class">>, <<"a">>}], [{<<"a">>, [{<<"name">>, <<"#anchor">>}], []}]},

426

{<<"div">>, [{<<"class">>, <<"b">>}], [{<<"div">>, [{<<"class">>, <<"c">>}], []}]}

427

]}]} = parse_tokens(D4),

428

D5 = [{start_tag,<<"html">>,[],false},

429

{data,<<"\n">>,true},

430

{data,<<"boo">>,false},

431

{data,<<"hoo">>,false},

432

{data,<<"\n">>,true},

433

{end_tag,<<"html">>}],

434

{<<"html">>, [], [<<"\nboohoo\n">>]} = parse_tokens(D5),

435

D6 = [{start_tag,<<"html">>,[],false},

436

{data,<<"\n">>,true},

437

{data,<<"\n">>,true},

438

{end_tag,<<"html">>}],

439

{<<"html">>, [], []} = parse_tokens(D6),

440

D7 = [{start_tag,<<"html">>,[],false},

441

{start_tag,<<"ul">>,[],false},

442

{start_tag,<<"li">>,[],false},

443

{data,<<"word">>,false},

444

{start_tag,<<"li">>,[],false},

445

{data,<<"up">>,false},

446

{end_tag,<<"li">>},

447

{start_tag,<<"li">>,[],false},

448

{data,<<"fdsa">>,false},

449

{start_tag,<<"br">>,[],true},

450

{data,<<"asdf">>,false},

451

{end_tag,<<"ul">>},

452

{end_tag,<<"html">>}],

453

{<<"html">>, [],

454

[{<<"ul">>, [],

455

[{<<"li">>, [], [<<"word">>]},

456

{<<"li">>, [], [<<"up">>]},

457

{<<"li">>, [], [<<"fdsa">>,{<<"br">>, [], []}, <<"asdf">>]}]}]} = parse_tokens(D7),

458

ok.

459

460

tree_data([{data, Data, Whitespace} | Rest], AllWhitespace, Acc) ->

461

tree_data(Rest, (Whitespace andalso AllWhitespace), [Data | Acc]);

462

tree_data(Rest, AllWhitespace, Acc) ->

463

{iolist_to_binary(lists:reverse(Acc)), AllWhitespace, Rest}.

464

465

tree([], Stack) ->

466

{destack(Stack), []};

467

tree([{end_tag, Tag} | Rest], Stack) ->

468

case destack(norm(Tag), Stack) of

469

S when is_list(S) ->

470

tree(Rest, S);

471

Result ->

472

{Result, []}

473

end;

474

tree([{start_tag, Tag, Attrs, true} | Rest], S) ->

475

tree(Rest, append_stack_child(norm({Tag, Attrs}), S));

476

tree([{start_tag, Tag, Attrs, false} | Rest], S) ->

477

tree(Rest, stack(norm({Tag, Attrs}), S));

478

tree([T={pi, _Tag, _Attrs} | Rest], S) ->

479

tree(Rest, append_stack_child(T, S));

480

tree([T={comment, _Comment} | Rest], S) ->

481

tree(Rest, append_stack_child(T, S));

482

tree(L=[{data, _Data, _Whitespace} | _], S) ->

483

case tree_data(L, true, []) of

484

{_, true, Rest} ->

485

tree(Rest, S);

486

{Data, false, Rest} ->

487

tree(Rest, append_stack_child(Data, S))

488

end.

489

490

norm({Tag, Attrs}) ->

491

{norm(Tag), [{norm(K), iolist_to_binary(V)} || {K, V} <- Attrs], []};

492

norm(Tag) when is_binary(Tag) ->

493

Tag;

494

norm(Tag) ->

495

list_to_binary(string:to_lower(Tag)).

496

497

test_destack() ->

498

{<<"a">>, [], []} =

499

destack([{<<"a">>, [], []}]),

500

{<<"a">>, [], [{<<"b">>, [], []}]} =

501

destack([{<<"b">>, [], []}, {<<"a">>, [], []}]),

502

{<<"a">>, [], [{<<"b">>, [], [{<<"c">>, [], []}]}]} =

503

destack([{<<"c">>, [], []}, {<<"b">>, [], []}, {<<"a">>, [], []}]),

504

[{<<"a">>, [], [{<<"b">>, [], [{<<"c">>, [], []}]}]}] =

505

destack(<<"b">>,

506

[{<<"c">>, [], []}, {<<"b">>, [], []}, {<<"a">>, [], []}]),

507

[{<<"b">>, [], [{<<"c">>, [], []}]}, {<<"a">>, [], []}] =

508

destack(<<"c">>,

509

[{<<"c">>, [], []}, {<<"b">>, [], []},{<<"a">>, [], []}]),

510

ok.

511

512

stack(T1={TN, _, _}, Stack=[{TN, _, _} | _Rest])

513

when TN =:= <<"li">> orelse TN =:= <<"option">> ->

514

[T1 | destack(TN, Stack)];

515

stack(T1={TN0, _, _}, Stack=[{TN1, _, _} | _Rest])

516

when (TN0 =:= <<"dd">> orelse TN0 =:= <<"dt">>) andalso

517

(TN1 =:= <<"dd">> orelse TN1 =:= <<"dt">>) ->

518

[T1 | destack(TN1, Stack)];

519

stack(T1, Stack) ->

520

[T1 | Stack].

521

522

append_stack_child(StartTag, [{Name, Attrs, Acc} | Stack]) ->

523

[{Name, Attrs, [StartTag | Acc]} | Stack].

524

525

destack(TagName, Stack) when is_list(Stack) ->

526

F = fun (X) ->

527

case X of

528

{TagName, _, _} ->

529

false;

530

_ ->

531

true

532

end

533

end,

534

case lists:splitwith(F, Stack) of

535

{_, []} ->

536

%% No match, no state change

537

Stack;

538

{_Pre, [_T]} ->

539

%% Unfurl the whole stack, we're done

540

destack(Stack);

541

{Pre, [T, {T0, A0, Acc0} | Post]} ->

542

%% Unfurl up to the tag, then accumulate it

543

[{T0, A0, [destack(Pre ++ [T]) | Acc0]} | Post]

544

end.

545

546

destack([{Tag, Attrs, Acc}]) ->

547

{Tag, Attrs, lists:reverse(Acc)};

548

destack([{T1, A1, Acc1}, {T0, A0, Acc0} | Rest]) ->

549

destack([{T0, A0, [{T1, A1, lists:reverse(Acc1)} | Acc0]} | Rest]).

550

551

is_singleton(<<"br">>) -> true;

552

is_singleton(<<"hr">>) -> true;

553

is_singleton(<<"img">>) -> true;

554

is_singleton(<<"input">>) -> true;

555

is_singleton(<<"base">>) -> true;

556

is_singleton(<<"meta">>) -> true;

557

is_singleton(<<"link">>) -> true;

558

is_singleton(<<"area">>) -> true;

559

is_singleton(<<"param">>) -> true;

560

is_singleton(<<"col">>) -> true;

561

is_singleton(_) -> false.

562

563

tokenize_data(B, S=#decoder{offset=O}) ->

564

tokenize_data(B, S, O, true).

565

566

tokenize_data(B, S=#decoder{offset=O}, Start, Whitespace) ->

567

case B of

568

<<_:O/binary, C, _/binary>> when (C =/= $< andalso C =/= $&) ->

569

tokenize_data(B, ?INC_CHAR(S, C), Start,

570

(Whitespace andalso ?IS_WHITESPACE(C)));

571

_ ->

572

Len = O - Start,

573

<<_:Start/binary, Data:Len/binary, _/binary>> = B,

574

{{data, Data, Whitespace}, S}

575

end.

576

577

tokenize_attributes(B, S) ->

578

tokenize_attributes(B, S, []).

579

580

tokenize_attributes(B, S=#decoder{offset=O}, Acc) ->

581

case B of

582

<<_:O/binary>> ->

583

{lists:reverse(Acc), S};

584

<<_:O/binary, C, _/binary>> when (C =:= $> orelse C =:= $/) ->

585

{lists:reverse(Acc), S};

586

<<_:O/binary, "?>", _/binary>> ->

587

{lists:reverse(Acc), S};

588

<<_:O/binary, C, _/binary>> when ?IS_WHITESPACE(C) ->

589

tokenize_attributes(B, ?INC_CHAR(S, C), Acc);

590

_ ->

591

{Attr, S1} = tokenize_literal(B, S),

592

{Value, S2} = tokenize_attr_value(Attr, B, S1),

593

tokenize_attributes(B, S2, [{Attr, Value} | Acc])

594

end.

595

596

tokenize_attr_value(Attr, B, S) ->

597

S1 = skip_whitespace(B, S),

598

O = S1#decoder.offset,

599

case B of

600

<<_:O/binary, "=", _/binary>> ->

601

tokenize_word_or_literal(B, ?INC_COL(S1));

602

_ ->

603

{Attr, S1}

604

end.

605

606

skip_whitespace(B, S=#decoder{offset=O}) ->

607

case B of

608

<<_:O/binary, C, _/binary>> when ?IS_WHITESPACE(C) ->

609

skip_whitespace(B, ?INC_CHAR(S, C));

610

_ ->

611

612

end.

613

614

tokenize_literal(Bin, S) ->

615

tokenize_literal(Bin, S, []).

616

617

tokenize_literal(Bin, S=#decoder{offset=O}, Acc) ->

618

case Bin of

619

<<_:O/binary, $&, _/binary>> ->

620

{{data, Data, false}, S1} = tokenize_charref(Bin, ?INC_COL(S)),

621

tokenize_literal(Bin, S1, [Data | Acc]);

622

<<_:O/binary, C, _/binary>> when not (?IS_WHITESPACE(C)

623

orelse C =:= $>

624

orelse C =:= $/

625

orelse C =:= $=) ->

626

tokenize_literal(Bin, ?INC_COL(S), [C | Acc]);

627

_ ->

628

{iolist_to_binary(lists:reverse(Acc)), S}

629

end.

630

631

find_qgt(Bin, S=#decoder{offset=O}) ->

632

case Bin of

633

<<_:O/binary, "?>", _/binary>> ->

634

?ADV_COL(S, 2);

635

<<_:O/binary, C, _/binary>> ->

636

find_qgt(Bin, ?INC_CHAR(S, C));

637

_ ->

638

639

end.

640

641

find_gt(Bin, S) ->

642

find_gt(Bin, S, false).

643

644

find_gt(Bin, S=#decoder{offset=O}, HasSlash) ->

645

case Bin of

646

<<_:O/binary, $/, _/binary>> ->

647

find_gt(Bin, ?INC_COL(S), true);

648

<<_:O/binary, $>, _/binary>> ->

649

{?INC_COL(S), HasSlash};

650

<<_:O/binary, C, _/binary>> ->

651

find_gt(Bin, ?INC_CHAR(S, C), HasSlash);

652

_ ->

653

{S, HasSlash}

654

end.

655

656

tokenize_charref(Bin, S=#decoder{offset=O}) ->

657

tokenize_charref(Bin, S, O).

658

659

tokenize_charref(Bin, S=#decoder{offset=O}, Start) ->

660

case Bin of

661

<<_:O/binary>> ->

662

<<_:Start/binary, Raw/binary>> = Bin,

663

{{data, Raw, false}, S};

664

<<_:O/binary, C, _/binary>> when ?IS_WHITESPACE(C)

665

orelse C =:= ?SQUOTE

666

orelse C =:= ?QUOTE

667

orelse C =:= $/

668

orelse C =:= $> ->

669

Len = O - Start,

670

<<_:Start/binary, Raw:Len/binary, _/binary>> = Bin,

671

{{data, Raw, false}, S};

672

<<_:O/binary, $;, _/binary>> ->

673

Len = O - Start,

674

<<_:Start/binary, Raw:Len/binary, _/binary>> = Bin,

675

Data = case mochiweb_charref:charref(Raw) of

676

undefined ->

677

Start1 = Start - 1,

678

Len1 = Len + 2,

679

<<_:Start1/binary, R:Len1/binary, _/binary>> = Bin,

680

681

Unichar ->

682

list_to_binary(xmerl_ucs:to_utf8(Unichar))

683

end,

684

{{data, Data, false}, ?INC_COL(S)};

685

_ ->

686

tokenize_charref(Bin, ?INC_COL(S), Start)

687

end.

688

689

tokenize_doctype(Bin, S) ->

690

tokenize_doctype(Bin, S, []).

691

692

tokenize_doctype(Bin, S=#decoder{offset=O}, Acc) ->

693

case Bin of

694

<<_:O/binary>> ->

695

{{doctype, lists:reverse(Acc)}, S};

696

<<_:O/binary, $>, _/binary>> ->

697

{{doctype, lists:reverse(Acc)}, ?INC_COL(S)};

698

<<_:O/binary, C, _/binary>> when ?IS_WHITESPACE(C) ->

699

tokenize_doctype(Bin, ?INC_CHAR(S, C), Acc);

700

_ ->

701

{Word, S1} = tokenize_word_or_literal(Bin, S),

702

tokenize_doctype(Bin, S1, [Word | Acc])

703

end.

704

705

tokenize_word_or_literal(Bin, S=#decoder{offset=O}) ->

706

case Bin of

707

<<_:O/binary, C, _/binary>> when ?IS_WHITESPACE(C) ->

708

{error, {whitespace, [C], S}};

709

<<_:O/binary, C, _/binary>> when C =:= ?QUOTE orelse C =:= ?SQUOTE ->

710

tokenize_word(Bin, ?INC_COL(S), C);

711

_ ->

712

tokenize_literal(Bin, S, [])

713

end.

714

715

tokenize_word(Bin, S, Quote) ->

716

tokenize_word(Bin, S, Quote, []).

717

718

tokenize_word(Bin, S=#decoder{offset=O}, Quote, Acc) ->

719

case Bin of

720

<<_:O/binary>> ->

721

{iolist_to_binary(lists:reverse(Acc)), S};

722

<<_:O/binary, Quote, _/binary>> ->

723

{iolist_to_binary(lists:reverse(Acc)), ?INC_COL(S)};

724

<<_:O/binary, $&, _/binary>> ->

725

{{data, Data, false}, S1} = tokenize_charref(Bin, ?INC_COL(S)),

726

tokenize_word(Bin, S1, Quote, [Data | Acc]);

727

<<_:O/binary, C, _/binary>> ->

728

tokenize_word(Bin, ?INC_CHAR(S, C), Quote, [C | Acc])

729

end.

730

731

tokenize_cdata(Bin, S=#decoder{offset=O}) ->

732

tokenize_cdata(Bin, S, O).

733

734

tokenize_cdata(Bin, S=#decoder{offset=O}, Start) ->

735

case Bin of

736

<<_:O/binary, "]]>", _/binary>> ->

737

Len = O - Start,

738

<<_:Start/binary, Raw:Len/binary, _/binary>> = Bin,

739

{{data, Raw, false}, ?ADV_COL(S, 3)};

740

<<_:O/binary, C, _/binary>> ->

741

tokenize_cdata(Bin, ?INC_CHAR(S, C), Start);

742

_ ->

743

<<_:O/binary, Raw/binary>> = Bin,

744

{{data, Raw, false}, S}

745

end.

746

747

tokenize_comment(Bin, S=#decoder{offset=O}) ->

748

tokenize_comment(Bin, S, O).

749

750

tokenize_comment(Bin, S=#decoder{offset=O}, Start) ->

751

case Bin of

752

<<_:O/binary, "-->", _/binary>> ->

753

Len = O - Start,

754

<<_:Start/binary, Raw:Len/binary, _/binary>> = Bin,

755

{{comment, Raw}, ?ADV_COL(S, 3)};

756

<<_:O/binary, C, _/binary>> ->

757

tokenize_comment(Bin, ?INC_CHAR(S, C), Start);

758

<<_:Start/binary, Raw/binary>> ->

759

{{comment, Raw}, S}

760

end.

Older »