~leonardr/beautifulsoup/bs4

Viewing all changes in revision 598.

  • Committer: Leonard Richardson
  • Date: 2021-02-13 16:51:13 UTC
  • Revision ID: leonardr@segfault.org-20210213165113-h4qwj6ur3hzczhpz
Added a second way to pass specify encodings to UnicodeDammit and
  EncodingDetector, based on the order of precedence defined in the
  HTML5 spec, starting at:
  https://html.spec.whatwg.org/multipage/parsing.html#parsing-with-a-known-character-encoding

  Encodings in 'known_definite_encodings' are tried first, then
  byte-order-mark sniffing is run, then encodings in 'user_encodings'
  are tried. The old argument, 'override_encodings', is now a
  deprecated alias for 'known_definite_encodings'.

  This changes the default behavior of the html.parser and lxml tree
  builders, in a way that may slightly improve encoding
  detection but will probably have no effect. [bug=1889014]

expand all expand all

Show diffs side-by-side

added added

removed removed

Lines of Context: