~ubuntu-branches/ubuntu/raring/libencode-perl/raring-proposed

« back to all changes in this revision

Viewing changes to t/Unicode.t

Committer: Bazaar Package Importer
Author(s): Jose Luis Rivas
Date: 2007-05-18 23:49:27 UTC
Revision ID: james.westby@ubuntu.com-20070518234927-bs37c807cty7i1ny

Tags: upstream-2.21

Import upstream version 2.21

files added:

AUTHORS

Byte

Byte/Byte.pm

Byte/Makefile.PL

CN/CN.pm

CN/Makefile.PL

Changes

EBCDIC

EBCDIC/EBCDIC.pm

EBCDIC/Makefile.PL

Encode

Encode.pm

Encode.xs

Encode/Changes.e2x

Encode/ConfigLocal_PM.e2x

Encode/Makefile_PL.e2x

Encode/README.e2x

Encode/_PM.e2x

Encode/_T.e2x

Encode/encode.h

JP/JP.pm

JP/Makefile.PL

KR/KR.pm

KR/Makefile.PL

MANIFEST

META.yml

Makefile.PL

README

Symbol

Symbol/Makefile.PL

Symbol/Symbol.pm

TW/Makefile.PL

TW/TW.pm

Unicode

Unicode/Makefile.PL

Unicode/Unicode.pm

Unicode/Unicode.xs

bin/enc2xs

bin/piconv

bin/ucm2table

bin/ucmlint

bin/ucmsort

bin/unidump

encengine.c

encoding.pm

lib/Encode

lib/Encode/Alias.pm

lib/Encode/CJKConstants.pm

lib/Encode/CN

lib/Encode/CN/HZ.pm

lib/Encode/Config.pm

lib/Encode/Encoder.pm

lib/Encode/Encoding.pm

lib/Encode/GSM0338.pm

lib/Encode/Guess.pm

lib/Encode/JP

lib/Encode/JP/H2Z.pm

lib/Encode/JP/JIS7.pm

lib/Encode/KR

lib/Encode/KR/2022_KR.pm

lib/Encode/MIME

lib/Encode/MIME/Header

lib/Encode/MIME/Header.pm

lib/Encode/MIME/Header/ISO_2022_JP.pm

lib/Encode/MIME/Name.pm

lib/Encode/PerlIO.pod

lib/Encode/Supported.pod

lib/Encode/Unicode

lib/Encode/Unicode/UTF7.pm

t/Aliases.t

t/CJKT.t

t/Encode.t

t/Encoder.t

t/Mod_EUCJP.pm

t/Unicode.t

t/at-cn.t

t/at-tw.t

t/big5-eten.enc

t/big5-eten.utf

t/big5-hkscs.enc

t/big5-hkscs.utf

t/enc_data.t

t/enc_eucjp.t

t/enc_module.enc

t/enc_module.t

t/enc_utf8.t

t/encoding.t

t/fallback.t

t/from_to.t

t/gb2312.enc

t/gb2312.utf

t/grow.t

t/gsm0338.t

t/guess.t

t/jis7-fallback.t

t/jisx0201.enc

t/jisx0201.utf

t/jisx0208.enc

t/jisx0208.utf

t/jisx0212.enc

t/jisx0212.utf

t/jperl.t

t/ksc5601.enc

t/ksc5601.utf

t/mime-header.t

t/mime-name.t

t/mime_header_iso2022jp.t

t/perlio.t

t/rt.pl

t/unibench.pl

t/utf8strict.t

ucm/8859-1.ucm

ucm/8859-10.ucm

ucm/8859-11.ucm

ucm/8859-13.ucm

ucm/8859-14.ucm

ucm/8859-15.ucm

ucm/8859-16.ucm

ucm/8859-2.ucm

ucm/8859-3.ucm

ucm/8859-4.ucm

ucm/8859-5.ucm

ucm/8859-6.ucm

ucm/8859-7.ucm

ucm/8859-8.ucm

ucm/8859-9.ucm

ucm/adobeStdenc.ucm

ucm/adobeSymbol.ucm

ucm/adobeZdingbat.ucm

ucm/ascii.ucm

ucm/big5-eten.ucm

ucm/big5-hkscs.ucm

ucm/cp037.ucm

ucm/cp1006.ucm

ucm/cp1026.ucm

ucm/cp1047.ucm

ucm/cp1250.ucm

ucm/cp1251.ucm

ucm/cp1252.ucm

ucm/cp1253.ucm

ucm/cp1254.ucm

ucm/cp1255.ucm

ucm/cp1256.ucm

ucm/cp1257.ucm

ucm/cp1258.ucm

ucm/cp424.ucm

ucm/cp437.ucm

ucm/cp500.ucm

ucm/cp737.ucm

ucm/cp775.ucm

ucm/cp850.ucm

ucm/cp852.ucm

ucm/cp855.ucm

ucm/cp856.ucm

ucm/cp857.ucm

ucm/cp860.ucm

ucm/cp861.ucm

ucm/cp862.ucm

ucm/cp863.ucm

ucm/cp864.ucm

ucm/cp865.ucm

ucm/cp866.ucm

ucm/cp869.ucm

ucm/cp874.ucm

ucm/cp875.ucm

ucm/cp932.ucm

ucm/cp936.ucm

ucm/cp949.ucm

ucm/cp950.ucm

ucm/ctrl.ucm

ucm/dingbats.ucm

ucm/euc-cn.ucm

ucm/euc-jp.ucm

ucm/euc-kr.ucm

ucm/gb12345.ucm

ucm/gb2312.ucm

ucm/hp-roman8.ucm

ucm/ir-165.ucm

ucm/jis0201.ucm

ucm/jis0208.ucm

ucm/jis0212.ucm

ucm/johab.ucm

ucm/koi8-f.ucm

ucm/koi8-r.ucm

ucm/koi8-u.ucm

ucm/ksc5601.ucm

ucm/macArabic.ucm

ucm/macCentEuro.ucm

ucm/macChinsimp.ucm

ucm/macChintrad.ucm

ucm/macCroatian.ucm

ucm/macCyrillic.ucm

ucm/macDingbats.ucm

ucm/macFarsi.ucm

ucm/macGreek.ucm

ucm/macHebrew.ucm

ucm/macIceland.ucm

ucm/macJapanese.ucm

ucm/macKorean.ucm

ucm/macROMnn.ucm

ucm/macRUMnn.ucm

ucm/macRoman.ucm

ucm/macSami.ucm

ucm/macSymbol.ucm

ucm/macThai.ucm

ucm/macTurkish.ucm

ucm/macUkraine.ucm

ucm/nextstep.ucm

ucm/null.ucm

ucm/posix-bc.ucm

ucm/shiftjis.ucm

ucm/symbol.ucm

ucm/viscii.ucm

Show diffs side-by-side

added added

removed removed

t/Unicode.t

# $Id: Unicode.t,v 2.1 2006/05/03 18:24:10 dankogai Exp $

# This script is written entirely in ASCII, even though quoted literals

# do include non-BMP unicode characters -- Are you happy, jhi?

BEGIN {

require Config; import Config;

if ($Config{'extensions'} !~ /\bEncode\b/) {

print "1..0 # Skip: Encode was not built\n";

exit 0;

}

if (ord("A") == 193) {

print "1..0 # Skip: EBCDIC\n";

exit 0;

}

$| = 1;

}

use strict;

#use Test::More 'no_plan';

use Test::More tests => 37;

use Encode qw(encode decode);

# see

# http://www.unicode.org/unicode/reports/tr19/

my $dankogai = "\x{5c0f}\x{98fc}\x{3000}\x{5f3e}";

my $nasty = "$dankogai\x{1abcd}";

my $fallback = "$dankogai\x{fffd}";

#hi: (0x1abcd - 0x10000) / 0x400 + 0xD800 = 0xd82a

#lo: (0x1abcd - 0x10000) % 0x400 + 0xDC00 = 0xdfcd

my $n_16be =

pack("C*", map {hex($_)} qw<5c 0f 98 fc 30 00 5f 3e d8 2a df cd>);

my $n_16le =

pack("C*", map {hex($_)} qw<0f 5c fc 98 00 30 3e 5f 2a d8 cd df>);

my $f_16be =

pack("C*", map {hex($_)} qw<5c 0f 98 fc 30 00 5f 3e ff fd>);

my $f_16le =

pack("C*", map {hex($_)} qw<0f 5c fc 98 00 30 3e 5f fd ff>);

my $n_32be =

pack("C*", map {hex($_)}

qw<00 00 5c 0f 00 00 98 fc 00 00 30 00 00 00 5f 3e 00 01 ab cd>);

my $n_32le =

pack("C*", map {hex($_)}

qw<0f 5c 00 00 fc 98 00 00 00 30 00 00 3e 5f 00 00 cd ab 01 00>);

my $n_16bb = pack('n', 0xFeFF) . $n_16be;

my $n_16lb = pack('v', 0xFeFF) . $n_16le;

my $n_32bb = pack('N', 0xFeFF) . $n_32be;

my $n_32lb = pack('V', 0xFeFF) . $n_32le;

is($n_16be, encode('UTF-16BE', $nasty), qq{encode UTF-16BE});

is($n_16le, encode('UTF-16LE', $nasty), qq{encode UTF-16LE});

is($n_32be, encode('UTF-32BE', $nasty), qq{encode UTF-32BE});

is($n_32le, encode('UTF-32LE', $nasty), qq{encode UTF-16LE});

is($nasty, decode('UTF-16BE', $n_16be), qq{decode UTF-16BE});

is($nasty, decode('UTF-16LE', $n_16le), qq{decode UTF-16LE});

is($nasty, decode('UTF-32BE', $n_32be), qq{decode UTF-32BE});

is($nasty, decode('UTF-32LE', $n_32le), qq{decode UTF-32LE});

is($n_16bb, encode('UTF-16', $nasty), qq{encode UTF-16});

is($n_32bb, encode('UTF-32', $nasty), qq{encode UTF-32});

is($nasty, decode('UTF-16', $n_16bb), qq{decode UTF-16, bom=be});

is($nasty, decode('UTF-16', $n_16lb), qq{decode UTF-16, bom=le});

is($nasty, decode('UTF-32', $n_32bb), qq{decode UTF-32, bom=be});

is($nasty, decode('UTF-32', $n_32lb), qq{decode UTF-32, bom=le});

is(decode('UCS-2BE', $n_16be), $fallback, "decode UCS-2BE: fallback");

is(decode('UCS-2LE', $n_16le), $fallback, "decode UCS-2LE: fallback");

eval { decode('UCS-2BE', $n_16be, 1) };

is (index($@,'UCS-2BE:'), 0, "decode UCS-2BE: exception");

eval { decode('UCS-2LE', $n_16le, 1) };

is (index($@,'UCS-2LE:'), 0, "decode UCS-2LE: exception");

is(encode('UCS-2BE', $nasty), $f_16be, "encode UCS-2BE: fallback");

is(encode('UCS-2LE', $nasty), $f_16le, "encode UCS-2LE: fallback");

eval { encode('UCS-2BE', $nasty, 1) };

is(index($@, 'UCS-2BE'), 0, "encode UCS-2BE: exception");

eval { encode('UCS-2LE', $nasty, 1) };

is(index($@, 'UCS-2LE'), 0, "encode UCS-2LE: exception");

# SvGROW test for (en|de)code_xs

SKIP: {

my $utf8 = '';

for my $j (0,0x10){

for my $i (0..0xffff){

$j == 0 and (0xD800 <= $i && $i <= 0xDFFF) and next;

$utf8 .= ord($j+$i);

}

for my $major ('UTF-16', 'UTF-32'){

for my $minor ('BE', 'LE'){

100

my $enc = $major.$minor;

101

is(decode($enc, encode($enc, $utf8)), $utf8, "$enc RT");

102

}

103

}

104

}

105

};

106

107

108

# CJKT vs. UTF-7

109

110

111

use File::Spec;

112

use File::Basename;

113

114

my $dir = dirname(__FILE__);

115

opendir my $dh, $dir or die "$dir:$!";

116

my @file = sort grep {/\.utf$/o} readdir $dh;

117

closedir $dh;

118

for my $file (@file){

119

my $path = File::Spec->catfile($dir, $file);

120

open my $fh, '<', $path or die "$path:$!";

121

my $content;

122

if (PerlIO::Layer->find('perlio')){

123

binmode $fh => ':utf8';

124

$content = join('' => <$fh>);

125

}else{ # ugh!

126

binmode $fh;

127

$content = join('' => <$fh>);

128

Encode::_utf8_on($content)

129

}

130

close $fh;

131

is(decode("UTF-7", encode("UTF-7", $content)), $content,

132

"UTF-7 RT:$file");

133

}

134

135

__END__

Older »