~njh-aelius/maxosx/musicbrainz-tags

« back to all changes in this revision

Viewing changes to Frameworks/taglib/taglib/taglib/toolkit/unicode.cpp

Committer: stephen_booth
Date: 2008-04-30 01:48:01 UTC
Revision ID: svn-v4:6b6cea13-1402-0410-9567-a7afb52bf336:trunk:1371

Fixing the taglib source tree

files removed:
Frameworks/taglib/taglib

Frameworks/taglib/taglib/AUTHORS

Frameworks/taglib/taglib/CMakeLists.txt

Frameworks/taglib/taglib/COPYING

Frameworks/taglib/taglib/COPYING.LGPL

Frameworks/taglib/taglib/COPYING.MPL

Frameworks/taglib/taglib/ConfigureChecks.cmake

Frameworks/taglib/taglib/INSTALL

Frameworks/taglib/taglib/Makefile.am

Frameworks/taglib/taglib/Makefile.cvs

Frameworks/taglib/taglib/bindings

Frameworks/taglib/taglib/bindings/CMakeLists.txt

Frameworks/taglib/taglib/bindings/Makefile.am

Frameworks/taglib/taglib/bindings/README

Frameworks/taglib/taglib/bindings/c

Frameworks/taglib/taglib/bindings/c/CMakeLists.txt

Frameworks/taglib/taglib/bindings/c/Makefile.am

Frameworks/taglib/taglib/bindings/c/configure.in.in

Frameworks/taglib/taglib/bindings/c/tag_c.cpp

Frameworks/taglib/taglib/bindings/c/tag_c.h

Frameworks/taglib/taglib/bindings/c/taglib_c.pc.cmake

Frameworks/taglib/taglib/bindings/c/taglib_c.pc.in

Frameworks/taglib/taglib/cmake

Frameworks/taglib/taglib/cmake/modules

Frameworks/taglib/taglib/cmake/modules/FindCppUnit.cmake

Frameworks/taglib/taglib/config-taglib.h.cmake

Frameworks/taglib/taglib/config.h

Frameworks/taglib/taglib/configure.in.bot

Frameworks/taglib/taglib/configure.in.in

Frameworks/taglib/taglib/doc

Frameworks/taglib/taglib/doc/README

Frameworks/taglib/taglib/doc/api-footer.html

Frameworks/taglib/taglib/doc/api-header.html

Frameworks/taglib/taglib/doc/taglib-api.css

Frameworks/taglib/taglib/doc/taglib.doxygen

Frameworks/taglib/taglib/doc/taglib.png

Frameworks/taglib/taglib/examples

Frameworks/taglib/taglib/examples/CMakeLists.txt

Frameworks/taglib/taglib/examples/Makefile.am

Frameworks/taglib/taglib/examples/framelist.cpp

Frameworks/taglib/taglib/examples/strip-id3v1.cpp

Frameworks/taglib/taglib/examples/tagreader.cpp

Frameworks/taglib/taglib/examples/tagreader_c.c

Frameworks/taglib/taglib/examples/tagwriter.cpp

Frameworks/taglib/taglib/taglib

Frameworks/taglib/taglib/taglib-config.cmake

Frameworks/taglib/taglib/taglib-config.in

Frameworks/taglib/taglib/taglib.pc.cmake

Frameworks/taglib/taglib/taglib.pc.in

Frameworks/taglib/taglib/taglib/CMakeLists.txt

Frameworks/taglib/taglib/taglib/Makefile.am

Frameworks/taglib/taglib/taglib/ape

Frameworks/taglib/taglib/taglib/ape/CMakeLists.txt

Frameworks/taglib/taglib/taglib/ape/Makefile.am

Frameworks/taglib/taglib/taglib/ape/ape-tag-format.txt

Frameworks/taglib/taglib/taglib/ape/apefooter.cpp

Frameworks/taglib/taglib/taglib/ape/apefooter.h

Frameworks/taglib/taglib/taglib/ape/apeitem.cpp

Frameworks/taglib/taglib/taglib/ape/apeitem.h

Frameworks/taglib/taglib/taglib/ape/apetag.cpp

Frameworks/taglib/taglib/taglib/ape/apetag.h

Frameworks/taglib/taglib/taglib/audioproperties.cpp

Frameworks/taglib/taglib/taglib/audioproperties.h

Frameworks/taglib/taglib/taglib/fileref.cpp

Frameworks/taglib/taglib/taglib/fileref.h

Frameworks/taglib/taglib/taglib/flac

Frameworks/taglib/taglib/taglib/flac/CMakeLists.txt

Frameworks/taglib/taglib/taglib/flac/Makefile.am

Frameworks/taglib/taglib/taglib/flac/flacfile.cpp

Frameworks/taglib/taglib/taglib/flac/flacfile.h

Frameworks/taglib/taglib/taglib/flac/flacproperties.cpp

Frameworks/taglib/taglib/taglib/flac/flacproperties.h

Frameworks/taglib/taglib/taglib/flac/flactag.h

Frameworks/taglib/taglib/taglib/mpc

Frameworks/taglib/taglib/taglib/mpc/CMakeLists.txt

Frameworks/taglib/taglib/taglib/mpc/Makefile.am

Frameworks/taglib/taglib/taglib/mpc/combinedtag.h

Frameworks/taglib/taglib/taglib/mpc/mpcfile.cpp

Frameworks/taglib/taglib/taglib/mpc/mpcfile.h

Frameworks/taglib/taglib/taglib/mpc/mpcproperties.cpp

Frameworks/taglib/taglib/taglib/mpc/mpcproperties.h

Frameworks/taglib/taglib/taglib/mpeg

Frameworks/taglib/taglib/taglib/mpeg/CMakeLists.txt

Frameworks/taglib/taglib/taglib/mpeg/Makefile.am

Frameworks/taglib/taglib/taglib/mpeg/id3v1

Frameworks/taglib/taglib/taglib/mpeg/id3v1/CMakeLists.txt

Frameworks/taglib/taglib/taglib/mpeg/id3v1/Makefile.am

Frameworks/taglib/taglib/taglib/mpeg/id3v1/id3v1genres.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v1/id3v1genres.h

Frameworks/taglib/taglib/taglib/mpeg/id3v1/id3v1tag.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v1/id3v1tag.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2

Frameworks/taglib/taglib/taglib/mpeg/id3v2/CMakeLists.txt

Frameworks/taglib/taglib/taglib/mpeg/id3v2/Makefile.am

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/CMakeLists.txt

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/Makefile.am

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/attachedpictureframe.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/attachedpictureframe.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/commentsframe.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/commentsframe.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/generalencapsulatedobjectframe.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/generalencapsulatedobjectframe.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/relativevolumeframe.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/relativevolumeframe.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/textidentificationframe.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/textidentificationframe.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/uniquefileidentifierframe.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/uniquefileidentifierframe.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/unknownframe.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/unknownframe.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/unsynchronizedlyricsframe.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/unsynchronizedlyricsframe.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/urllinkframe.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/frames/urllinkframe.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2.4.0-frames.txt

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2.4.0-structure.txt

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2extendedheader.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2extendedheader.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2footer.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2footer.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2frame.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2frame.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2framefactory.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2framefactory.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2header.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2header.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2synchdata.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2synchdata.h

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2tag.cpp

Frameworks/taglib/taglib/taglib/mpeg/id3v2/id3v2tag.h

Frameworks/taglib/taglib/taglib/mpeg/mpegfile.cpp

Frameworks/taglib/taglib/taglib/mpeg/mpegfile.h

Frameworks/taglib/taglib/taglib/mpeg/mpegheader.cpp

Frameworks/taglib/taglib/taglib/mpeg/mpegheader.h

Frameworks/taglib/taglib/taglib/mpeg/mpegproperties.cpp

Frameworks/taglib/taglib/taglib/mpeg/mpegproperties.h

Frameworks/taglib/taglib/taglib/mpeg/xingheader.cpp

Frameworks/taglib/taglib/taglib/mpeg/xingheader.h

Frameworks/taglib/taglib/taglib/ogg

Frameworks/taglib/taglib/taglib/ogg/CMakeLists.txt

Frameworks/taglib/taglib/taglib/ogg/Makefile.am

Frameworks/taglib/taglib/taglib/ogg/flac

Frameworks/taglib/taglib/taglib/ogg/flac/CMakeLists.txt

Frameworks/taglib/taglib/taglib/ogg/flac/Makefile.am

Frameworks/taglib/taglib/taglib/ogg/flac/oggflacfile.cpp

Frameworks/taglib/taglib/taglib/ogg/flac/oggflacfile.h

Frameworks/taglib/taglib/taglib/ogg/oggfile.cpp

Frameworks/taglib/taglib/taglib/ogg/oggfile.h

Frameworks/taglib/taglib/taglib/ogg/oggpage.cpp

Frameworks/taglib/taglib/taglib/ogg/oggpage.h

Frameworks/taglib/taglib/taglib/ogg/oggpageheader.cpp

Frameworks/taglib/taglib/taglib/ogg/oggpageheader.h

Frameworks/taglib/taglib/taglib/ogg/vorbis

Frameworks/taglib/taglib/taglib/ogg/vorbis/CMakeLists.txt

Frameworks/taglib/taglib/taglib/ogg/vorbis/Makefile.am

Frameworks/taglib/taglib/taglib/ogg/vorbis/vorbisfile.cpp

Frameworks/taglib/taglib/taglib/ogg/vorbis/vorbisfile.h

Frameworks/taglib/taglib/taglib/ogg/vorbis/vorbisproperties.cpp

Frameworks/taglib/taglib/taglib/ogg/vorbis/vorbisproperties.h

Frameworks/taglib/taglib/taglib/ogg/xiphcomment.cpp

Frameworks/taglib/taglib/taglib/ogg/xiphcomment.h

Frameworks/taglib/taglib/taglib/speex

Frameworks/taglib/taglib/taglib/speex/CMakeLists.txt

Frameworks/taglib/taglib/taglib/speex/Makefile.am

Frameworks/taglib/taglib/taglib/speex/speexfile.cpp

Frameworks/taglib/taglib/taglib/speex/speexfile.h

Frameworks/taglib/taglib/taglib/speex/speexproperties.cpp

Frameworks/taglib/taglib/taglib/speex/speexproperties.h

Frameworks/taglib/taglib/taglib/tag.cpp

Frameworks/taglib/taglib/taglib/tag.h

Frameworks/taglib/taglib/taglib/taglib.pro

Frameworks/taglib/taglib/taglib/taglib_export.h

Frameworks/taglib/taglib/taglib/tagunion.cpp

Frameworks/taglib/taglib/taglib/tagunion.h

Frameworks/taglib/taglib/taglib/toolkit

Frameworks/taglib/taglib/taglib/toolkit/CMakeLists.txt

Frameworks/taglib/taglib/taglib/toolkit/Makefile.am

Frameworks/taglib/taglib/taglib/toolkit/taglib.h

Frameworks/taglib/taglib/taglib/toolkit/tbytevector.cpp

Frameworks/taglib/taglib/taglib/toolkit/tbytevector.h

Frameworks/taglib/taglib/taglib/toolkit/tbytevectorlist.cpp

Frameworks/taglib/taglib/taglib/toolkit/tbytevectorlist.h

Frameworks/taglib/taglib/taglib/toolkit/tdebug.cpp

Frameworks/taglib/taglib/taglib/toolkit/tdebug.h

Frameworks/taglib/taglib/taglib/toolkit/tfile.cpp

Frameworks/taglib/taglib/taglib/toolkit/tfile.h

Frameworks/taglib/taglib/taglib/toolkit/tlist.h

Frameworks/taglib/taglib/taglib/toolkit/tlist.tcc

Frameworks/taglib/taglib/taglib/toolkit/tmap.h

Frameworks/taglib/taglib/taglib/toolkit/tmap.tcc

Frameworks/taglib/taglib/taglib/toolkit/tstring.cpp

Frameworks/taglib/taglib/taglib/toolkit/tstring.h

Frameworks/taglib/taglib/taglib/toolkit/tstringlist.cpp

Frameworks/taglib/taglib/taglib/toolkit/tstringlist.h

Frameworks/taglib/taglib/taglib/toolkit/unicode.cpp

Frameworks/taglib/taglib/taglib/toolkit/unicode.h

Frameworks/taglib/taglib/taglib/trueaudio

Frameworks/taglib/taglib/taglib/trueaudio/CMakeLists.txt

Frameworks/taglib/taglib/taglib/trueaudio/Makefile.am

Frameworks/taglib/taglib/taglib/trueaudio/trueaudiofile.cpp

Frameworks/taglib/taglib/taglib/trueaudio/trueaudiofile.h

Frameworks/taglib/taglib/taglib/trueaudio/trueaudioproperties.cpp

Frameworks/taglib/taglib/taglib/trueaudio/trueaudioproperties.h

Frameworks/taglib/taglib/taglib/wavpack

Frameworks/taglib/taglib/taglib/wavpack/CMakeLists.txt

Frameworks/taglib/taglib/taglib/wavpack/Makefile.am

Frameworks/taglib/taglib/taglib/wavpack/wavpackfile.cpp

Frameworks/taglib/taglib/taglib/wavpack/wavpackfile.h

Frameworks/taglib/taglib/taglib/wavpack/wavpackproperties.cpp

Frameworks/taglib/taglib/taglib/wavpack/wavpackproperties.h

Frameworks/taglib/taglib/tests

Frameworks/taglib/taglib/tests/CMakeLists.txt

Frameworks/taglib/taglib/tests/Makefile.am

Frameworks/taglib/taglib/tests/data

Frameworks/taglib/taglib/tests/data/005411.id3

Frameworks/taglib/taglib/tests/data/broken-tenc.id3

Frameworks/taglib/taglib/tests/data/click.mpc

Frameworks/taglib/taglib/tests/data/empty.ogg

Frameworks/taglib/taglib/tests/data/empty.spx

Frameworks/taglib/taglib/tests/data/empty.tta

Frameworks/taglib/taglib/tests/data/mpeg2.mp3

Frameworks/taglib/taglib/tests/data/no-tags.flac

Frameworks/taglib/taglib/tests/data/unsynch.id3

Frameworks/taglib/taglib/tests/data/xing.mp3

Frameworks/taglib/taglib/tests/main.cpp

Frameworks/taglib/taglib/tests/test_bytevector.cpp

Frameworks/taglib/taglib/tests/test_fileref.cpp

Frameworks/taglib/taglib/tests/test_id3v1.cpp

Frameworks/taglib/taglib/tests/test_id3v2.cpp

Frameworks/taglib/taglib/tests/test_list.cpp

Frameworks/taglib/taglib/tests/test_map.cpp

Frameworks/taglib/taglib/tests/test_mpeg.cpp

Frameworks/taglib/taglib/tests/test_string.cpp

Frameworks/taglib/taglib/tests/test_synchdata.cpp

Frameworks/taglib/taglib/tests/test_trueaudio.cpp

Frameworks/taglib/taglib/tests/toolkit-test.cpp

Frameworks/taglib/taglib/tests/utils.h

Show diffs side-by-side

added added

removed removed

Frameworks/taglib/taglib/taglib/toolkit/unicode.cpp

/*******************************************************************************

* *

* THIS FILE IS INCLUDED IN TAGLIB, BUT IS NOT COPYRIGHTED BY THE TAGLIB *

* AUTHORS, NOT PART OF THE TAGLIB API AND COULD GO AWAY AT ANY POINT IN TIME. *

* AS SUCH IT SHOULD BE CONSIERED FOR INTERNAL USE ONLY. *

* *

*******************************************************************************/

* Disclaimer

* This source code is provided as is by Unicode, Inc. No claims are

* made as to fitness for any particular purpose. No warranties of any

* kind are expressed or implied. The recipient agrees to determine

* applicability of information provided. If this file has been

* purchased on magnetic or optical media from Unicode, Inc., the

* sole remedy for any claim will be exchange of defective media

* within 90 days of receipt.

* Limitations on Rights to Redistribute This Code

* Unicode, Inc. hereby grants the right to freely use the information

* supplied in this file in the creation of products supporting the

* Unicode Standard, and to make copies of this file in any form

* for internal or external distribution as long as this notice

* remains attached.

* This file has been modified by Scott Wheeler <wheeler@kde.org> to remove

* the UTF32 conversion functions and to place the appropriate functions

* in their own C++ namespace.

/* ---------------------------------------------------------------------

Conversions between UTF32, UTF-16, and UTF-8. Source code file.

Author: Mark E. Davis, 1994.

Rev History: Rick McGowan, fixes & updates May 2001.

Sept 2001: fixed const & error conditions per

mods suggested by S. Parent & A. Lillich.

See the header file "ConvertUTF.h" for complete documentation.

------------------------------------------------------------------------ */

#include "unicode.h"

#include <stdio.h>

#define UNI_SUR_HIGH_START (UTF32)0xD800

#define UNI_SUR_HIGH_END (UTF32)0xDBFF

#define UNI_SUR_LOW_START (UTF32)0xDC00

#define UNI_SUR_LOW_END (UTF32)0xDFFF

#define false 0

#define true 1

namespace Unicode {

static const int halfShift = 10; /* used for shifting by 10 bits */

static const UTF32 halfBase = 0x0010000UL;

static const UTF32 halfMask = 0x3FFUL;

* Index into the table below with the first byte of a UTF-8 sequence to

* get the number of trailing bytes that are supposed to follow it.

static const char trailingBytesForUTF8[256] = {

0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0, 0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,

1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1, 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,

2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2, 3,3,3,3,3,3,3,3,4,4,4,4,5,5,5,5

};

* Magic values subtracted from a buffer value during UTF8 conversion.

* This table contains as many values as there might be trailing bytes

* in a UTF-8 sequence.

static const UTF32 offsetsFromUTF8[6] = { 0x00000000UL, 0x00003080UL, 0x000E2080UL,

0x03C82080UL, 0xFA082080UL, 0x82082080UL };

* Once the bits are split out into bytes of UTF-8, this is a mask OR-ed

* into the first byte, depending on how many bytes follow. There are

* as many entries in this table as there are UTF-8 sequence types.

* (I.e., one byte sequence, two byte... six byte sequence.)

static const UTF8 firstByteMark[7] = { 0x00, 0x00, 0xC0, 0xE0, 0xF0, 0xF8, 0xFC };

/* --------------------------------------------------------------------- */

100

/* The interface converts a whole buffer to avoid function-call overhead.

101

* Constants have been gathered. Loops & conditionals have been removed as

102

* much as possible for efficiency, in favor of drop-through switches.

103

* (See "Note A" at the bottom of the file for equivalent code.)

104

* If your compiler supports it, the "isLegalUTF8" call can be turned

105

* into an inline function.

106

107

108

/* --------------------------------------------------------------------- */

109

110

ConversionResult ConvertUTF16toUTF8 (

111

const UTF16** sourceStart, const UTF16* sourceEnd,

112

UTF8** targetStart, UTF8* targetEnd, ConversionFlags flags) {

113

ConversionResult result = conversionOK;

114

const UTF16* source = *sourceStart;

115

UTF8* target = *targetStart;

116

while (source < sourceEnd) {

117

UTF32 ch;

118

unsigned short bytesToWrite = 0;

119

const UTF32 byteMask = 0xBF;

120

const UTF32 byteMark = 0x80;

121

const UTF16* oldSource = source; /* In case we have to back up because of target overflow. */

122

ch = *source++;

123

/* If we have a surrogate pair, convert to UTF32 first. */

124

if (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_HIGH_END && source < sourceEnd) {

125

UTF32 ch2 = *source;

126

if (ch2 >= UNI_SUR_LOW_START && ch2 <= UNI_SUR_LOW_END) {

127

ch = ((ch - UNI_SUR_HIGH_START) << halfShift)

128

+ (ch2 - UNI_SUR_LOW_START) + halfBase;

129

++source;

130

} else if (flags == strictConversion) { /* it's an unpaired high surrogate */

131

--source; /* return to the illegal value itself */

132

result = sourceIllegal;

133

break;

134

}

135

} else if ((flags == strictConversion) && (ch >= UNI_SUR_LOW_START && ch <= UNI_SUR_LOW_END)) {

136

--source; /* return to the illegal value itself */

137

result = sourceIllegal;

138

break;

139

}

140

/* Figure out how many bytes the result will require */

141

if (ch < (UTF32)0x80) { bytesToWrite = 1;

142

} else if (ch < (UTF32)0x800) { bytesToWrite = 2;

143

} else if (ch < (UTF32)0x10000) { bytesToWrite = 3;

144

} else if (ch < (UTF32)0x200000) { bytesToWrite = 4;

145

} else { bytesToWrite = 2;

146

ch = UNI_REPLACEMENT_CHAR;

147

}

148

// printf("bytes to write = %i\n", bytesToWrite);

149

target += bytesToWrite;

150

if (target > targetEnd) {

151

source = oldSource; /* Back up source pointer! */

152

target -= bytesToWrite; result = targetExhausted; break;

153

}

154

switch (bytesToWrite) { /* note: everything falls through. */

155

case 4: *--target = (ch | byteMark) & byteMask; ch >>= 6;

156

case 3: *--target = (ch | byteMark) & byteMask; ch >>= 6;

157

case 2: *--target = (ch | byteMark) & byteMask; ch >>= 6;

158

case 1: *--target = ch | firstByteMark[bytesToWrite];

159

}

160

target += bytesToWrite;

161

}

162

*sourceStart = source;

163

*targetStart = target;

164

return result;

165

}

166

167

/* --------------------------------------------------------------------- */

168

169

170

* Utility routine to tell whether a sequence of bytes is legal UTF-8.

171

* This must be called with the length pre-determined by the first byte.

172

* If not calling this from ConvertUTF8to*, then the length can be set by:

173

* length = trailingBytesForUTF8[*source]+1;

174

* and the sequence is illegal right away if there aren't that many bytes

175

* available.

176

* If presented with a length > 4, this returns false. The Unicode

177

* definition of UTF-8 goes up to 4-byte sequences.

178

179

180

static Boolean isLegalUTF8(const UTF8 *source, int length) {

181

UTF8 a;

182

const UTF8 *srcptr = source+length;

183

switch (length) {

184

default: return false;

185

/* Everything else falls through when "true"... */

186

case 4: if ((a = (*--srcptr)) < 0x80 || a > 0xBF) return false;

187

case 3: if ((a = (*--srcptr)) < 0x80 || a > 0xBF) return false;

188

case 2: if ((a = (*--srcptr)) > 0xBF) return false;

189

switch (*source) {

190

/* no fall-through in this inner switch */

191

case 0xE0: if (a < 0xA0) return false; break;

192

case 0xF0: if (a < 0x90) return false; break;

193

case 0xF4: if (a > 0x8F) return false; break;

194

default: if (a < 0x80) return false;

195

}

196

case 1: if (*source >= 0x80 && *source < 0xC2) return false;

197

if (*source > 0xF4) return false;

198

}

199

return true;

200

}

201

202

/* --------------------------------------------------------------------- */

203

204

205

* Exported function to return whether a UTF-8 sequence is legal or not.

206

* This is not used here; it's just exported.

207

208

Boolean isLegalUTF8Sequence(const UTF8 *source, const UTF8 *sourceEnd) {

209

int length = trailingBytesForUTF8[*source]+1;

210

if (source+length > sourceEnd) {

211

return false;

212

}

213

return isLegalUTF8(source, length);

214

}

215

216

/* --------------------------------------------------------------------- */

217

218

ConversionResult ConvertUTF8toUTF16 (

219

const UTF8** sourceStart, const UTF8* sourceEnd,

220

UTF16** targetStart, UTF16* targetEnd, ConversionFlags flags) {

221

ConversionResult result = conversionOK;

222

const UTF8* source = *sourceStart;

223

UTF16* target = *targetStart;

224

while (source < sourceEnd) {

225

UTF32 ch = 0;

226

unsigned short extraBytesToRead = trailingBytesForUTF8[*source];

227

if (source + extraBytesToRead >= sourceEnd) {

228

result = sourceExhausted; break;

229

}

230

/* Do this check whether lenient or strict */

231

if (! isLegalUTF8(source, extraBytesToRead+1)) {

232

result = sourceIllegal;

233

break;

234

}

235

236

* The cases all fall through. See "Note A" below.

237

238

switch (extraBytesToRead) {

239

case 3: ch += *source++; ch <<= 6;

240

case 2: ch += *source++; ch <<= 6;

241

case 1: ch += *source++; ch <<= 6;

242

case 0: ch += *source++;

243

}

244

ch -= offsetsFromUTF8[extraBytesToRead];

245

246

if (target >= targetEnd) {

247

source -= (extraBytesToRead+1); /* Back up source pointer! */

248

result = targetExhausted; break;

249

}

250

if (ch <= UNI_MAX_BMP) { /* Target is a character <= 0xFFFF */

251

if ((flags == strictConversion) && (ch >= UNI_SUR_HIGH_START && ch <= UNI_SUR_LOW_END)) {

252

source -= (extraBytesToRead+1); /* return to the illegal value itself */

253

result = sourceIllegal;

254

break;

255

} else {

256

*target++ = ch; /* normal case */

257

}

258

} else if (ch > UNI_MAX_UTF16) {

259

if (flags == strictConversion) {

260

result = sourceIllegal;

261

source -= (extraBytesToRead+1); /* return to the start */

262

break; /* Bail out; shouldn't continue */

263

} else {

264

*target++ = UNI_REPLACEMENT_CHAR;

265

}

266

} else {

267

/* target is a character in range 0xFFFF - 0x10FFFF. */

268

if (target + 1 >= targetEnd) {

269

source -= (extraBytesToRead+1); /* Back up source pointer! */

270

result = targetExhausted; break;

271

}

272

ch -= halfBase;

273

*target++ = (ch >> halfShift) + UNI_SUR_HIGH_START;

274

*target++ = (ch & halfMask) + UNI_SUR_LOW_START;

275

}

276

}

277

*sourceStart = source;

278

*targetStart = target;

279

return result;

280

}

281

282

}

283

284

/* ---------------------------------------------------------------------

285

286

Note A.

287

The fall-through switches in UTF-8 reading code save a

288

temp variable, some decrements & conditionals. The switches

289

are equivalent to the following loop:

290

{

291

int tmpBytesToRead = extraBytesToRead+1;

292

do {

293

ch += *source++;

294

--tmpBytesToRead;

295

if (tmpBytesToRead) ch <<= 6;

296

} while (tmpBytesToRead > 0);

297

}

298

In UTF-8 writing code, the switches on "bytesToWrite" are

299

similarly unrolled loops.

300

301

--------------------------------------------------------------------- */

302

303

Older »