~vcs-imports/xena/trunk

« back to all changes in this revision

Viewing changes to ext/src/juniversalchardet/src/org/mozilla/universalchardet/prober/UTF8Prober.java

  • Committer: matthewoliver
  • Date: 2009-12-10 03:18:07 UTC
  • Revision ID: vcs-imports@canonical.com-20091210031807-l086qguzdlljtkl9
Merged Xena Testing into Xena Stable for the Xena 5 release.

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
/* ***** BEGIN LICENSE BLOCK *****
 
2
 * Version: MPL 1.1/GPL 2.0/LGPL 2.1
 
3
 *
 
4
 * The contents of this file are subject to the Mozilla Public License Version
 
5
 * 1.1 (the "License"); you may not use this file except in compliance with
 
6
 * the License. You may obtain a copy of the License at
 
7
 * http://www.mozilla.org/MPL/
 
8
 *
 
9
 * Software distributed under the License is distributed on an "AS IS" basis,
 
10
 * WITHOUT WARRANTY OF ANY KIND, either express or implied. See the License
 
11
 * for the specific language governing rights and limitations under the
 
12
 * License.
 
13
 *
 
14
 * The Original Code is mozilla.org code.
 
15
 *
 
16
 * The Initial Developer of the Original Code is
 
17
 * Netscape Communications Corporation.
 
18
 * Portions created by the Initial Developer are Copyright (C) 1998
 
19
 * the Initial Developer. All Rights Reserved.
 
20
 *
 
21
 * Contributor(s):
 
22
 *   Kohei TAKETA <k-tak@void.in> (Java port)
 
23
 *
 
24
 * Alternatively, the contents of this file may be used under the terms of
 
25
 * either the GNU General Public License Version 2 or later (the "GPL"), or
 
26
 * the GNU Lesser General Public License Version 2.1 or later (the "LGPL"),
 
27
 * in which case the provisions of the GPL or the LGPL are applicable instead
 
28
 * of those above. If you wish to allow use of your version of this file only
 
29
 * under the terms of either the GPL or the LGPL, and not to allow others to
 
30
 * use your version of this file under the terms of the MPL, indicate your
 
31
 * decision by deleting the provisions above and replace them with the notice
 
32
 * and other provisions required by the GPL or the LGPL. If you do not delete
 
33
 * the provisions above, a recipient may use your version of this file under
 
34
 * the terms of any one of the MPL, the GPL or the LGPL.
 
35
 *
 
36
 * ***** END LICENSE BLOCK ***** */
 
37
 
 
38
package org.mozilla.universalchardet.prober;
 
39
 
 
40
import org.mozilla.universalchardet.prober.statemachine.CodingStateMachine;
 
41
import org.mozilla.universalchardet.prober.statemachine.SMModel;
 
42
import org.mozilla.universalchardet.prober.statemachine.UTF8SMModel;
 
43
import org.mozilla.universalchardet.Constants;
 
44
 
 
45
 
 
46
public class UTF8Prober extends CharsetProber
 
47
{
 
48
    ////////////////////////////////////////////////////////////////
 
49
    // constants
 
50
    ////////////////////////////////////////////////////////////////
 
51
    public static final float ONE_CHAR_PROB = 0.50f;
 
52
    
 
53
 
 
54
    ////////////////////////////////////////////////////////////////
 
55
    // fields
 
56
    ////////////////////////////////////////////////////////////////
 
57
    private CodingStateMachine  codingSM;
 
58
    private ProbingState        state;
 
59
    private int                 numOfMBChar;
 
60
    
 
61
    private static final SMModel smModel = new UTF8SMModel();
 
62
    
 
63
 
 
64
    ////////////////////////////////////////////////////////////////
 
65
    // methods
 
66
    ////////////////////////////////////////////////////////////////
 
67
    public UTF8Prober()
 
68
    {
 
69
        super();
 
70
        this.numOfMBChar = 0;
 
71
        this.codingSM = new CodingStateMachine(smModel);
 
72
 
 
73
        reset();
 
74
    }
 
75
 
 
76
    public String getCharSetName()
 
77
    {
 
78
        return Constants.CHARSET_UTF_8;
 
79
    }
 
80
 
 
81
    public ProbingState handleData(final byte[] buf, int offset, int length)
 
82
    {
 
83
        int codingState;
 
84
 
 
85
        int maxPos = offset + length;
 
86
        for (int i=offset; i<maxPos; ++i) {
 
87
            codingState = this.codingSM.nextState(buf[i]);
 
88
            if (codingState == SMModel.ERROR) {
 
89
                this.state = ProbingState.NOT_ME;
 
90
                break;
 
91
            }
 
92
            if (codingState == SMModel.ITSME) {
 
93
                this.state = ProbingState.FOUND_IT;
 
94
                break;
 
95
            }
 
96
            if (codingState == SMModel.START) {
 
97
                if (this.codingSM.getCurrentCharLen() >= 2) {
 
98
                    ++this.numOfMBChar;
 
99
                }
 
100
            }
 
101
        }
 
102
        
 
103
        if (this.state == ProbingState.DETECTING) {
 
104
            if (getConfidence() > SHORTCUT_THRESHOLD) {
 
105
                this.state = ProbingState.FOUND_IT;
 
106
            }
 
107
        }
 
108
        
 
109
        return this.state;
 
110
    }
 
111
 
 
112
    public ProbingState getState()
 
113
    {
 
114
        return this.state;
 
115
    }
 
116
 
 
117
    public void reset()
 
118
    {
 
119
        this.codingSM.reset();
 
120
        this.numOfMBChar = 0;
 
121
        this.state = ProbingState.DETECTING;
 
122
    }
 
123
 
 
124
    public float getConfidence()
 
125
    {
 
126
        float unlike = 0.99f;
 
127
        
 
128
        if (this.numOfMBChar < 6) {
 
129
            for (int i=0; i<this.numOfMBChar; ++i) {
 
130
                unlike *= ONE_CHAR_PROB;
 
131
            }
 
132
            return (1.0f - unlike);
 
133
        } else {
 
134
            return 0.99f;
 
135
        }
 
136
    }
 
137
 
 
138
    public void setOption()
 
139
    {}
 
140
}