~ubuntu-branches/ubuntu/raring/sunpinyin/raring

« back to all changes in this revision

Viewing changes to src/pinyin/pinyin_seg.h

  • Committer: Package Import Robot
  • Author(s): YunQiang Su
  • Date: 2012-03-30 15:31:55 UTC
  • mfrom: (1.1.3) (1.2.7 sid)
  • Revision ID: package-import@ubuntu.com-20120330153155-qgls77sogzgtg9zp
Tags: 2.0.3+git20120222-1
* Team upload: git snapshot 20120222.
   - fix breaks if LDFLAGS in environment contains
       multiple words (Closese #646001).
   - rm patches merged to upstream:
       append-os-environ-toenv.patch
       fix-ftbfs-on-sh.patch
       remove-10-candidate-words-limitation.patch
   - refresh disable-lm-dict-compile.patch.
* Bump stardard version to 3.9.3: no modify needed.
* add libsunpinyin3-dbg and python-sunpinyin packages.
* debian/compat to 9, multiarch it.
* rewrite debian/rules with dh 7 format.

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
1
/*
2
2
 * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS HEADER.
3
 
 * 
 
3
 *
4
4
 * Copyright (c) 2007 Sun Microsystems, Inc. All Rights Reserved.
5
 
 * 
 
5
 *
6
6
 * The contents of this file are subject to the terms of either the GNU Lesser
7
7
 * General Public License Version 2.1 only ("LGPL") or the Common Development and
8
8
 * Distribution License ("CDDL")(collectively, the "License"). You may not use this
9
9
 * file except in compliance with the License. You can obtain a copy of the CDDL at
10
10
 * http://www.opensource.org/licenses/cddl1.php and a copy of the LGPLv2.1 at
11
 
 * http://www.opensource.org/licenses/lgpl-license.php. See the License for the 
 
11
 * http://www.opensource.org/licenses/lgpl-license.php. See the License for the
12
12
 * specific language governing permissions and limitations under the License. When
13
13
 * distributing the software, include this License Header Notice in each file and
14
14
 * include the full text of the License in the License file as well as the
15
15
 * following notice:
16
 
 * 
 
16
 *
17
17
 * NOTICE PURSUANT TO SECTION 9 OF THE COMMON DEVELOPMENT AND DISTRIBUTION LICENSE
18
18
 * (CDDL)
19
19
 * For Covered Software in this distribution, this License shall be governed by the
21
21
 * Any litigation relating to this License shall be subject to the jurisdiction of
22
22
 * the Federal Courts of the Northern District of California and the state courts
23
23
 * of the State of California, with venue lying in Santa Clara County, California.
24
 
 * 
 
24
 *
25
25
 * Contributor(s):
26
 
 * 
 
26
 *
27
27
 * If you wish your version of this file to be governed by only the CDDL or only
28
28
 * the LGPL Version 2.1, indicate your decision by adding "[Contributor]" elects to
29
29
 * include this software in this distribution under the [CDDL or LGPL Version 2.1]
32
32
 * Version 2.1, or to extend the choice of license to its licensees as provided
33
33
 * above. However, if you add LGPL Version 2.1 code and therefore, elected the LGPL
34
34
 * Version 2 license, then the option applies only if the new code is made subject
35
 
 * to such option by the copyright holder. 
 
35
 * to such option by the copyright holder.
36
36
 */
37
37
 
38
38
#ifndef SUNPY_PINYIN_SEG_H
53
53
    typedef std::pair<std::string, std::string> CCorrectionPair;
54
54
    typedef std::vector<CCorrectionPair> CCorrectionPairVec;
55
55
 
56
 
    CGetCorrectionPairOp () : m_bEnabled(false) {m_correctionPairs.reserve(8);}
57
 
 
58
 
    void setEnable (bool value=true) {m_bEnabled = value;}
59
 
    bool isEnabled () {return m_bEnabled;}
60
 
 
61
 
    void setCorrectionPairs (const string_pairs& pairs) 
62
 
        {m_correctionPairs = pairs;}
63
 
 
64
 
    const char * operator () (std::string& pystr, unsigned& matched_len);
65
 
    
 
56
    CGetCorrectionPairOp () : m_bEnabled(false) { m_correctionPairs.reserve(8); }
 
57
 
 
58
    void setEnable(bool value = true) { m_bEnabled = value; }
 
59
    bool isEnabled() { return m_bEnabled; }
 
60
 
 
61
    void setCorrectionPairs(const string_pairs& pairs)
 
62
    { m_correctionPairs = pairs; }
 
63
 
 
64
    const char * operator ()(std::string& pystr, unsigned& matched_len);
 
65
 
66
66
private:
67
 
    CCorrectionPairVec  m_correctionPairs;
68
 
    bool                m_bEnabled;
 
67
    CCorrectionPairVec m_correctionPairs;
 
68
    bool m_bEnabled;
69
69
};
70
70
 
71
71
class CGetFuzzySegmentsOp : private CNonCopyable
72
72
{
73
73
public:
74
 
    typedef std::map<unsigned, std::pair<unsigned, unsigned> > CInnerFuzzyFinalMap;
 
74
    typedef std::map<unsigned,
 
75
                     std::pair<unsigned, unsigned> > CInnerFuzzyFinalMap;
75
76
    typedef std::map<unsigned, std::pair<char, unsigned> > CFuzzySyllableMap;
76
77
 
77
 
    CGetFuzzySegmentsOp () : m_bEnabled(false), m_bInnerFuzzyEnabled(false) {_initMaps();}
78
 
    unsigned operator () (IPySegmentor::TSegmentVec&, IPySegmentor::TSegmentVec&, wstring&);
 
78
    CGetFuzzySegmentsOp () : m_bEnabled(false),
 
79
                             m_bInnerFuzzyEnabled(false) { _initMaps(); }
 
80
    unsigned operator ()(IPySegmentor::TSegmentVec&,
 
81
                         IPySegmentor::TSegmentVec&,
 
82
                         wstring&);
79
83
 
80
 
    void setEnable (bool value=true) {m_bEnabled = value;}
81
 
    void setInnerFuzzyEnable (bool value=true) {m_bInnerFuzzyEnabled = value;}
82
 
    bool isEnabled () {return m_bEnabled;}
 
84
    void setEnable(bool value = true) { m_bEnabled = value; }
 
85
    void setInnerFuzzyEnable(bool value = true) { m_bInnerFuzzyEnabled = value; }
 
86
    bool isEnabled() { return m_bEnabled; }
83
87
 
84
88
private:
85
 
    void        _initMaps ();
86
 
    unsigned    _invalidateSegments (IPySegmentor::TSegmentVec&, IPySegmentor::TSegment&);
 
89
    void        _initMaps();
 
90
    unsigned    _invalidateSegments(IPySegmentor::TSegmentVec&,
 
91
                                    IPySegmentor::TSegment&);
87
92
 
88
 
    bool                      m_bEnabled;
89
 
    bool                      m_bInnerFuzzyEnabled;
90
 
    CInnerFuzzyFinalMap       m_fuzzyFinalMap;
91
 
    CFuzzySyllableMap         m_fuzzyPreMap;
92
 
    CFuzzySyllableMap         m_fuzzyProMap;
 
93
    bool m_bEnabled;
 
94
    bool m_bInnerFuzzyEnabled;
 
95
    CInnerFuzzyFinalMap m_fuzzyFinalMap;
 
96
    CFuzzySyllableMap m_fuzzyPreMap;
 
97
    CFuzzySyllableMap m_fuzzyProMap;
93
98
};
94
99
 
95
100
class CQuanpinSegmentor : public IPySegmentor
97
102
public:
98
103
    CQuanpinSegmentor ();
99
104
 
100
 
    virtual TSegmentVec& getSegments (bool req_aux_segs) 
101
 
    {
102
 
        if (req_aux_segs && m_pGetFuzzySegmentsOp && m_pGetFuzzySegmentsOp->isEnabled()) {
 
105
    virtual TSegmentVec& getSegments(bool req_aux_segs){
 
106
        if (req_aux_segs && m_pGetFuzzySegmentsOp &&
 
107
            m_pGetFuzzySegmentsOp->isEnabled()) {
103
108
            m_merged_segs.clear();
104
 
            std::merge (m_segs.begin(),         m_segs.end(),
105
 
                        m_fuzzy_segs.begin(),   m_fuzzy_segs.end(),
106
 
                        back_inserter(m_merged_segs));
 
109
            std::merge(m_segs.begin(), m_segs.end(),
 
110
                       m_fuzzy_segs.begin(), m_fuzzy_segs.end(),
 
111
                       back_inserter(m_merged_segs));
107
112
            return m_merged_segs;
108
113
        }
109
114
 
110
115
        return m_segs;
111
116
    }
112
117
 
113
 
    virtual const wstring& getInputBuffer () {return m_inputBuf;}
114
 
 
115
 
    virtual const char* getSylSeps () {return "'";}
116
 
 
117
 
    virtual unsigned push (unsigned ch);
118
 
    virtual unsigned pop ();
119
 
    virtual unsigned insertAt (unsigned idx, unsigned ch);
120
 
    virtual unsigned deleteAt (unsigned idx, bool backward=true);
121
 
    virtual unsigned clear (unsigned from=0);
122
 
 
123
 
    virtual unsigned updatedFrom () {return m_updatedFrom;}
 
118
    virtual const wstring& getInputBuffer() { return m_inputBuf; }
 
119
 
 
120
    virtual const char* getSylSeps() { return "'"; }
 
121
 
 
122
    virtual unsigned push(unsigned ch);
 
123
    virtual unsigned pop();
 
124
    virtual unsigned insertAt(unsigned idx, unsigned ch);
 
125
    virtual unsigned deleteAt(unsigned idx, bool backward = true);
 
126
    virtual unsigned clear(unsigned from = 0);
 
127
 
 
128
    virtual unsigned updatedFrom() { return m_updatedFrom; }
124
129
 
125
130
    bool load(const char * pyTrieFileName);
126
 
    
127
 
    void setGetFuzzySyllablesOp (CGetFuzzySyllablesOp<CPinyinData> *op) {m_pGetFuzzySyllablesOp = op;}
128
 
    void setGetCorrectionPairOp (CGetCorrectionPairOp *op) {m_pGetCorrectionPairOp = op;}
129
 
    void setGetFuzzySegmentsOp  (CGetFuzzySegmentsOp  *op) {m_pGetFuzzySegmentsOp  = op;}
 
131
 
 
132
    void setGetFuzzySyllablesOp(CGetFuzzySyllablesOp<CPinyinData> *op) {
 
133
        m_pGetFuzzySyllablesOp = op; }
 
134
    void setGetCorrectionPairOp(CGetCorrectionPairOp *op) {
 
135
        m_pGetCorrectionPairOp = op; }
 
136
    void setGetFuzzySegmentsOp(CGetFuzzySegmentsOp  *op) {
 
137
        m_pGetFuzzySegmentsOp = op; }
130
138
 
131
139
private:
132
 
    inline unsigned _push  (unsigned ch);
133
 
    inline unsigned _clear (unsigned from);
134
 
    inline void _addFuzzySyllables (TSegment &seg);
135
 
    inline unsigned _updateWith (const std::string& new_pystr, unsigned from = UINT_MAX);
136
 
    inline void _locateSegment (unsigned idx, unsigned &strIdx, unsigned &segIdx);
137
 
    
 
140
    inline unsigned _push(unsigned ch);
 
141
    inline unsigned _clear(unsigned from);
 
142
    inline void _addFuzzySyllables(TSegment &seg);
 
143
    inline unsigned _updateWith(const std::string& new_pystr,
 
144
                                unsigned from = UINT_MAX);
 
145
    inline void _locateSegment(unsigned idx, unsigned &strIdx, unsigned &segIdx);
 
146
 
138
147
    CGetFuzzySyllablesOp<CPinyinData>  *m_pGetFuzzySyllablesOp;
139
148
    CGetCorrectionPairOp               *m_pGetCorrectionPairOp;
140
149
    CGetFuzzySegmentsOp                *m_pGetFuzzySegmentsOp;
141
150
 
142
151
    CDATrie<short>                      m_pytrie;
143
 
    std::string                         m_pystr;
144
 
    wstring                             m_inputBuf;
145
 
    TSegmentVec                         m_segs;
146
 
    TSegmentVec                         m_fuzzy_segs;
147
 
    TSegmentVec                         m_merged_segs;
 
152
    std::string m_pystr;
 
153
    wstring m_inputBuf;
 
154
    TSegmentVec m_segs;
 
155
    TSegmentVec m_fuzzy_segs;
 
156
    TSegmentVec m_merged_segs;
148
157
 
149
 
    unsigned                            m_updatedFrom;
 
158
    unsigned m_updatedFrom;
150
159
};
151
160
 
152
161
#endif /* SUNPY_PINYIN_SEG_H */