~ubuntu-branches/ubuntu/trusty/sunpinyin/trusty-proposed

« back to all changes in this revision

Viewing changes to src/slm/tslmpack/arpa_slm.h

  • Committer: Bazaar Package Importer
  • Author(s): Zhengpeng Hou
  • Date: 2010-09-06 12:23:46 UTC
  • Revision ID: james.westby@ubuntu.com-20100906122346-yamofztk2j5p85fs
Tags: upstream-2.0.2
ImportĀ upstreamĀ versionĀ 2.0.2

Show diffs side-by-side

added added

removed removed

Lines of Context:
 
1
/*
 
2
 * Copyright (c) 2009 Kov Chai <tchaikov@gmail.com>
 
3
 *
 
4
 * The contents of this file are subject to the terms of either the GNU Lesser
 
5
 * General Public License Version 2.1 only ("LGPL") or the Common Development and
 
6
 * Distribution License ("CDDL")(collectively, the "License"). You may not use this
 
7
 * file except in compliance with the License. You can obtain a copy of the CDDL at
 
8
 * http://www.opensource.org/licenses/cddl1.php and a copy of the LGPLv2.1 at
 
9
 * http://www.opensource.org/licenses/lgpl-license.php. See the License for the 
 
10
 * specific language governing permissions and limitations under the License. When
 
11
 * distributing the software, include this License Header Notice in each file and
 
12
 * include the full text of the License in the License file as well as the
 
13
 * following notice:
 
14
 * 
 
15
 * NOTICE PURSUANT TO SECTION 9 OF THE COMMON DEVELOPMENT AND DISTRIBUTION LICENSE
 
16
 * (CDDL)
 
17
 * For Covered Software in this distribution, this License shall be governed by the
 
18
 * laws of the State of California (excluding conflict-of-law provisions).
 
19
 * Any litigation relating to this License shall be subject to the jurisdiction of
 
20
 * the Federal Courts of the Northern District of California and the state courts
 
21
 * of the State of California, with venue lying in Santa Clara County, California.
 
22
 * 
 
23
 * Contributor(s):
 
24
 * 
 
25
 * If you wish your version of this file to be governed by only the CDDL or only
 
26
 * the LGPL Version 2.1, indicate your decision by adding "[Contributor]" elects to
 
27
 * include this software in this distribution under the [CDDL or LGPL Version 2.1]
 
28
 * license." If you don't indicate a single choice of license, a recipient has the
 
29
 * option to distribute your version of this file under either the CDDL or the LGPL
 
30
 * Version 2.1, or to extend the choice of license to its licensees as provided
 
31
 * above. However, if you add LGPL Version 2.1 code and therefore, elected the LGPL
 
32
 * Version 2 license, then the option applies only if the new code is made subject
 
33
 * to such option by the copyright holder. 
 
34
 */
 
35
#ifndef _ARPA_SLM_H
 
36
#define _ARPA_SLM_H
 
37
 
 
38
#include <istream>
 
39
#include "common.h"
 
40
 
 
41
using std::istream;
 
42
 
 
43
#define N_GRAM (3)
 
44
 
 
45
 
 
46
/* the ARPA style representation of sunpinyin's SLM */
 
47
class CArpaSlm {
 
48
public:
 
49
    struct TLeaf {
 
50
        TSIMWordId hw[N_GRAM];
 
51
        TSIMWordId wid;
 
52
        float pr;
 
53
        unsigned ch;
 
54
        unsigned bon;
 
55
        unsigned bol;
 
56
        void load(istream&, const TLexicon&);
 
57
        int load_words(char* buf, const TLexicon& lexicon);
 
58
        TLeaf() : wid(0), pr(.0), ch(0), bon(0), bol(0) {}
 
59
    };
 
60
 
 
61
    struct TNode : public TLeaf {
 
62
        float bow;
 
63
        void load(istream&, const TLexicon&);
 
64
        void load_level0(istream&);
 
65
    };
 
66
  
 
67
    typedef std::vector<TNode> TNodeLevel;
 
68
    typedef std::vector<TLeaf> TLeafLevel;
 
69
 
 
70
private:
 
71
    TNodeLevel m_levels[N_GRAM+1]; /* [0..N_GRAM] */
 
72
    TLeafLevel m_lastLevel;
 
73
    const bool m_usingLogPr;
 
74
    const unsigned m_N;
 
75
  
 
76
public:
 
77
    /* XXX, ARPA file does not provide these information.
 
78
       so we assume this SLM is trigram, and does not use LogPr */
 
79
    CArpaSlm() : m_usingLogPr(false), m_N(N_GRAM) {}
 
80
    bool good() const { return m_levels[0].size() != 0; }
 
81
    unsigned getN() const { return m_N; }
 
82
    bool usingLogPr() const { return m_usingLogPr; }
 
83
    const TNodeLevel& getLevel(unsigned lvl) const { return m_levels[lvl]; }
 
84
    const TLeafLevel& getLastLevel() const { return m_lastLevel; }
 
85
    unsigned getLevelSize(unsigned lvl) const {
 
86
        assert(lvl <= m_N);
 
87
        if (lvl < m_N) {
 
88
            return m_levels[lvl].size();
 
89
        } else {
 
90
            return m_lastLevel.size();
 
91
        }
 
92
    }
 
93
    /**
 
94
     * initialize the `ch' and `wid' fields of each node in levels
 
95
     */
 
96
    void threading();
 
97
    void load(const char* filename, const TLexicon& lexicon);
 
98
  
 
99
private:
 
100
    /**
 
101
     * find out the first child of a given node in its next level
 
102
     * @param lvl the level where node belongs to
 
103
     * @param node the node
 
104
     * @param last_child the child index of previous node
 
105
     * @return the index of the found child
 
106
     */
 
107
    unsigned find_1st_child(unsigned lvl, const TNode& node, int last_child);
 
108
};
 
109
 
 
110
#endif//_ARPA_SLM_H