~ubuntu-branches/ubuntu/raring/sunpinyin/raring

« back to all changes in this revision

Viewing changes to src/slm/ids2ngram/idngram_merge.h

  • Committer: Package Import Robot
  • Author(s): YunQiang Su
  • Date: 2012-03-30 15:31:55 UTC
  • mfrom: (1.1.3) (1.2.7 sid)
  • Revision ID: package-import@ubuntu.com-20120330153155-qgls77sogzgtg9zp
Tags: 2.0.3+git20120222-1
* Team upload: git snapshot 20120222.
   - fix breaks if LDFLAGS in environment contains
       multiple words (Closese #646001).
   - rm patches merged to upstream:
       append-os-environ-toenv.patch
       fix-ftbfs-on-sh.patch
       remove-10-candidate-words-limitation.patch
   - refresh disable-lm-dict-compile.patch.
* Bump stardard version to 3.9.3: no modify needed.
* add libsunpinyin3-dbg and python-sunpinyin packages.
* debian/compat to 9, multiarch it.
* rewrite debian/rules with dh 7 format.

Show diffs side-by-side

added added

removed removed

Lines of Context:
1
1
/*
2
2
 * DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS HEADER.
3
 
 * 
 
3
 *
4
4
 * Copyright (c) 2007 Sun Microsystems, Inc. All Rights Reserved.
5
 
 * 
 
5
 *
6
6
 * The contents of this file are subject to the terms of either the GNU Lesser
7
7
 * General Public License Version 2.1 only ("LGPL") or the Common Development and
8
8
 * Distribution License ("CDDL")(collectively, the "License"). You may not use this
9
9
 * file except in compliance with the License. You can obtain a copy of the CDDL at
10
10
 * http://www.opensource.org/licenses/cddl1.php and a copy of the LGPLv2.1 at
11
 
 * http://www.opensource.org/licenses/lgpl-license.php. See the License for the 
 
11
 * http://www.opensource.org/licenses/lgpl-license.php. See the License for the
12
12
 * specific language governing permissions and limitations under the License. When
13
13
 * distributing the software, include this License Header Notice in each file and
14
14
 * include the full text of the License in the License file as well as the
15
15
 * following notice:
16
 
 * 
 
16
 *
17
17
 * NOTICE PURSUANT TO SECTION 9 OF THE COMMON DEVELOPMENT AND DISTRIBUTION LICENSE
18
18
 * (CDDL)
19
19
 * For Covered Software in this distribution, this License shall be governed by the
21
21
 * Any litigation relating to this License shall be subject to the jurisdiction of
22
22
 * the Federal Courts of the Northern District of California and the state courts
23
23
 * of the State of California, with venue lying in Santa Clara County, California.
24
 
 * 
 
24
 *
25
25
 * Contributor(s):
26
 
 * 
 
26
 *
27
27
 * If you wish your version of this file to be governed by only the CDDL or only
28
28
 * the LGPL Version 2.1, indicate your decision by adding "[Contributor]" elects to
29
29
 * include this software in this distribution under the [CDDL or LGPL Version 2.1]
32
32
 * Version 2.1, or to extend the choice of license to its licensees as provided
33
33
 * above. However, if you add LGPL Version 2.1 code and therefore, elected the LGPL
34
34
 * Version 2 license, then the option applies only if the new code is made subject
35
 
 * to such option by the copyright holder. 
 
35
 * to such option by the copyright holder.
36
36
 */
37
37
 
38
38
#ifndef _SIM_IDNGRAM_MERGE_H
48
48
#include "idngram.h"
49
49
 
50
50
template<int N>
51
 
void DoIdngramMerge(FILE*out, CMultiWayFileMerger<CSIM_IdngramFreq<N> > &merger)
52
 
{
53
 
        merger.start();
54
 
        CSIM_IdngramFreq<N> prevItem;
55
 
        while (true) {
56
 
                file_para<CSIM_IdngramFreq<N> > * ppara = merger.getBest();
57
 
                TUnitAndParaInfo<CSIM_IdngramFreq<N> > & upi = *(*ppara);
58
 
                if (upi.runOut) {
59
 
                        if (prevItem.freq != 0) {
60
 
                                fwrite(prevItem.ids, sizeof(TSIMWordId), N, out);
61
 
                                fwrite(&(prevItem.freq), sizeof(unsigned int), 1, out);
62
 
                        }
63
 
                        break;
64
 
                }
65
 
                CSIM_IdngramFreq<N>& ng = upi.unit;
66
 
                if (!(prevItem == ng)) {
67
 
                        if (prevItem.freq != 0) {
68
 
                                fwrite(prevItem.ids, sizeof(TSIMWordId), N, out);
69
 
                                fwrite(&(prevItem.freq), sizeof(unsigned int), 1, out);
70
 
                        }
71
 
                        prevItem = ng;
72
 
                } else {
73
 
                        assert (prevItem.freq < UINT_MAX);
74
 
                        prevItem.freq += ng.freq;
75
 
                }
76
 
                merger.next();
77
 
        }
78
 
}
79
 
 
80
 
template<int N>
81
 
void ProcessingIdngramMerge(FILE *swap, FILE* out, std::vector<long>& para_offsets)
82
 
{
83
 
        CMultiWayFileMerger<CSIM_IdngramFreq<N> > merger;
84
 
        long s = 0;
85
 
        for (int i=0; i < para_offsets.size(); ++i) {
86
 
                merger.addPara(swap, s, para_offsets[i]);
87
 
                s = para_offsets[i];
88
 
        }
89
 
        DoIdngramMerge<N>(out, merger);
90
 
}
91
 
 
92
 
template<int N>
93
 
void ProcessingIdngramMerge(FILE* out, std::vector<FILE* >& file_list)
94
 
{
95
 
        CMultiWayFileMerger<CSIM_IdngramFreq<N> > merger;
96
 
        for (int i=0; i < file_list.size(); ++i) {
97
 
                fseek(file_list[i], 0, SEEK_END);
98
 
                merger.addPara(file_list[i], 0, ftell(file_list[i]));
99
 
        }
100
 
        DoIdngramMerge<N>(out, merger);
 
51
void DoIdngramMerge(FILE*out,
 
52
                    CMultiWayFileMerger<CSIM_IdngramFreq<N> > &merger){
 
53
    merger.start();
 
54
    CSIM_IdngramFreq<N> prevItem;
 
55
    while (true) {
 
56
        file_para<CSIM_IdngramFreq<N> > * ppara = merger.getBest();
 
57
        TUnitAndParaInfo<CSIM_IdngramFreq<N> > & upi = *(*ppara);
 
58
        if (upi.runOut) {
 
59
            if (prevItem.freq != 0) {
 
60
                fwrite(prevItem.ids, sizeof(TSIMWordId), N, out);
 
61
                fwrite(&(prevItem.freq), sizeof(unsigned int), 1, out);
 
62
            }
 
63
            break;
 
64
        }
 
65
        CSIM_IdngramFreq<N>& ng = upi.unit;
 
66
        if (!(prevItem == ng)) {
 
67
            if (prevItem.freq != 0) {
 
68
                fwrite(prevItem.ids, sizeof(TSIMWordId), N, out);
 
69
                fwrite(&(prevItem.freq), sizeof(unsigned int), 1, out);
 
70
            }
 
71
            prevItem = ng;
 
72
        } else {
 
73
            assert(prevItem.freq < UINT_MAX);
 
74
            prevItem.freq += ng.freq;
 
75
        }
 
76
        merger.next();
 
77
    }
 
78
}
 
79
 
 
80
template<int N>
 
81
void ProcessingIdngramMerge(FILE *swap,
 
82
                            FILE* out,
 
83
                            std::vector<long>& para_offsets){
 
84
    CMultiWayFileMerger<CSIM_IdngramFreq<N> > merger;
 
85
    long s = 0;
 
86
    for (size_t i = 0; i < para_offsets.size(); i++) {
 
87
        merger.addPara(swap, s, para_offsets[i]);
 
88
        s = para_offsets[i];
 
89
    }
 
90
    DoIdngramMerge<N>(out, merger);
 
91
}
 
92
 
 
93
template<int N>
 
94
void ProcessingIdngramMerge(FILE* out, std::vector<FILE* >& file_list){
 
95
    CMultiWayFileMerger<CSIM_IdngramFreq<N> > merger;
 
96
    for (size_t i = 0; i < file_list.size(); ++i) {
 
97
        fseek(file_list[i], 0, SEEK_END);
 
98
        merger.addPara(file_list[i], 0, ftell(file_list[i]));
 
99
    }
 
100
    DoIdngramMerge<N>(out, merger);
101
101
}
102
102
 
103
103
#endif