~ubuntu-branches/ubuntu/quantal/sunpinyin/quantal

Viewing changes to src/slm/slmseg/slmseg.cpp

Committer: Package Import Robot
Author(s): YunQiang Su
Date: 2012-03-30 15:31:55 UTC
mfrom: (1.1.3) (1.2.7 sid)
Revision ID: package-import@ubuntu.com-20120330153155-qgls77sogzgtg9zp

Tags: 2.0.3+git20120222-1

* Team upload: git snapshot 20120222.
   - fix breaks if LDFLAGS in environment contains
       multiple words (Closese #646001).
   - rm patches merged to upstream:
       append-os-environ-toenv.patch
       fix-ftbfs-on-sh.patch
       remove-10-candidate-words-limitation.patch
   - refresh disable-lm-dict-compile.patch.
* Bump stardard version to 3.9.3: no modify needed.
* add libsunpinyin3-dbg and python-sunpinyin packages.
* debian/compat to 9, multiarch it.
* rewrite debian/rules with dh 7 format.

files added:
.gitattributes

.gitignore

.pc/strndup_in_cxx.patch

.pc/strndup_in_cxx.patch/src

.pc/strndup_in_cxx.patch/src/portability.cpp

.pc/strndup_in_cxx.patch/src/portability.h

debian/clean

debian/patches/strndup_in_cxx.patch

debian/python-sunpinyin.install

src/ime-core/imi_glibHandler.h

src/ime-core/imi_plugin.cpp

src/ime-core/imi_plugin.h

wrapper

wrapper/gtk_standalone

wrapper/gtk_standalone/SConstruct

wrapper/gtk_standalone/images

wrapper/gtk_standalone/images/cnpunc.png

wrapper/gtk_standalone/images/eng.png

wrapper/gtk_standalone/images/enpunc.png

wrapper/gtk_standalone/images/fullwidth.png

wrapper/gtk_standalone/images/halfwidth.png

wrapper/gtk_standalone/images/han.png

wrapper/gtk_standalone/imi_gtkwin.cpp

wrapper/gtk_standalone/imi_gtkwin.h

wrapper/gtk_standalone/sunpinyin.cpp

wrapper/ibus

wrapper/ibus/CMakeLists.txt

wrapper/ibus/COPYING

wrapper/ibus/LGPL.LICENSE

wrapper/ibus/OPENSOLARIS.LICENSE

wrapper/ibus/README

wrapper/ibus/SConstruct

wrapper/ibus/cmake

wrapper/ibus/cmake/modules

wrapper/ibus/cmake/modules/FindSunPinyin.cmake

wrapper/ibus/cmake/modules/FindiBus.cmake

wrapper/ibus/cmake/modules/Gettext.cmake

wrapper/ibus/cmake/modules/LibFindMacros.cmake

wrapper/ibus/cmake/modules/Paths.cmake

wrapper/ibus/data

wrapper/ibus/data/CMakeLists.txt

wrapper/ibus/data/sunpinyin.xml.in

wrapper/ibus/debian

wrapper/ibus/debian/changelog

wrapper/ibus/debian/control.in

wrapper/ibus/debian/rules

wrapper/ibus/icons

wrapper/ibus/icons/cnpunc.svg

wrapper/ibus/icons/eng.svg

wrapper/ibus/icons/enpunc.svg

wrapper/ibus/icons/fullwidth.svg

wrapper/ibus/icons/halfwidth.svg

wrapper/ibus/icons/han.svg

wrapper/ibus/icons/setup.svg

wrapper/ibus/icons/sunpinyin-logo.png

wrapper/ibus/po

wrapper/ibus/po/CMakeLists.txt

wrapper/ibus/po/ibus-sunpinyin.po

wrapper/ibus/po/zh_CN.po

wrapper/ibus/setup

wrapper/ibus/setup/CMakeLists.txt

wrapper/ibus/setup/config.py.in

wrapper/ibus/setup/ibus-setup-sunpinyin.in

wrapper/ibus/setup/main.py

wrapper/ibus/setup/setup.xml

wrapper/ibus/src

wrapper/ibus/src/CMakeLists.txt

wrapper/ibus/src/debug.cpp

wrapper/ibus/src/debug.h

wrapper/ibus/src/engine.cpp

wrapper/ibus/src/engine.h

wrapper/ibus/src/ibus_common.h

wrapper/ibus/src/ibus_portable.cpp

wrapper/ibus/src/ibus_portable.h

wrapper/ibus/src/imi_ibus_win.cpp

wrapper/ibus/src/imi_ibus_win.h

wrapper/ibus/src/main.cpp

wrapper/ibus/src/pointer.h

wrapper/ibus/src/sunpinyin_config.cpp

wrapper/ibus/src/sunpinyin_config.h

wrapper/ibus/src/sunpinyin_config_keys.h

wrapper/ibus/src/sunpinyin_engine.cpp

wrapper/ibus/src/sunpinyin_engine.h

wrapper/ibus/src/sunpinyin_engine_proxy.cpp

wrapper/ibus/src/sunpinyin_engine_proxy.h

wrapper/ibus/src/sunpinyin_lookup_table.cpp

wrapper/ibus/src/sunpinyin_lookup_table.h

wrapper/ibus/src/sunpinyin_property.cpp

wrapper/ibus/src/sunpinyin_property.h

wrapper/macos

wrapper/macos/CandidateWindow.h

wrapper/macos/CandidateWindow.m

wrapper/macos/English.lproj

wrapper/macos/English.lproj/InfoPlist.strings

wrapper/macos/English.lproj/Localizable.strings

wrapper/macos/English.lproj/MainMenu.xib

wrapper/macos/Frameworks

wrapper/macos/Frameworks/Growl.framework

wrapper/macos/Frameworks/Growl.framework/Growl

wrapper/macos/Frameworks/Growl.framework/Headers

wrapper/macos/Frameworks/Growl.framework/Resources

wrapper/macos/Frameworks/Growl.framework/Versions

wrapper/macos/Frameworks/Growl.framework/Versions/A

wrapper/macos/Frameworks/Growl.framework/Versions/A/Growl

wrapper/macos/Frameworks/Growl.framework/Versions/A/Headers

wrapper/macos/Frameworks/Growl.framework/Versions/A/Headers/Growl.h

wrapper/macos/Frameworks/Growl.framework/Versions/A/Headers/GrowlApplicationBridge-Carbon.h

wrapper/macos/Frameworks/Growl.framework/Versions/A/Headers/GrowlApplicationBridge.h

wrapper/macos/Frameworks/Growl.framework/Versions/A/Headers/GrowlDefines.h

wrapper/macos/Frameworks/Growl.framework/Versions/A/Resources

wrapper/macos/Frameworks/Growl.framework/Versions/A/Resources/Info.plist

wrapper/macos/Frameworks/Growl.framework/Versions/Current

wrapper/macos/Frameworks/Sparkle.framework

wrapper/macos/Frameworks/Sparkle.framework/Headers

wrapper/macos/Frameworks/Sparkle.framework/Resources

wrapper/macos/Frameworks/Sparkle.framework/Sparkle

wrapper/macos/Frameworks/Sparkle.framework/Versions

wrapper/macos/Frameworks/Sparkle.framework/Versions/A

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Headers

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Headers/SUAppcast.h

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Headers/SUAppcastItem.h

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Headers/SUUpdater.h

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Headers/SUVersionComparisonProtocol.h

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Headers/Sparkle.h

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/Info.plist

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/License.txt

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/SUModelTranslation.plist

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/SUStatus.nib

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/en.lproj

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/en.lproj/SUAutomaticUpdateAlert.nib

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/en.lproj/SUUpdateAlert.nib

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/en.lproj/SUUpdatePermissionPrompt.nib

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/en.lproj/Sparkle.strings

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/ja.lproj

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/ja.lproj/SUAutomaticUpdateAlert.nib

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/ja.lproj/SUUpdateAlert.nib

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/ja.lproj/SUUpdatePermissionPrompt.nib

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/ja.lproj/Sparkle.strings

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/relaunch

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/zh_CN.lproj

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/zh_CN.lproj/SUAutomaticUpdateAlert.nib

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/zh_CN.lproj/SUUpdateAlert.nib

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/zh_CN.lproj/SUUpdatePermissionPrompt.nib

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/zh_CN.lproj/Sparkle.strings

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/zh_TW.lproj

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/zh_TW.lproj/SUAutomaticUpdateAlert.nib

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/zh_TW.lproj/SUUpdateAlert.nib

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/zh_TW.lproj/SUUpdatePermissionPrompt.nib

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Resources/zh_TW.lproj/Sparkle.strings

wrapper/macos/Frameworks/Sparkle.framework/Versions/A/Sparkle

wrapper/macos/Frameworks/Sparkle.framework/Versions/Current

wrapper/macos/Info.plist

wrapper/macos/Makefile

wrapper/macos/SunPinyin.icns

wrapper/macos/SunPinyin.xcodeproj

wrapper/macos/SunPinyin.xcodeproj/project.pbxproj

wrapper/macos/SunPinyinApplicationDelegate.h

wrapper/macos/SunPinyinApplicationDelegate.mm

wrapper/macos/SunPinyinInputController.h

wrapper/macos/SunPinyinInputController.mm

wrapper/macos/SunPinyin_Prefix.pch

wrapper/macos/imi_imkitwin.h

wrapper/macos/imi_imkitwin.mm

wrapper/macos/imi_session_wrapper.h

wrapper/macos/imi_session_wrapper.mm

wrapper/macos/macos_keycode.h

wrapper/macos/macos_keycode.mm

wrapper/macos/main.m

wrapper/macos/packaging

wrapper/macos/packaging/README

wrapper/macos/packaging/SunPinyin

wrapper/macos/packaging/SunPinyin/DownloadDataFiles

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/DownloadDataFiles.xcodeproj

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/DownloadDataFiles.xcodeproj/project.pbxproj

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/DownloadDataFilesPane.h

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/DownloadDataFilesPane.m

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/DownloadDataFiles_Prefix.pch

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/English.lproj

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/English.lproj/DownloadDataFiles.xib

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/English.lproj/InfoPlist.strings

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/English.lproj/Localizable.strings

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/Info.plist

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/InstallerSections.plist

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/version.plist

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/zh_CN.lproj

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/zh_CN.lproj/InfoPlist.strings

wrapper/macos/packaging/SunPinyin/DownloadDataFiles/zh_CN.lproj/Localizable.strings

wrapper/macos/packaging/SunPinyin/SunPinyin.packproj

wrapper/macos/packaging/SunPinyin/background.tiff

wrapper/macos/packaging/SunPinyin/license.rtf

wrapper/macos/packaging/SunPinyin/welcome.en.rtf

wrapper/macos/packaging/SunPinyin/welcome.zh-Hans.rtf

wrapper/macos/packaging/appcast.template.xml

wrapper/macos/packaging/dsa_pub.pem

wrapper/macos/packaging/genplist.py

wrapper/macos/packaging/package.py

wrapper/macos/preferences.plist

wrapper/macos/zh_CN.lproj

wrapper/macos/zh_CN.lproj/Localizable.strings

wrapper/macos/zh_CN.lproj/MainMenu.strings

wrapper/scim

wrapper/scim/COPYING

wrapper/scim/LGPL.LICENSE

wrapper/scim/OPENSOLARIS.LICENSE

wrapper/scim/README

wrapper/scim/SConstruct

wrapper/scim/data

wrapper/scim/data/sunpinyin_logo.png

wrapper/scim/src

wrapper/scim/src/imi_scimwin.cpp

wrapper/scim/src/imi_scimwin.h

wrapper/scim/src/sunpinyin_imengine.cpp

wrapper/scim/src/sunpinyin_imengine.h

wrapper/scim/src/sunpinyin_imengine_config_keys.h

wrapper/scim/src/sunpinyin_imengine_setup.cpp

wrapper/scim/src/sunpinyin_keycode.h

wrapper/scim/src/sunpinyin_lookup_table.cpp

wrapper/scim/src/sunpinyin_lookup_table.h

wrapper/scim/src/sunpinyin_private.h

wrapper/scim/src/sunpinyin_utils.cpp

wrapper/scim/src/sunpinyin_utils.h

wrapper/xim

wrapper/xim/COPYING

wrapper/xim/IMdkit

wrapper/xim/IMdkit/FrameMgr.c

wrapper/xim/IMdkit/FrameMgr.h

wrapper/xim/IMdkit/IMConn.c

wrapper/xim/IMdkit/IMMethod.c

wrapper/xim/IMdkit/IMValues.c

wrapper/xim/IMdkit/IMdkit.h

wrapper/xim/IMdkit/Xi18n.h

wrapper/xim/IMdkit/Xi18nX.h

wrapper/xim/IMdkit/XimFunc.h

wrapper/xim/IMdkit/XimProto.h

wrapper/xim/IMdkit/i18nAttr.c

wrapper/xim/IMdkit/i18nClbk.c

wrapper/xim/IMdkit/i18nIMProto.c

wrapper/xim/IMdkit/i18nIc.c

wrapper/xim/IMdkit/i18nMethod.c

wrapper/xim/IMdkit/i18nPtHdr.c

wrapper/xim/IMdkit/i18nUtil.c

wrapper/xim/IMdkit/i18nX.c

wrapper/xim/LGPL.LICENSE

wrapper/xim/OPENSOLARIS.LICENSE

wrapper/xim/README

wrapper/xim/SConstruct

wrapper/xim/common.h

wrapper/xim/data

wrapper/xim/data/chnpunc.png

wrapper/xim/data/eng.png

wrapper/xim/data/eng.svg

wrapper/xim/data/engpunc.png

wrapper/xim/data/full.png

wrapper/xim/data/half.png

wrapper/xim/data/han.png

wrapper/xim/data/han.svg

wrapper/xim/data/settings_ui.xml

wrapper/xim/data/skins

wrapper/xim/data/skins/modern

wrapper/xim/data/skins/modern/eng-hover.png

wrapper/xim/data/skins/modern/eng-press.png

wrapper/xim/data/skins/modern/eng-punc-hover.png

wrapper/xim/data/skins/modern/eng-punc-press.png

wrapper/xim/data/skins/modern/eng-punc.png

wrapper/xim/data/skins/modern/eng.png

wrapper/xim/data/skins/modern/full-hover.png

wrapper/xim/data/skins/modern/full-press.png

wrapper/xim/data/skins/modern/full.png

wrapper/xim/data/skins/modern/half-hover.png

wrapper/xim/data/skins/modern/half-press.png

wrapper/xim/data/skins/modern/half.png

wrapper/xim/data/skins/modern/han-hover.png

wrapper/xim/data/skins/modern/han-press.png

wrapper/xim/data/skins/modern/han-punc-hover.png

wrapper/xim/data/skins/modern/han-punc-press.png

wrapper/xim/data/skins/modern/han-punc.png

wrapper/xim/data/skins/modern/han.png

wrapper/xim/data/skins/modern/icbar.png

wrapper/xim/data/skins/modern/info

wrapper/xim/data/skins/modern/preedit.png

wrapper/xim/data/sunpinyin-logo-big.png

wrapper/xim/data/sunpinyin-logo.png

wrapper/xim/data/xim_config_default

wrapper/xim/debian

wrapper/xim/debian/changelog

wrapper/xim/debian/control.in

wrapper/xim/debian/rules

wrapper/xim/debian/xsunpinyin.install

wrapper/xim/debian/xsunpinyin.postinst

wrapper/xim/debian/xsunpinyin.prerm

wrapper/xim/ic.c

wrapper/xim/ic.h

wrapper/xim/ic_gtk.c

wrapper/xim/ic_skin.c

wrapper/xim/im-switch

wrapper/xim/im-switch/xsunpinyin

wrapper/xim/main.c

wrapper/xim/preferences.c

wrapper/xim/settings.c

wrapper/xim/settings.h

wrapper/xim/skin.c

wrapper/xim/skin.h

wrapper/xim/sunpinyin_preedit.cc

wrapper/xim/sunpinyin_preedit_gtk.cc

wrapper/xim/sunpinyin_preedit_skin.cc

wrapper/xim/sunpinyin_preedit_ui.h

wrapper/xim/ui.c

wrapper/xim/ui.h

wrapper/xim/xim.c

wrapper/xim/xim.h

wrapper/xim/xim_trigger.c

wrapper/xim/xmisc.c

wrapper/xim/xmisc.h

files removed:
.pc/append-os-environ-toenv.patch

.pc/append-os-environ-toenv.patch/SConstruct

.pc/fix-ftbfs-on-mipsel.patch

.pc/fix-ftbfs-on-mipsel.patch/SConstruct

.pc/fix-ftbfs-on-sh.patch

.pc/fix-ftbfs-on-sh.patch/SConstruct

.pc/fix-ldflags-handling.patch

.pc/fix-ldflags-handling.patch/SConstruct

.pc/remove-10-candidate-words-limitation.patch

.pc/remove-10-candidate-words-limitation.patch/src

.pc/remove-10-candidate-words-limitation.patch/src/ime-core

.pc/remove-10-candidate-words-limitation.patch/src/ime-core/imi_view.h

debian/patches/append-os-environ-toenv.patch

debian/patches/fix-ftbfs-on-sh.patch

debian/patches/fix-ldflags-handling.patch

debian/patches/remove-10-candidate-words-limitation.patch

files modified:
.pc/applied-patches

.pc/disable-lm-dict-compile.patch/SConstruct

SConstruct

build/Makefile

debian/changelog

debian/compat

debian/control

debian/libsunpinyin-dev.install

debian/libsunpinyin3.install

debian/patches/disable-lm-dict-compile.patch

debian/patches/series

debian/rules

debian/sunpinyin-utils.install

python/mmseg.py

python/utils.py

src/ime-core/ic_history.cpp

src/ime-core/ic_history.h

src/ime-core/imi_context.cpp

src/ime-core/imi_context.h

src/ime-core/imi_data.cpp

src/ime-core/imi_data.h

src/ime-core/imi_defines.h

src/ime-core/imi_funcobjs.cpp

src/ime-core/imi_funcobjs.h

src/ime-core/imi_keys.h

src/ime-core/imi_option_event.cpp

src/ime-core/imi_option_event.h

src/ime-core/imi_options.cpp

src/ime-core/imi_options.h

src/ime-core/imi_uiobjects.cpp

src/ime-core/imi_uiobjects.h

src/ime-core/imi_view.cpp

src/ime-core/imi_view.h

src/ime-core/imi_view_classic.cpp

src/ime-core/imi_view_classic.h

src/ime-core/imi_winHandler.cpp

src/ime-core/imi_winHandler.h

src/ime-core/lattice_states.cpp

src/ime-core/lattice_states.h

src/ime-core/userdict.cpp

src/ime-core/userdict.h

src/ime-core/utils.h

src/lexicon/genPYT.cpp

src/lexicon/pytrie.cpp

src/lexicon/pytrie.h

src/lexicon/pytrie_gen.cpp

src/lexicon/pytrie_gen.h

src/lexicon/trie_writer.cpp

src/lexicon/trie_writer.h

src/pinyin/datrie.h

src/pinyin/datrie_impl.h

src/pinyin/hunpin_seg.cpp

src/pinyin/hunpin_seg.h

src/pinyin/pinyin_data.cpp

src/pinyin/pinyin_data.h

src/pinyin/pinyin_seg.cpp

src/pinyin/pinyin_seg.h

src/pinyin/quanpin_trie.h

src/pinyin/segmentor.h

src/pinyin/shuangpin_data.cpp

src/pinyin/shuangpin_data.h

src/pinyin/shuangpin_seg.cpp

src/pinyin/shuangpin_seg.h

src/pinyin/syllable.h

src/portability.cpp

src/portability.h

src/slm/getWordFreq/getWordFreq.cpp

src/slm/ids2ngram/idngram.h

src/slm/ids2ngram/idngram_merge.cpp

src/slm/ids2ngram/idngram_merge.h

src/slm/ids2ngram/ids2ngram.cpp

src/slm/mmseg/mmseg.cpp

src/slm/sim_dict.cpp

src/slm/sim_dict.h

src/slm/sim_fmerge.h

src/slm/sim_sen.cpp

src/slm/sim_sen.h

src/slm/sim_slm.cpp

src/slm/sim_slm.h

src/slm/sim_slmbuilder.cpp

src/slm/sim_slmbuilder.h

src/slm/slm.cpp

src/slm/slm.h

src/slm/slmbuild/slmbuild.cpp

src/slm/slminfo/slminfo.cpp

src/slm/slmprune/slmprune.cpp

src/slm/slmseg/slmseg.cpp

src/slm/thread/ValueCompress.cpp

src/slm/thread/ValueCompress.h

src/slm/thread/slmthread.cpp

src/slm/thread/test_vc.cpp

src/slm/tools/clean_rmrb.cpp

src/slm/tools/dumpdict.cpp

src/slm/tslmendian/slm_endian.cpp

src/slm/tslmendian/slm_file.cpp

src/slm/tslmendian/slm_file.h

src/slm/tslmendian/writer.cpp

src/slm/tslmendian/writer.h

src/slm/tslminfo/tslminfo.cpp

src/slm/tslmpack/arpa_conv.cpp

src/slm/tslmpack/arpa_conv.h

src/slm/tslmpack/arpa_slm.cpp

src/slm/tslmpack/arpa_slm.h

src/slm/tslmpack/common.h

src/slm/tslmpack/slmpack.cpp

Show diffs side-by-side

added added

removed removed

src/slm/slmseg/slmseg.cpp

* DO NOT ALTER OR REMOVE COPYRIGHT NOTICES OR THIS HEADER.

* The contents of this file are subject to the terms of either the GNU Lesser

* General Public License Version 2.1 only ("LGPL") or the Common Development and

* Distribution License ("CDDL")(collectively, the "License"). You may not use this

* file except in compliance with the License. You can obtain a copy of the CDDL at

* http://www.opensource.org/licenses/cddl1.php and a copy of the LGPLv2.1 at

* http://www.opensource.org/licenses/lgpl-license.php. See the License for the

* specific language governing permissions and limitations under the License. When

* distributing the software, include this License Header Notice in each file and

* include the full text of the License in the License file as well as the

* following notice:

* NOTICE PURSUANT TO SECTION 9 OF THE COMMON DEVELOPMENT AND DISTRIBUTION LICENSE

* (CDDL)

* For Covered Software in this distribution, this License shall be governed by the

* Any litigation relating to this License shall be subject to the jurisdiction of

* the Federal Courts of the Northern District of California and the state courts

* of the State of California, with venue lying in Santa Clara County, California.

* Contributor(s):

* If you wish your version of this file to be governed by only the CDDL or only

* the LGPL Version 2.1, indicate your decision by adding "[Contributor]" elects to

* include this software in this distribution under the [CDDL or LGPL Version 2.1]

* Version 2.1, or to extend the choice of license to its licensees as provided

* above. However, if you add LGPL Version 2.1 code and therefore, elected the LGPL

* Version 2 license, then the option applies only if the new code is made subject

* to such option by the copyright holder.

#ifdef HAVE_CONFIG_H

static struct option long_options[] =

{

{"dict", 1, 0, 'd'},

{"format", 1, 0, 'f'},

{"show-id", 0, 0, 'i'},

{"s-tok", 1, 0, 's'},

{"model", 1, 0, 'm'},

{0, 0, 0, 0}

{ "dict", 1, 0, 'd' },

{ "format", 1, 0, 'f' },

{ "show-id", 0, 0, 'i' },

{ "s-tok", 1, 0, 's' },

{ "model", 1, 0, 'm' },

{ 0, 0, 0, 0 }

};

static char* s_strDictFile = NULL;

ShowUsage()

{

fprintf(stderr, "\nUsage:\n");

fprintf(stderr, "slmseg -d dict_file [-f (text|bin)] [-i] [-s STOK_ID] [-m lm_file]\n\n");

fprintf(

stderr,

"slmseg -d dict_file [-f (text|bin)] [-i] [-s STOK_ID] [-m lm_file]\n\n");

fprintf(stderr, " -f --format:\n");

fprintf(stderr, " Output Format, can be 'text' or 'bin'. default 'bin'\n");

fprintf(stderr, " Normally, in text mode, word text are output, while in binary mode,\n");

fprintf(stderr, " binary short integer of the word-ids are writed to stdout.\n");

fprintf(stderr,

" Output Format, can be 'text' or 'bin'. default 'bin'\n");

fprintf(

stderr,

" Normally, in text mode, word text are output, while in binary mode,\n");

fprintf(stderr,

" binary short integer of the word-ids are writed to stdout.\n");

fprintf(stderr, " -s --stok:\n");

fprintf(stderr, " Sentence token id. Default 10.\n");

fprintf(stderr, " It will be write to output in binary mode after every sentence.\n");

fprintf(

stderr,

100

" It will be write to output in binary mode after every sentence.\n");

101

fprintf(stderr, " -i --show-id:\n");

fprintf(stderr, " Show Id info. Under text output format mode, Attach id after known-words.\n");

102

fprintf(

103

stderr,

104

" Show Id info. Under text output format mode, Attach id after known-words.\n");

105

fprintf(stderr, " Under binary mode, print id in text.\n");

106

fprintf(stderr, " -m --model:\n");

107

fprintf(stderr, " Language model file name");

108

fprintf(stderr, "\n");

109

fprintf(stderr, "Notes:\n");

100

fprintf(stderr, " Under binary mode, consecutive id of 0 are merged into one 0.\n");

101

fprintf(stderr, " Under text mode, no space are insert between unknown-words. \n");

110

fprintf(stderr,

111

" Under binary mode, consecutive id of 0 are merged into one 0.\n");

112

fprintf(stderr,

113

" Under text mode, no space are insert between unknown-words. \n");

102

114

fprintf(stderr, "\n");

103

115

fprintf(stderr, "\n");

104

116

exit(1000);

108

120

getParameters(int argc, char* argv[])

109

121

{

110

122

int c;

111

while ((c=getopt_long(argc, argv, "d:if:s:m:", long_options, NULL)) != -1)

112

{

123

while ((c =

124

getopt_long(argc, argv, "d:if:s:m:", long_options,

125

NULL)) != -1) {

113

126

switch (c) {

114

127

case 'd':

115

128

s_strDictFile = strdup(optarg);

124

137

s_iSTOKID = atoi(optarg);

125

138

break;

126

139

case 'm':

127

s_strSlmFile = strdup(optarg);

140

s_strSlmFile = strdup(optarg);

128

141

break;

129

142

default:

130

143

ShowUsage();

149

162

}

150

163

151

164

static void

152

output(int len, const TWCHAR* p, TSIMWordId idprev, TSIMWordId idcur, int& nWords)

165

output(int len,

166

const TWCHAR* p,

167

TSIMWordId idprev,

168

TSIMWordId idcur,

169

int& nWords)

153

170

{

154

171

static char mbword[1024];

155

172

static TWCHAR wcword[1024];

156

173

157

174

bool bRealGap = (idcur != SIM_ID_NOT_WORD || idprev != SIM_ID_NOT_WORD);

158

175

if (s_bTextOut) {

159

for (int i=0; i < len; ++i, ++p)

176

for (int i = 0; i < len; ++i, ++p)

160

177

wcword[i] = *p;

161

178

wcword[len] = 0;

162

179

WCSTOMBS(mbword, wcword, sizeof(mbword));

182

199

}

183

200

184

201

struct TLatticeWord {

185

int m_left;

186

int m_right;

187

int m_wordId;

202

int m_left;

203

int m_right;

204

int m_wordId;

188

205

189

TLatticeWord(int left=0, int right=0, int wid=0)

190

: m_left(left), m_right(right), m_wordId(wid) { }

206

TLatticeWord(int left = 0, int right = 0, int wid = 0)

207

: m_left(left), m_right(right), m_wordId(wid)

208

{

209

}

191

210

};

192

211

193

212

typedef std::vector<TLatticeWord> TLatticeWordVec;

194

213

195

214

struct TLatticeStateValue {

196

double m_pr;

197

TLatticeWord* mp_btword;

198

CThreadSlm::TState m_btstate;

215

double m_pr;

216

TLatticeWord* mp_btword;

217

CThreadSlm::TState m_btstate;

199

218

200

TLatticeStateValue(double pr=0.0, TLatticeWord* btword=NULL, CThreadSlm::TState btstate = CThreadSlm::TState())

201

: m_pr(pr), mp_btword(btword), m_btstate(btstate) { }

219

TLatticeStateValue(double pr = 0.0,

220

TLatticeWord* btword = NULL,

221

CThreadSlm::TState btstate = CThreadSlm::TState())

222

: m_pr(pr), mp_btword(btword), m_btstate(btstate)

223

{

224

}

202

225

};

203

226

204

227

typedef std::map<CThreadSlm::TState, TLatticeStateValue> TLatticeColumnStates;

205

228

206

229

struct TLatticeColumn {

207

TLatticeWordVec m_wordstarting;

208

TLatticeColumnStates m_states;

230

TLatticeWordVec m_wordstarting;

231

TLatticeColumnStates m_states;

209

232

};

210

233

211

234

typedef std::vector<TLatticeColumn> CLattice;

212

235

213

inline void insertLatticeWord(CLattice& lattice, TLatticeWord word)

236

inline void

237

insertLatticeWord(CLattice& lattice, TLatticeWord word)

214

238

{

215

239

lattice[word.m_left].m_wordstarting.push_back(word);

216

240

}

220

244

{

221

245

const CSIMDict::TState* pstate;

222

246

223

for (int i=1; (i<word_len) && *(p+i) != WCH_NULL; ++i) {

224

int len = s_dict->matchLongest(s_dict->getRoot(), pstate, p+i);

225

if (word_len < i+len)

226

word_len = i+len;

247

for (int i = 1; (i < word_len) && *(p + i) != WCH_NULL; ++i) {

248

int len = s_dict->matchLongest(s_dict->getRoot(), pstate, p + i);

249

if (word_len < i + len)

250

word_len = i + len;

227

251

}

228

252

229

253

return word_len;

230

254

}

231

255

232

void fullSegBuildLattice(wstring& sntnc, int left, int len, CLattice& lattice)

256

void

257

fullSegBuildLattice(wstring& sntnc, int left, int len, CLattice& lattice)

233

258

{

234

for (int right=left+len; left < right; ++left) {

259

for (int right = left + len; left < right; ++left) {

235

260

bool found = false;

236

261

237

const TWCHAR* p = sntnc.c_str()+left;

262

const TWCHAR* p = sntnc.c_str() + left;

238

263

const CSIMDict::TState* pds = s_dict->getRoot();

239

for (len = 0; left+len < right; ++len) {

264

for (len = 0; left + len < right; ++len) {

240

265

if ((pds = s_dict->step(pds, *p++)) == NULL)

241

266

break;

242

267

if (pds->word_id != SIM_ID_NOT_WORD) {

243

268

found = true;

244

insertLatticeWord(lattice, TLatticeWord(left, left+len+1, pds->word_id));

269

insertLatticeWord(lattice,

270

TLatticeWord(left, left + len + 1,

271

pds->word_id));

245

272

}

246

273

}

247

274

if (!found)

248

insertLatticeWord(lattice, TLatticeWord(left, left+1, SIM_ID_NOT_WORD));

275

insertLatticeWord(lattice,

276

TLatticeWord(left, left + 1, SIM_ID_NOT_WORD));

249

277

}

250

278

}

251

279

252

280

/**

253

* Lattice head should have one state, with its TState using slm's root. its

254

* pr = 0 and its mp_btword == NULL;

255

* Lattice tail must contain no word, and it previous node contain only one word

256

* with its right = left+1, right == tail.

257

* The lattice should ensure the lattice path existing

258

259

void buildLattice(wstring &sntnc, CLattice& lattice)

281

* Lattice head should have one state, with its TState using slm's root. its

282

* pr = 0 and its mp_btword == NULL;

283

* Lattice tail must contain no word, and it previous node contain only one word

284

* with its right = left+1, right == tail.

285

* The lattice should ensure the lattice path existing

286

287

void

288

buildLattice(wstring &sntnc, CLattice& lattice)

260

289

{

261

290

lattice.clear();

262

lattice.resize(sntnc.size()+2);

291

lattice.resize(sntnc.size() + 2);

263

292

264

293

unsigned int idcur = SIM_ID_NOT_WORD;

265

lattice[0].m_states[CThreadSlm::TState()] = TLatticeStateValue(0.0, NULL, CThreadSlm::TState());

294

lattice[0].m_states[CThreadSlm::TState()] = TLatticeStateValue(

295

0.0,

296

NULL,

297

CThreadSlm::

298

TState());

266

299

267

for (int i=0, sz=sntnc.size(); i < sz; ) {

300

for (int i = 0, sz = sntnc.size(); i < sz; ) {

268

301

const CSIMDict::TState* pstate;

269

const TWCHAR* p = sntnc.c_str()+i;

302

const TWCHAR* p = sntnc.c_str() + i;

270

303

int len = s_dict->matchLongest(s_dict->getRoot(), pstate, p);

271

304

if (len <= 0) {

272

305

idcur = SIM_ID_NOT_WORD;

277

310

int ambilen = getAmbiLen(p, len);

278

311

279

312

if (ambilen <= len) {

280

insertLatticeWord(lattice, TLatticeWord(i, i+len, idcur));

313

insertLatticeWord(lattice, TLatticeWord(i, i + len, idcur));

281

314

i += len;

282

315

} else {

283

316

fullSegBuildLattice(sntnc, i, ambilen, lattice);

284

317

i += ambilen;

285

318

}

286

319

}

287

lattice[sntnc.size()].m_wordstarting.push_back(TLatticeWord(sntnc.size(), sntnc.size()+1, s_iSTOKID));

320

lattice[sntnc.size()].m_wordstarting.push_back(TLatticeWord(sntnc.size(),

321

sntnc.size() +

322

1, s_iSTOKID));

288

323

}

289

324

290

void searchBest(CLattice& lattice)

325

void

326

searchBest(CLattice& lattice)

291

327

{

292

for (int i=0, sz=lattice.size(); i < sz; ++i) {

328

for (int i = 0, sz = lattice.size(); i < sz; ++i) {

293

329

TLatticeColumnStates & states = lattice[i].m_states;

294

330

TLatticeColumnStates::iterator itss = states.begin();

295

331

TLatticeColumnStates::iterator itse = states.end();

315

351

}

316

352

}

317

353

318

void getBestPath(CLattice& lattice, TLatticeWordVec& segResult)

354

void

355

getBestPath(CLattice& lattice, TLatticeWordVec& segResult)

319

356

{

320

357

TLatticeColumnStates & states = lattice.back().m_states;

321

358

TLatticeColumnStates::iterator its = states.begin();

360

397

if (!s_bTextOut)

361

398

output_stok(nWords);

362

399

363

while (true){

400

while (true) {

364

401

if (ReadSentence(sntnc, iter, false) == false)

365

402

break;

366

403

371

408

TLatticeWordVec segResult;

372

409

getBestPath(lattice, segResult);

373

410

374

for (int i=0, sz=segResult.size(); i < sz; ++i) {

375

const TWCHAR *p = sntnc.c_str()+segResult[i].m_left;

411

for (int i = 0, sz = segResult.size(); i < sz; ++i) {

412

const TWCHAR *p = sntnc.c_str() + segResult[i].m_left;

376

413

int len = segResult[i].m_right - segResult[i].m_left;

377

414

idcur = segResult[i].m_wordId;

378

415

424

461

fprintf(stderr, "%d words, %d ambiguious. Done!\n", nWords, nAmbis);

425

462

fflush(stderr);

426

463

} else {

427

for (int i=0; i < argc; ++i) {

464

for (int i = 0; i < argc; ++i) {

428

465

fprintf(stderr, "\nProcessing %s...", argv[i]); fflush(stderr);

429

466

FILE *fp = fopen(argv[i], "r");

430

467

if (fp != NULL) {

431

468

processSingleFile(fp, nWords, nAmbis);

432

469

fprintf(stderr, "@Offset %ld, %d words, %d ambiguious. Done!\n",

433

ftell(fp), nWords, nAmbis);

470

ftell(fp), nWords, nAmbis);

434

471

fflush(stderr);

435

472

} else {

436

473

fprintf(stderr, "Can not Open!!!!!!!\n");

Older »