~ubuntu-branches/ubuntu/oneiric/weka/oneiric

Viewing changes to weka/filters/unsupervised/attribute/StringToWordVector.java

Committer: Bazaar Package Importer
Author(s): Torsten Werner, Soeren Sonnenburg, Torsten Werner
Date: 2008-08-10 21:27:05 UTC
mfrom: (1.1.1 upstream)
Revision ID: james.westby@ubuntu.com-20080810212705-tr8etpnkdx2ziktp

Tags: 3.5.8-1

[ Soeren Sonnenburg ]
* Bump Standards Version to 3.8.0.
* Remove references to non-free Java in debian/copyright.

[ Torsten Werner ]
* new upstream release
* Switch to openjdk-6.
* Move package to main.

files added:
build

build/classes

build/classes/build

build/classes/build/classes

build/classes/build/classes/build

build/classes/build/classes/build/classes

build/classes/build/classes/build/classes/build

build/classes/build/classes/build/classes/build/classes

build/classes/build/classes/build/classes/build/classes/build

build/classes/build/classes/build/classes/build/classes/build/classes

build/classes/build/classes/build/classes/build/classes/build/classes/build

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/core

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/mathematicalexpression

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/mathematicalexpression/Parser.cup

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/mathematicalexpression/Scanner.jflex

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex/LexParse.cup

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex/LexScan.flex

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex/Messages.properties

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex/skeleton.default

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/java_cup

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/java_cup/Lexer.jflex

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/java_cup/parser.cup

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/filters

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised/instance

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression/Parser.cup

build/classes/build/classes/build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression/Scanner.jflex

build/classes/build/classes/build/classes/build/classes/build/classes/weka

build/classes/build/classes/build/classes/build/classes/build/classes/weka/core

build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/mathematicalexpression

build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/mathematicalexpression/Parser.cup

build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/mathematicalexpression/Scanner.jflex

build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser

build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex

build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex/LexParse.cup

build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex/LexScan.flex

build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex/Messages.properties

build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex/skeleton.default

build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/java_cup

build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/java_cup/Lexer.jflex

build/classes/build/classes/build/classes/build/classes/build/classes/weka/core/parser/java_cup/parser.cup

build/classes/build/classes/build/classes/build/classes/build/classes/weka/filters

build/classes/build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised

build/classes/build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised/instance

build/classes/build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression

build/classes/build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression/Parser.cup

build/classes/build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression/Scanner.jflex

build/classes/build/classes/build/classes/build/classes/weka

build/classes/build/classes/build/classes/build/classes/weka/core

build/classes/build/classes/build/classes/build/classes/weka/core/mathematicalexpression

build/classes/build/classes/build/classes/build/classes/weka/core/mathematicalexpression/Parser.cup

build/classes/build/classes/build/classes/build/classes/weka/core/mathematicalexpression/Scanner.jflex

build/classes/build/classes/build/classes/build/classes/weka/core/parser

build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex

build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex/LexParse.cup

build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex/LexScan.flex

build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex/Messages.properties

build/classes/build/classes/build/classes/build/classes/weka/core/parser/JFlex/skeleton.default

build/classes/build/classes/build/classes/build/classes/weka/core/parser/java_cup

build/classes/build/classes/build/classes/build/classes/weka/core/parser/java_cup/Lexer.jflex

build/classes/build/classes/build/classes/build/classes/weka/core/parser/java_cup/parser.cup

build/classes/build/classes/build/classes/build/classes/weka/filters

build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised

build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised/instance

build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression

build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression/Parser.cup

build/classes/build/classes/build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression/Scanner.jflex

build/classes/build/classes/build/classes/weka

build/classes/build/classes/build/classes/weka/core

build/classes/build/classes/build/classes/weka/core/mathematicalexpression

build/classes/build/classes/build/classes/weka/core/mathematicalexpression/Parser.cup

build/classes/build/classes/build/classes/weka/core/mathematicalexpression/Scanner.jflex

build/classes/build/classes/build/classes/weka/core/parser

build/classes/build/classes/build/classes/weka/core/parser/JFlex

build/classes/build/classes/build/classes/weka/core/parser/JFlex/LexParse.cup

build/classes/build/classes/build/classes/weka/core/parser/JFlex/LexScan.flex

build/classes/build/classes/build/classes/weka/core/parser/JFlex/Messages.properties

build/classes/build/classes/build/classes/weka/core/parser/JFlex/skeleton.default

build/classes/build/classes/build/classes/weka/core/parser/java_cup

build/classes/build/classes/build/classes/weka/core/parser/java_cup/Lexer.jflex

build/classes/build/classes/build/classes/weka/core/parser/java_cup/parser.cup

build/classes/build/classes/build/classes/weka/filters

build/classes/build/classes/build/classes/weka/filters/unsupervised

build/classes/build/classes/build/classes/weka/filters/unsupervised/instance

build/classes/build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression

build/classes/build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression/Parser.cup

build/classes/build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression/Scanner.jflex

build/classes/build/classes/weka

build/classes/build/classes/weka/core

build/classes/build/classes/weka/core/mathematicalexpression

build/classes/build/classes/weka/core/mathematicalexpression/Parser.cup

build/classes/build/classes/weka/core/mathematicalexpression/Scanner.jflex

build/classes/build/classes/weka/core/parser

build/classes/build/classes/weka/core/parser/JFlex

build/classes/build/classes/weka/core/parser/JFlex/LexParse.cup

build/classes/build/classes/weka/core/parser/JFlex/LexScan.flex

build/classes/build/classes/weka/core/parser/JFlex/Messages.properties

build/classes/build/classes/weka/core/parser/JFlex/skeleton.default

build/classes/build/classes/weka/core/parser/java_cup

build/classes/build/classes/weka/core/parser/java_cup/Lexer.jflex

build/classes/build/classes/weka/core/parser/java_cup/parser.cup

build/classes/build/classes/weka/filters

build/classes/build/classes/weka/filters/unsupervised

build/classes/build/classes/weka/filters/unsupervised/instance

build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression

build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression/Parser.cup

build/classes/build/classes/weka/filters/unsupervised/instance/subsetbyexpression/Scanner.jflex

build/classes/weka

build/classes/weka/core

build/classes/weka/core/mathematicalexpression

build/classes/weka/core/mathematicalexpression/Parser.cup

build/classes/weka/core/mathematicalexpression/Scanner.jflex

build/classes/weka/core/parser

build/classes/weka/core/parser/JFlex

build/classes/weka/core/parser/JFlex/LexParse.cup

build/classes/weka/core/parser/JFlex/LexScan.flex

build/classes/weka/core/parser/JFlex/Messages.properties

build/classes/weka/core/parser/JFlex/skeleton.default

build/classes/weka/core/parser/java_cup

build/classes/weka/core/parser/java_cup/Lexer.jflex

build/classes/weka/core/parser/java_cup/parser.cup

build/classes/weka/filters

build/classes/weka/filters/unsupervised

build/classes/weka/filters/unsupervised/instance

build/classes/weka/filters/unsupervised/instance/subsetbyexpression

build/classes/weka/filters/unsupervised/instance/subsetbyexpression/Parser.cup

build/classes/weka/filters/unsupervised/instance/subsetbyexpression/Scanner.jflex

changelogs/CHANGELOG-3-5-8.html

weka/associations/AbstractAssociator.java

weka/associations/HotSpot.java

weka/attributeSelection/CostSensitiveASEvaluation.java

weka/attributeSelection/CostSensitiveAttributeEval.java

weka/attributeSelection/CostSensitiveSubsetEval.java

weka/attributeSelection/FilteredAttributeEval.java

weka/attributeSelection/FilteredSubsetEval.java

weka/attributeSelection/LatentSemanticAnalysis.java

weka/classifiers/bayes/BayesianLogisticRegression.java

weka/classifiers/bayes/DMNBtext.java

weka/classifiers/bayes/blr

weka/classifiers/bayes/blr/GaussianPriorImpl.java

weka/classifiers/bayes/blr/LaplacePriorImpl.java

weka/classifiers/bayes/blr/Prior.java

weka/classifiers/functions/supportVector/PrecomputedKernelMatrixKernel.java

weka/classifiers/rules/DTNB.java

weka/classifiers/trees/FT.java

weka/classifiers/trees/ft

weka/classifiers/trees/ft/FTInnerNode.java

weka/classifiers/trees/ft/FTLeavesNode.java

weka/classifiers/trees/ft/FTNode.java

weka/classifiers/trees/ft/FTtree.java

weka/clusterers/AbstractClusterer.java

weka/clusterers/AbstractDensityBasedClusterer.java

weka/clusterers/CLOPE.java

weka/clusterers/sIB.java

weka/core/AbstractStringDistanceFunction.java

weka/core/ClassloaderUtil.java

weka/core/EditDistance.java

weka/core/Environment.java

weka/core/RevisionHandler.java

weka/core/RevisionUtils.java

weka/core/mathematicalexpression

weka/core/mathematicalexpression/Parser.cup

weka/core/mathematicalexpression/Parser.java

weka/core/mathematicalexpression/Scanner.java

weka/core/mathematicalexpression/Scanner.jflex

weka/core/mathematicalexpression/sym.java

weka/core/parser

weka/core/parser/JFlex

weka/core/parser/JFlex/Action.java

weka/core/parser/JFlex/CharClassException.java

weka/core/parser/JFlex/CharClassInterval.java

weka/core/parser/JFlex/CharClasses.java

weka/core/parser/JFlex/CharSet.java

weka/core/parser/JFlex/CharSetEnumerator.java

weka/core/parser/JFlex/CountEmitter.java

weka/core/parser/JFlex/DFA.java

weka/core/parser/JFlex/EOFActions.java

weka/core/parser/JFlex/Emitter.java

weka/core/parser/JFlex/ErrorMessages.java

weka/core/parser/JFlex/GeneratorException.java

weka/core/parser/JFlex/HiLowEmitter.java

weka/core/parser/JFlex/IntCharSet.java

weka/core/parser/JFlex/IntPair.java

weka/core/parser/JFlex/Interval.java

weka/core/parser/JFlex/LexParse.cup

weka/core/parser/JFlex/LexParse.java

weka/core/parser/JFlex/LexScan.flex

weka/core/parser/JFlex/LexScan.java

weka/core/parser/JFlex/LexicalStates.java

weka/core/parser/JFlex/MacroException.java

weka/core/parser/JFlex/Macros.java

weka/core/parser/JFlex/Main.java

weka/core/parser/JFlex/Messages.properties

weka/core/parser/JFlex/NFA.java

weka/core/parser/JFlex/Options.java

weka/core/parser/JFlex/Out.java

weka/core/parser/JFlex/PackEmitter.java

weka/core/parser/JFlex/RegExp.java

weka/core/parser/JFlex/RegExp1.java

weka/core/parser/JFlex/RegExp2.java

weka/core/parser/JFlex/RegExps.java

weka/core/parser/JFlex/ScannerException.java

weka/core/parser/JFlex/SemCheck.java

weka/core/parser/JFlex/SilentExit.java

weka/core/parser/JFlex/Skeleton.java

weka/core/parser/JFlex/StatePairList.java

weka/core/parser/JFlex/StateSet.java

weka/core/parser/JFlex/StateSetEnumerator.java

weka/core/parser/JFlex/StdOutWriter.java

weka/core/parser/JFlex/Timer.java

weka/core/parser/JFlex/skeleton.default

weka/core/parser/JFlex/sym.java

weka/core/parser/java_cup

weka/core/parser/java_cup/ErrorManager.java

weka/core/parser/java_cup/Lexer.java

weka/core/parser/java_cup/Lexer.jflex

weka/core/parser/java_cup/Main.java

weka/core/parser/java_cup/action_part.java

weka/core/parser/java_cup/action_production.java

weka/core/parser/java_cup/assoc.java

weka/core/parser/java_cup/emit.java

weka/core/parser/java_cup/internal_error.java

weka/core/parser/java_cup/lalr_item.java

weka/core/parser/java_cup/lalr_item_set.java

weka/core/parser/java_cup/lalr_state.java

weka/core/parser/java_cup/lalr_transition.java

weka/core/parser/java_cup/lr_item_core.java

weka/core/parser/java_cup/non_terminal.java

weka/core/parser/java_cup/nonassoc_action.java

weka/core/parser/java_cup/parse_action.java

weka/core/parser/java_cup/parse_action_row.java

weka/core/parser/java_cup/parse_action_table.java

weka/core/parser/java_cup/parse_reduce_row.java

weka/core/parser/java_cup/parse_reduce_table.java

weka/core/parser/java_cup/parser.cup

weka/core/parser/java_cup/parser.java

weka/core/parser/java_cup/production.java

weka/core/parser/java_cup/production_part.java

weka/core/parser/java_cup/reduce_action.java

weka/core/parser/java_cup/runtime

weka/core/parser/java_cup/runtime/ComplexSymbolFactory.java

weka/core/parser/java_cup/runtime/DefaultSymbolFactory.java

weka/core/parser/java_cup/runtime/Scanner.java

weka/core/parser/java_cup/runtime/Symbol.java

weka/core/parser/java_cup/runtime/SymbolFactory.java

weka/core/parser/java_cup/runtime/lr_parser.java

weka/core/parser/java_cup/runtime/virtual_parse_stack.java

weka/core/parser/java_cup/shift_action.java

weka/core/parser/java_cup/sym.java

weka/core/parser/java_cup/symbol.java

weka/core/parser/java_cup/symbol_part.java

weka/core/parser/java_cup/symbol_set.java

weka/core/parser/java_cup/terminal.java

weka/core/parser/java_cup/terminal_set.java

weka/core/parser/java_cup/version.java

weka/core/xml/XStream.java

weka/experiment/DatabaseUtils.props.sqlite3

weka/experiment/DensityBasedClustererSplitEvaluator.java

weka/filters/unsupervised/instance/SubsetByExpression.java

weka/filters/unsupervised/instance/subsetbyexpression

weka/filters/unsupervised/instance/subsetbyexpression/Parser.cup

weka/filters/unsupervised/instance/subsetbyexpression/Parser.java

weka/filters/unsupervised/instance/subsetbyexpression/Scanner.java

weka/filters/unsupervised/instance/subsetbyexpression/Scanner.jflex

weka/filters/unsupervised/instance/subsetbyexpression/sym.java

weka/gui/MemoryUsage.props

weka/gui/MemoryUsagePanel.java

weka/gui/beans/FlowRunner.java

weka/gui/beans/IncrementalClassifierEvaluatorCustomizer.java

weka/gui/beans/SerializedModelSaver.java

weka/gui/beans/SerializedModelSaverBeanInfo.java

weka/gui/beans/SerializedModelSaverCustomizer.java

weka/gui/beans/Startable.java

weka/gui/beans/icons/SerializedModelSaver.gif

weka/gui/beans/icons/SerializedModelSaver_animated.gif

weka/parsers.xml

wekadocs/bayesnet/editor

wekadocs/bayesnet/editor/dlg.CPT.eps

wekadocs/bayesnet/editor/dlg.addarc.eps

wekadocs/bayesnet/editor/dlg.addarc2.eps

wekadocs/bayesnet/editor/dlg.addnode.eps

wekadocs/bayesnet/editor/dlg.addvalue.eps

wekadocs/bayesnet/editor/dlg.delarc.eps

wekadocs/bayesnet/editor/dlg.generate.eps

wekadocs/bayesnet/editor/dlg.generated.eps

wekadocs/bayesnet/editor/dlg.layout.eps

wekadocs/bayesnet/editor/dlg.learn.eps

wekadocs/bayesnet/editor/dlg.learnnet.eps

wekadocs/bayesnet/editor/dlg.renamenode.eps

wekadocs/bayesnet/editor/dlg.renamevalue.eps

wekadocs/bayesnet/editor/menuedit.eps

wekadocs/bayesnet/editor/menufile.eps

wekadocs/bayesnet/editor/menuhelp.eps

wekadocs/bayesnet/editor/menutools.eps

wekadocs/bayesnet/editor/menuview.eps

wekadocs/bayesnet/editor/pop.r.addparent.eps

wekadocs/bayesnet/editor/pop.r.delchild.eps

wekadocs/bayesnet/editor/pop.r.delparent.eps

wekadocs/bayesnet/editor/pop.r.delvalue.eps

wekadocs/bayesnet/editor/pop.r.renvalue.eps

wekadocs/bayesnet/editor/pop.r.setevidence.eps

wekadocs/bayesnet/editor/popupmenuleft.eps

wekadocs/bayesnet/editor/toolbar.eps

wekadocs/bayesnet/editor/viewcliques.eps

wekadocs/bayesnet/editor/viewevidence.eps

wekadocs/bayesnet/editor/viewgraph.eps

wekadocs/knowledgeflowtutorial/images/IncrementalChart.eps

wekadocs/knowledgeflowtutorial/images/IncrementalClassifierConfig.eps

wekadocs/knowledgeflowtutorial/images/IncrementalFlow.eps

files modified:
README

debian/changelog

debian/control

debian/rules

weka/associations/Apriori.java

weka/associations/AprioriItemSet.java

weka/associations/Associator.java

weka/associations/AssociatorEvaluation.java

weka/associations/CaRuleGeneration.java

weka/associations/CheckAssociator.java

weka/associations/FilteredAssociator.java

weka/associations/GeneralizedSequentialPatterns.java

weka/associations/ItemSet.java

weka/associations/LabeledItemSet.java

weka/associations/PredictiveApriori.java

weka/associations/PriorEstimation.java

weka/associations/RuleGeneration.java

weka/associations/RuleItem.java

weka/associations/SingleAssociatorEnhancer.java

weka/associations/Tertius.java

weka/associations/gsp/Element.java

weka/associations/gsp/Sequence.java

weka/associations/tertius/AttributeValueLiteral.java

weka/associations/tertius/Body.java

weka/associations/tertius/Head.java

weka/associations/tertius/IndividualInstance.java

weka/associations/tertius/IndividualInstances.java

weka/associations/tertius/IndividualLiteral.java

weka/associations/tertius/Literal.java

weka/associations/tertius/LiteralSet.java

weka/associations/tertius/Predicate.java

weka/associations/tertius/Rule.java

weka/associations/tertius/SimpleLinkedList.java

weka/attributeSelection/ASEvaluation.java

weka/attributeSelection/ASSearch.java

weka/attributeSelection/AttributeEvaluator.java

weka/attributeSelection/AttributeSelection.java

weka/attributeSelection/AttributeTransformer.java

weka/attributeSelection/BestFirst.java

weka/attributeSelection/CfsSubsetEval.java

weka/attributeSelection/CheckAttributeSelection.java

weka/attributeSelection/ChiSquaredAttributeEval.java

weka/attributeSelection/ClassifierSubsetEval.java

weka/attributeSelection/ConsistencySubsetEval.java

weka/attributeSelection/ExhaustiveSearch.java

weka/attributeSelection/FCBFSearch.java

weka/attributeSelection/GainRatioAttributeEval.java

weka/attributeSelection/GeneticSearch.java

weka/attributeSelection/GreedyStepwise.java

weka/attributeSelection/HoldOutSubsetEvaluator.java

weka/attributeSelection/InfoGainAttributeEval.java

weka/attributeSelection/LFSMethods.java

weka/attributeSelection/LinearForwardSelection.java

weka/attributeSelection/OneRAttributeEval.java

weka/attributeSelection/PrincipalComponents.java

weka/attributeSelection/RaceSearch.java

weka/attributeSelection/RandomSearch.java

weka/attributeSelection/RankSearch.java

weka/attributeSelection/Ranker.java

weka/attributeSelection/ReliefFAttributeEval.java

weka/attributeSelection/SVMAttributeEval.java

weka/attributeSelection/SubsetEvaluator.java

weka/attributeSelection/SubsetSizeForwardSelection.java

weka/attributeSelection/SymmetricalUncertAttributeEval.java

weka/attributeSelection/SymmetricalUncertAttributeSetEval.java

weka/attributeSelection/UnsupervisedAttributeEvaluator.java

weka/attributeSelection/UnsupervisedSubsetEvaluator.java

weka/attributeSelection/WrapperSubsetEval.java

weka/build.xml

weka/classifiers/BVDecompose.java

weka/classifiers/BVDecomposeSegCVSub.java

weka/classifiers/CheckClassifier.java

weka/classifiers/CheckSource.java

weka/classifiers/Classifier.java

weka/classifiers/CostMatrix.java

weka/classifiers/EnsembleLibrary.java

weka/classifiers/EnsembleLibraryModel.java

weka/classifiers/EnsembleLibraryModelComparator.java

weka/classifiers/Evaluation.java

weka/classifiers/JythonClassifier.java

weka/classifiers/bayes/AODE.java

weka/classifiers/bayes/AODEsr.java

weka/classifiers/bayes/BayesNet.java

weka/classifiers/bayes/ComplementNaiveBayes.java

weka/classifiers/bayes/HNB.java

weka/classifiers/bayes/NaiveBayes.java

weka/classifiers/bayes/NaiveBayesMultinomial.java

weka/classifiers/bayes/NaiveBayesMultinomialUpdateable.java

weka/classifiers/bayes/NaiveBayesSimple.java

weka/classifiers/bayes/NaiveBayesUpdateable.java

weka/classifiers/bayes/WAODE.java

weka/classifiers/bayes/net/ADNode.java

weka/classifiers/bayes/net/BIFReader.java

weka/classifiers/bayes/net/BayesNetGenerator.java

weka/classifiers/bayes/net/EditableBayesNet.java

weka/classifiers/bayes/net/GUI.java

weka/classifiers/bayes/net/MarginCalculator.java

weka/classifiers/bayes/net/ParentSet.java

weka/classifiers/bayes/net/VaryNode.java

weka/classifiers/bayes/net/estimate/BMAEstimator.java

weka/classifiers/bayes/net/estimate/BayesNetEstimator.java

weka/classifiers/bayes/net/estimate/DiscreteEstimatorBayes.java

weka/classifiers/bayes/net/estimate/DiscreteEstimatorFullBayes.java

weka/classifiers/bayes/net/estimate/MultiNomialBMAEstimator.java

weka/classifiers/bayes/net/estimate/SimpleEstimator.java

weka/classifiers/bayes/net/search/SearchAlgorithm.java

weka/classifiers/bayes/net/search/ci/CISearchAlgorithm.java

weka/classifiers/bayes/net/search/ci/ICSSearchAlgorithm.java

weka/classifiers/bayes/net/search/fixed/FromFile.java

weka/classifiers/bayes/net/search/fixed/NaiveBayes.java

weka/classifiers/bayes/net/search/global/GeneticSearch.java

weka/classifiers/bayes/net/search/global/GlobalScoreSearchAlgorithm.java

weka/classifiers/bayes/net/search/global/HillClimber.java

weka/classifiers/bayes/net/search/global/K2.java

weka/classifiers/bayes/net/search/global/RepeatedHillClimber.java

weka/classifiers/bayes/net/search/global/SimulatedAnnealing.java

weka/classifiers/bayes/net/search/global/TAN.java

weka/classifiers/bayes/net/search/global/TabuSearch.java

weka/classifiers/bayes/net/search/local/GeneticSearch.java

weka/classifiers/bayes/net/search/local/HillClimber.java

weka/classifiers/bayes/net/search/local/K2.java

weka/classifiers/bayes/net/search/local/LAGDHillClimber.java

weka/classifiers/bayes/net/search/local/LocalScoreSearchAlgorithm.java

weka/classifiers/bayes/net/search/local/RepeatedHillClimber.java

weka/classifiers/bayes/net/search/local/SimulatedAnnealing.java

weka/classifiers/bayes/net/search/local/TAN.java

weka/classifiers/bayes/net/search/local/TabuSearch.java

weka/classifiers/evaluation/ConfusionMatrix.java

weka/classifiers/evaluation/CostCurve.java

weka/classifiers/evaluation/EvaluationUtils.java

weka/classifiers/evaluation/MarginCurve.java

weka/classifiers/evaluation/NominalPrediction.java

weka/classifiers/evaluation/NumericPrediction.java

weka/classifiers/evaluation/ThresholdCurve.java

weka/classifiers/evaluation/TwoClassStats.java

weka/classifiers/functions/GaussianProcesses.java

weka/classifiers/functions/IsotonicRegression.java

weka/classifiers/functions/LeastMedSq.java

weka/classifiers/functions/LibSVM.java

weka/classifiers/functions/LinearRegression.java

weka/classifiers/functions/Logistic.java

weka/classifiers/functions/MultilayerPerceptron.java

weka/classifiers/functions/PLSClassifier.java

weka/classifiers/functions/PaceRegression.java

weka/classifiers/functions/RBFNetwork.java

weka/classifiers/functions/SMO.java

weka/classifiers/functions/SMOreg.java

weka/classifiers/functions/SVMreg.java

weka/classifiers/functions/SimpleLinearRegression.java

weka/classifiers/functions/SimpleLogistic.java

weka/classifiers/functions/VotedPerceptron.java

weka/classifiers/functions/Winnow.java

weka/classifiers/functions/neural/LinearUnit.java

weka/classifiers/functions/neural/NeuralConnection.java

weka/classifiers/functions/neural/NeuralNode.java

weka/classifiers/functions/neural/SigmoidUnit.java

weka/classifiers/functions/pace/ChisqMixture.java

weka/classifiers/functions/pace/DiscreteFunction.java

weka/classifiers/functions/pace/MixtureDistribution.java

weka/classifiers/functions/pace/NormalMixture.java

weka/classifiers/functions/pace/PaceMatrix.java

weka/classifiers/functions/supportVector/CheckKernel.java

weka/classifiers/functions/supportVector/Kernel.java

weka/classifiers/functions/supportVector/KernelEvaluation.java

weka/classifiers/functions/supportVector/NormalizedPolyKernel.java

weka/classifiers/functions/supportVector/PolyKernel.java

weka/classifiers/functions/supportVector/Puk.java

weka/classifiers/functions/supportVector/RBFKernel.java

weka/classifiers/functions/supportVector/RegOptimizer.java

weka/classifiers/functions/supportVector/RegSMO.java

weka/classifiers/functions/supportVector/RegSMOImproved.java

weka/classifiers/functions/supportVector/SMOset.java

weka/classifiers/functions/supportVector/StringKernel.java

weka/classifiers/lazy/IB1.java

weka/classifiers/lazy/IBk.java

weka/classifiers/lazy/KStar.java

weka/classifiers/lazy/LBR.java

weka/classifiers/lazy/LWL.java

weka/classifiers/lazy/kstar/KStarCache.java

weka/classifiers/lazy/kstar/KStarNominalAttribute.java

weka/classifiers/lazy/kstar/KStarNumericAttribute.java

weka/classifiers/lazy/kstar/KStarWrapper.java

weka/classifiers/meta/AdaBoostM1.java

weka/classifiers/meta/AdditiveRegression.java

weka/classifiers/meta/AttributeSelectedClassifier.java

weka/classifiers/meta/Bagging.java

weka/classifiers/meta/CVParameterSelection.java

weka/classifiers/meta/ClassificationViaClustering.java

weka/classifiers/meta/ClassificationViaRegression.java

weka/classifiers/meta/CostSensitiveClassifier.java

weka/classifiers/meta/Dagging.java

weka/classifiers/meta/Decorate.java

weka/classifiers/meta/END.java

weka/classifiers/meta/EnsembleSelection.java

weka/classifiers/meta/FilteredClassifier.java

weka/classifiers/meta/Grading.java

weka/classifiers/meta/GridSearch.java

weka/classifiers/meta/LogitBoost.java

weka/classifiers/meta/MetaCost.java

weka/classifiers/meta/MultiBoostAB.java

weka/classifiers/meta/MultiClassClassifier.java

weka/classifiers/meta/MultiScheme.java

weka/classifiers/meta/OrdinalClassClassifier.java

weka/classifiers/meta/RacedIncrementalLogitBoost.java

weka/classifiers/meta/RandomCommittee.java

weka/classifiers/meta/RandomSubSpace.java

weka/classifiers/meta/RegressionByDiscretization.java

weka/classifiers/meta/Stacking.java

weka/classifiers/meta/StackingC.java

weka/classifiers/meta/ThresholdSelector.java

weka/classifiers/meta/Vote.java

weka/classifiers/meta/ensembleSelection/EnsembleMetricHelper.java

weka/classifiers/meta/ensembleSelection/EnsembleSelectionLibrary.java

weka/classifiers/meta/ensembleSelection/EnsembleSelectionLibraryModel.java

weka/classifiers/meta/ensembleSelection/ModelBag.java

weka/classifiers/meta/nestedDichotomies/ClassBalancedND.java

weka/classifiers/meta/nestedDichotomies/DataNearBalancedND.java

weka/classifiers/meta/nestedDichotomies/ND.java

weka/classifiers/mi/CitationKNN.java

weka/classifiers/mi/MDD.java

weka/classifiers/mi/MIBoost.java

weka/classifiers/mi/MIDD.java

weka/classifiers/mi/MIEMDD.java

weka/classifiers/mi/MILR.java

weka/classifiers/mi/MINND.java

weka/classifiers/mi/MIOptimalBall.java

weka/classifiers/mi/MISMO.java

weka/classifiers/mi/MISVM.java

weka/classifiers/mi/MIWrapper.java

weka/classifiers/mi/SimpleMI.java

weka/classifiers/mi/TLD.java

weka/classifiers/mi/TLDSimple.java

weka/classifiers/mi/supportVector/MIPolyKernel.java

weka/classifiers/mi/supportVector/MIRBFKernel.java

weka/classifiers/misc/FLR.java

weka/classifiers/misc/HyperPipes.java

weka/classifiers/misc/MinMaxExtension.java

weka/classifiers/misc/OLM.java

weka/classifiers/misc/OSDL.java

weka/classifiers/misc/SerializedClassifier.java

weka/classifiers/misc/VFI.java

weka/classifiers/misc/monotone/AbsoluteLossFunction.java

weka/classifiers/misc/monotone/BooleanBitMatrix.java

weka/classifiers/misc/monotone/Coordinates.java

weka/classifiers/misc/monotone/CumulativeDiscreteDistribution.java

weka/classifiers/misc/monotone/DiscreteDistribution.java

weka/classifiers/misc/monotone/DistributionUtils.java

weka/classifiers/misc/monotone/EnumerationIterator.java

weka/classifiers/misc/monotone/InstancesComparator.java

weka/classifiers/misc/monotone/InstancesUtil.java

weka/classifiers/misc/monotone/MultiDimensionalSort.java

weka/classifiers/misc/monotone/ZeroOneLossFunction.java

weka/classifiers/rules/ConjunctiveRule.java

weka/classifiers/rules/DecisionTable.java

weka/classifiers/rules/DecisionTableHashKey.java

weka/classifiers/rules/JRip.java

weka/classifiers/rules/M5Rules.java

weka/classifiers/rules/NNge.java

weka/classifiers/rules/OneR.java

weka/classifiers/rules/PART.java

weka/classifiers/rules/Prism.java

weka/classifiers/rules/Ridor.java

weka/classifiers/rules/Rule.java

weka/classifiers/rules/RuleStats.java

weka/classifiers/rules/ZeroR.java

weka/classifiers/rules/part/C45PruneableDecList.java

weka/classifiers/rules/part/ClassifierDecList.java

weka/classifiers/rules/part/MakeDecList.java

weka/classifiers/rules/part/PruneableDecList.java

weka/classifiers/trees/ADTree.java

weka/classifiers/trees/BFTree.java

weka/classifiers/trees/DecisionStump.java

weka/classifiers/trees/Id3.java

weka/classifiers/trees/J48.java

weka/classifiers/trees/J48graft.java

weka/classifiers/trees/LMT.java

weka/classifiers/trees/M5P.java

weka/classifiers/trees/NBTree.java

weka/classifiers/trees/REPTree.java

weka/classifiers/trees/RandomForest.java

weka/classifiers/trees/RandomTree.java

weka/classifiers/trees/SimpleCart.java

weka/classifiers/trees/UserClassifier.java

weka/classifiers/trees/adtree/PredictionNode.java

weka/classifiers/trees/adtree/ReferenceInstances.java

weka/classifiers/trees/adtree/Splitter.java

weka/classifiers/trees/adtree/TwoWayNominalSplit.java

weka/classifiers/trees/adtree/TwoWayNumericSplit.java

weka/classifiers/trees/j48/BinC45ModelSelection.java

weka/classifiers/trees/j48/BinC45Split.java

weka/classifiers/trees/j48/C45ModelSelection.java

weka/classifiers/trees/j48/C45PruneableClassifierTree.java

weka/classifiers/trees/j48/C45PruneableClassifierTreeG.java

weka/classifiers/trees/j48/C45Split.java

weka/classifiers/trees/j48/ClassifierSplitModel.java

weka/classifiers/trees/j48/ClassifierTree.java

weka/classifiers/trees/j48/Distribution.java

weka/classifiers/trees/j48/EntropyBasedSplitCrit.java

weka/classifiers/trees/j48/EntropySplitCrit.java

weka/classifiers/trees/j48/GainRatioSplitCrit.java

weka/classifiers/trees/j48/GraftSplit.java

weka/classifiers/trees/j48/InfoGainSplitCrit.java

weka/classifiers/trees/j48/ModelSelection.java

weka/classifiers/trees/j48/NBTreeClassifierTree.java

weka/classifiers/trees/j48/NBTreeModelSelection.java

weka/classifiers/trees/j48/NBTreeNoSplit.java

weka/classifiers/trees/j48/NBTreeSplit.java

weka/classifiers/trees/j48/NoSplit.java

weka/classifiers/trees/j48/PruneableClassifierTree.java

weka/classifiers/trees/j48/SplitCriterion.java

weka/classifiers/trees/j48/Stats.java

weka/classifiers/trees/lmt/LMTNode.java

weka/classifiers/trees/lmt/LogisticBase.java

weka/classifiers/trees/lmt/ResidualModelSelection.java

weka/classifiers/trees/lmt/ResidualSplit.java

weka/classifiers/trees/m5/CorrelationSplitInfo.java

weka/classifiers/trees/m5/Impurity.java

weka/classifiers/trees/m5/PreConstructedLinearModel.java

weka/classifiers/trees/m5/Rule.java

weka/classifiers/trees/m5/RuleNode.java

weka/classifiers/trees/m5/SplitEvaluate.java

weka/classifiers/trees/m5/Values.java

weka/classifiers/trees/m5/YongSplitInfo.java

weka/classifiers/xml/XMLClassifier.java

weka/clusterers/CheckClusterer.java

weka/clusterers/ClusterEvaluation.java

weka/clusterers/Clusterer.java

weka/clusterers/Cobweb.java

weka/clusterers/DBScan.java

weka/clusterers/DensityBasedClusterer.java

weka/clusterers/EM.java

weka/clusterers/FarthestFirst.java

weka/clusterers/FilteredClusterer.java

weka/clusterers/MakeDensityBasedClusterer.java

weka/clusterers/OPTICS.java

weka/clusterers/RandomizableClusterer.java

weka/clusterers/RandomizableDensityBasedClusterer.java

weka/clusterers/RandomizableSingleClustererEnhancer.java

weka/clusterers/SimpleKMeans.java

weka/clusterers/SingleClustererEnhancer.java

weka/clusterers/XMeans.java

weka/clusterers/forOPTICSAndDBScan/DataObjects/EuclidianDataObject.java

weka/clusterers/forOPTICSAndDBScan/DataObjects/ManhattanDataObject.java

weka/clusterers/forOPTICSAndDBScan/Databases/SequentialDatabase.java

weka/clusterers/forOPTICSAndDBScan/OPTICS_GUI/GraphPanel.java

weka/clusterers/forOPTICSAndDBScan/OPTICS_GUI/OPTICS_Visualizer.java

weka/clusterers/forOPTICSAndDBScan/OPTICS_GUI/ResultVectorTableModel.java

weka/clusterers/forOPTICSAndDBScan/OPTICS_GUI/SERFileFilter.java

weka/clusterers/forOPTICSAndDBScan/OPTICS_GUI/SERObject.java

weka/clusterers/forOPTICSAndDBScan/Utils/EpsilonRange_ListElement.java

weka/clusterers/forOPTICSAndDBScan/Utils/PriorityQueue.java

weka/clusterers/forOPTICSAndDBScan/Utils/PriorityQueueElement.java

weka/clusterers/forOPTICSAndDBScan/Utils/UpdateQueue.java

weka/clusterers/forOPTICSAndDBScan/Utils/UpdateQueueElement.java

weka/core/AlgVector.java

weka/core/AllJavadoc.java

weka/core/Attribute.java

weka/core/AttributeExpression.java

weka/core/AttributeLocator.java

weka/core/AttributeStats.java

weka/core/BinarySparseInstance.java

weka/core/Capabilities.java

weka/core/ChebyshevDistance.java

weka/core/Check.java

weka/core/CheckGOE.java

weka/core/CheckOptionHandler.java

weka/core/CheckScheme.java

weka/core/ClassDiscovery.java

weka/core/ContingencyTables.java

weka/core/Copyright.java

weka/core/Copyright.props

weka/core/Debug.java

weka/core/EuclideanDistance.java

weka/core/FastVector.java

weka/core/FindWithCapabilities.java

weka/core/GlobalInfoJavadoc.java

weka/core/Instance.java

weka/core/InstanceComparator.java

weka/core/Instances.java

weka/core/Javadoc.java

weka/core/Jython.java

weka/core/ListOptions.java

weka/core/ManhattanDistance.java

weka/core/MathematicalExpression.java

weka/core/Matrix.java

weka/core/Memory.java

weka/core/NormalizableDistance.java

weka/core/Optimization.java

weka/core/Option.java

weka/core/OptionHandlerJavadoc.java

weka/core/PropertyPath.java

weka/core/ProtectedProperties.java

weka/core/Queue.java

weka/core/RandomVariates.java

weka/core/Range.java

weka/core/RelationalLocator.java

weka/core/SelectedTag.java

weka/core/SerializationHelper.java

weka/core/SerializedObject.java

weka/core/SingleIndex.java

weka/core/SparseInstance.java

weka/core/SpecialFunctions.java

weka/core/Statistics.java

weka/core/Stopwords.java

weka/core/StringLocator.java

weka/core/SystemInfo.java

weka/core/Tag.java

weka/core/TechnicalInformation.java

weka/core/TechnicalInformationHandlerJavadoc.java

weka/core/Tee.java

weka/core/TestInstances.java

weka/core/Trie.java

weka/core/Utils.java

weka/core/Version.java

weka/core/converters/AbstractFileLoader.java

weka/core/converters/AbstractFileSaver.java

weka/core/converters/ArffLoader.java

weka/core/converters/ArffSaver.java

weka/core/converters/C45Loader.java

weka/core/converters/C45Saver.java

weka/core/converters/CSVLoader.java

weka/core/converters/CSVSaver.java

weka/core/converters/ConverterUtils.java

weka/core/converters/DatabaseConnection.java

weka/core/converters/DatabaseLoader.java

weka/core/converters/DatabaseSaver.java

weka/core/converters/FileSourcedConverter.java

weka/core/converters/LibSVMLoader.java

weka/core/converters/LibSVMSaver.java

weka/core/converters/Loader.java

weka/core/converters/Saver.java

weka/core/converters/SerializedInstancesLoader.java

weka/core/converters/SerializedInstancesSaver.java

weka/core/converters/TextDirectoryLoader.java

weka/core/converters/XRFFLoader.java

weka/core/converters/XRFFSaver.java

weka/core/matrix/CholeskyDecomposition.java

weka/core/matrix/DoubleVector.java

weka/core/matrix/EigenvalueDecomposition.java

weka/core/matrix/ExponentialFormat.java

weka/core/matrix/FlexibleDecimalFormat.java

weka/core/matrix/FloatingPointFormat.java

weka/core/matrix/IntVector.java

weka/core/matrix/LUDecomposition.java

weka/core/matrix/LinearRegression.java

weka/core/matrix/Maths.java

weka/core/matrix/Matrix.java

weka/core/matrix/QRDecomposition.java

weka/core/matrix/SingularValueDecomposition.java

weka/core/neighboursearch/BallTree.java

weka/core/neighboursearch/CoverTree.java

weka/core/neighboursearch/KDTree.java

weka/core/neighboursearch/LinearNNSearch.java

weka/core/neighboursearch/NearestNeighbourSearch.java

weka/core/neighboursearch/PerformanceStats.java

weka/core/neighboursearch/TreePerformanceStats.java

weka/core/neighboursearch/balltrees/BallNode.java

weka/core/neighboursearch/balltrees/BallSplitter.java

weka/core/neighboursearch/balltrees/BallTreeConstructor.java

weka/core/neighboursearch/balltrees/BottomUpConstructor.java

weka/core/neighboursearch/balltrees/MedianDistanceFromArbitraryPoint.java

weka/core/neighboursearch/balltrees/MedianOfWidestDimension.java

weka/core/neighboursearch/balltrees/MiddleOutConstructor.java

weka/core/neighboursearch/balltrees/PointsClosestToFurthestChildren.java

weka/core/neighboursearch/balltrees/TopDownConstructor.java

weka/core/neighboursearch/covertrees/Stack.java

weka/core/neighboursearch/kdtrees/KDTreeNode.java

weka/core/neighboursearch/kdtrees/KDTreeNodeSplitter.java

weka/core/neighboursearch/kdtrees/KMeansInpiredMethod.java

weka/core/neighboursearch/kdtrees/MedianOfWidestDimension.java

weka/core/neighboursearch/kdtrees/MidPointOfWidestDimension.java

weka/core/neighboursearch/kdtrees/SlidingMidPointOfWidestSide.java

weka/core/stemmers/IteratedLovinsStemmer.java

weka/core/stemmers/LovinsStemmer.java

weka/core/stemmers/NullStemmer.java

weka/core/stemmers/SnowballStemmer.java

weka/core/stemmers/Stemmer.java

weka/core/stemmers/Stemming.java

weka/core/tokenizers/AlphabeticTokenizer.java

weka/core/tokenizers/CharacterDelimitedTokenizer.java

weka/core/tokenizers/NGramTokenizer.java

weka/core/tokenizers/Tokenizer.java

weka/core/tokenizers/WordTokenizer.java

weka/core/version.txt

weka/core/xml/KOML.java

weka/core/xml/MethodHandler.java

weka/core/xml/PropertyHandler.java

weka/core/xml/SerialUIDChanger.java

weka/core/xml/XMLBasicSerialization.java

weka/core/xml/XMLDocument.java

weka/core/xml/XMLInstances.java

weka/core/xml/XMLOptions.java

weka/core/xml/XMLSerialization.java

weka/core/xml/XMLSerializationMethodHandler.java

weka/datagenerators/ClusterDefinition.java

weka/datagenerators/DataGenerator.java

weka/datagenerators/Test.java

weka/datagenerators/classifiers/classification/Agrawal.java

weka/datagenerators/classifiers/classification/BayesNet.java

weka/datagenerators/classifiers/classification/LED24.java

weka/datagenerators/classifiers/classification/RDG1.java

weka/datagenerators/classifiers/classification/RandomRBF.java

weka/datagenerators/classifiers/regression/Expression.java

weka/datagenerators/classifiers/regression/MexicanHat.java

weka/datagenerators/clusterers/BIRCHCluster.java

weka/datagenerators/clusterers/SubspaceCluster.java

weka/datagenerators/clusterers/SubspaceClusterDefinition.java

weka/estimators/CheckEstimator.java

weka/estimators/ConditionalEstimator.java

weka/estimators/DDConditionalEstimator.java

weka/estimators/DKConditionalEstimator.java

weka/estimators/DNConditionalEstimator.java

weka/estimators/DiscreteEstimator.java

weka/estimators/Estimator.java

weka/estimators/EstimatorUtils.java

weka/estimators/KDConditionalEstimator.java

weka/estimators/KKConditionalEstimator.java

weka/estimators/KernelEstimator.java

weka/estimators/MahalanobisEstimator.java

weka/estimators/NDConditionalEstimator.java

weka/estimators/NNConditionalEstimator.java

weka/estimators/NormalEstimator.java

weka/estimators/PoissonEstimator.java

weka/experiment/AveragingResultProducer.java

weka/experiment/CSVResultListener.java

weka/experiment/ClassifierSplitEvaluator.java

weka/experiment/CostSensitiveClassifierSplitEvaluator.java

weka/experiment/CrossValidationResultProducer.java

weka/experiment/DatabaseResultListener.java

weka/experiment/DatabaseResultProducer.java

weka/experiment/DatabaseUtils.java

weka/experiment/Experiment.java

weka/experiment/InstanceQuery.java

weka/experiment/InstancesResultListener.java

weka/experiment/LearningRateResultProducer.java

weka/experiment/OutputZipper.java

weka/experiment/PairedCorrectedTTester.java

weka/experiment/PairedStats.java

weka/experiment/PairedStatsCorrected.java

weka/experiment/PairedTTester.java

weka/experiment/PropertyNode.java

weka/experiment/RandomSplitResultProducer.java

weka/experiment/RegressionSplitEvaluator.java

weka/experiment/RemoteEngine.java

weka/experiment/RemoteExperiment.java

weka/experiment/RemoteExperimentEvent.java

weka/experiment/RemoteExperimentSubTask.java

weka/experiment/ResultMatrix.java

weka/experiment/ResultMatrixCSV.java

weka/experiment/ResultMatrixGnuPlot.java

weka/experiment/ResultMatrixHTML.java

weka/experiment/ResultMatrixLatex.java

weka/experiment/ResultMatrixPlainText.java

weka/experiment/ResultMatrixSignificance.java

weka/experiment/Stats.java

weka/experiment/TaskStatusInfo.java

weka/experiment/Tester.java

weka/experiment/xml/XMLExperiment.java

weka/filters/AllFilter.java

weka/filters/CheckSource.java

weka/filters/Filter.java

weka/filters/MultiFilter.java

weka/filters/supervised/attribute/AddClassification.java

weka/filters/supervised/attribute/AttributeSelection.java

weka/filters/supervised/attribute/ClassOrder.java

weka/filters/supervised/attribute/Discretize.java

weka/filters/supervised/attribute/NominalToBinary.java

weka/filters/supervised/attribute/PLSFilter.java

weka/filters/supervised/instance/Resample.java

weka/filters/supervised/instance/SpreadSubsample.java

weka/filters/supervised/instance/StratifiedRemoveFolds.java

weka/filters/unsupervised/attribute/Add.java

weka/filters/unsupervised/attribute/AddCluster.java

weka/filters/unsupervised/attribute/AddExpression.java

weka/filters/unsupervised/attribute/AddID.java

weka/filters/unsupervised/attribute/AddNoise.java

weka/filters/unsupervised/attribute/AddValues.java

weka/filters/unsupervised/attribute/Center.java

weka/filters/unsupervised/attribute/ChangeDateFormat.java

weka/filters/unsupervised/attribute/ClassAssigner.java

weka/filters/unsupervised/attribute/ClusterMembership.java

weka/filters/unsupervised/attribute/Copy.java

weka/filters/unsupervised/attribute/Discretize.java

weka/filters/unsupervised/attribute/FirstOrder.java

weka/filters/unsupervised/attribute/InterquartileRange.java

weka/filters/unsupervised/attribute/KernelFilter.java

weka/filters/unsupervised/attribute/MakeIndicator.java

weka/filters/unsupervised/attribute/MathExpression.java

weka/filters/unsupervised/attribute/MergeTwoValues.java

weka/filters/unsupervised/attribute/MultiInstanceToPropositional.java

weka/filters/unsupervised/attribute/NominalToBinary.java

weka/filters/unsupervised/attribute/NominalToString.java

weka/filters/unsupervised/attribute/Normalize.java

weka/filters/unsupervised/attribute/NumericCleaner.java

weka/filters/unsupervised/attribute/NumericToBinary.java

weka/filters/unsupervised/attribute/NumericToNominal.java

weka/filters/unsupervised/attribute/NumericTransform.java

weka/filters/unsupervised/attribute/Obfuscate.java

weka/filters/unsupervised/attribute/PKIDiscretize.java

weka/filters/unsupervised/attribute/PartitionedMultiFilter.java

weka/filters/unsupervised/attribute/PrincipalComponents.java

weka/filters/unsupervised/attribute/PropositionalToMultiInstance.java

weka/filters/unsupervised/attribute/RELAGGS.java

weka/filters/unsupervised/attribute/RandomProjection.java

weka/filters/unsupervised/attribute/RandomSubset.java

weka/filters/unsupervised/attribute/Remove.java

weka/filters/unsupervised/attribute/RemoveType.java

weka/filters/unsupervised/attribute/RemoveUseless.java

weka/filters/unsupervised/attribute/Reorder.java

weka/filters/unsupervised/attribute/ReplaceMissingValues.java

weka/filters/unsupervised/attribute/Standardize.java

weka/filters/unsupervised/attribute/StringToNominal.java

weka/filters/unsupervised/attribute/StringToWordVector.java

weka/filters/unsupervised/attribute/SwapValues.java

weka/filters/unsupervised/attribute/TimeSeriesDelta.java

weka/filters/unsupervised/attribute/TimeSeriesTranslate.java

weka/filters/unsupervised/attribute/Wavelet.java

weka/filters/unsupervised/instance/NonSparseToSparse.java

weka/filters/unsupervised/instance/Normalize.java

weka/filters/unsupervised/instance/Randomize.java

weka/filters/unsupervised/instance/RemoveFolds.java

weka/filters/unsupervised/instance/RemoveFrequentValues.java

weka/filters/unsupervised/instance/RemoveMisclassified.java

weka/filters/unsupervised/instance/RemovePercentage.java

weka/filters/unsupervised/instance/RemoveRange.java

weka/filters/unsupervised/instance/RemoveWithValues.java

weka/filters/unsupervised/instance/Resample.java

weka/filters/unsupervised/instance/ReservoirSample.java

weka/filters/unsupervised/instance/SparseToNonSparse.java

weka/gui/CheckBoxList.java

weka/gui/DatabaseConnectionDialog.java

weka/gui/ExtensionFileFilter.java

weka/gui/GUIChooser.java

weka/gui/GenericObjectEditor.props

weka/gui/GenericPropertiesCreator.props

weka/gui/LogPanel.java

weka/gui/Main.java

weka/gui/WekaTaskMonitor.java

weka/gui/beans/AbstractTrainingSetProducer.java

weka/gui/beans/Associator.java

weka/gui/beans/AssociatorBeanInfo.java

weka/gui/beans/AttributeSummarizer.java

weka/gui/beans/BatchClustererEvent.java

weka/gui/beans/BeanCommon.java

weka/gui/beans/BeanConnection.java

weka/gui/beans/BeanVisual.java

weka/gui/beans/Beans.props

weka/gui/beans/ClassAssigner.java

weka/gui/beans/ClassValuePicker.java

weka/gui/beans/Classifier.java

weka/gui/beans/ClassifierPerformanceEvaluator.java

weka/gui/beans/Clusterer.java

weka/gui/beans/ClustererPerformanceEvaluator.java

weka/gui/beans/CrossValidationFoldMaker.java

weka/gui/beans/DataVisualizer.java

weka/gui/beans/DataVisualizerBeanInfo.java

weka/gui/beans/Filter.java

weka/gui/beans/GraphViewer.java

weka/gui/beans/IncrementalClassifierEvaluator.java

weka/gui/beans/IncrementalClassifierEvaluatorBeanInfo.java

weka/gui/beans/KnowledgeFlow.java

weka/gui/beans/KnowledgeFlowApp.java

weka/gui/beans/Loader.java

weka/gui/beans/LoaderCustomizer.java

weka/gui/beans/MetaBean.java

weka/gui/beans/ModelPerformanceChart.java

weka/gui/beans/PredictionAppender.java

weka/gui/beans/README_KnowledgeFlow

weka/gui/beans/Saver.java

weka/gui/beans/SaverCustomizer.java

weka/gui/beans/ScatterPlotMatrix.java

weka/gui/beans/StripChart.java

weka/gui/beans/TestSetEvent.java

weka/gui/beans/TestSetMaker.java

weka/gui/beans/TextViewer.java

weka/gui/beans/TextViewerBeanInfo.java

weka/gui/beans/TrainTestSplitMaker.java

weka/gui/beans/TrainingSetEvent.java

weka/gui/beans/TrainingSetMaker.java

weka/gui/beans/xml/XMLBeans.java

weka/gui/boundaryvisualizer/BoundaryPanel.java

weka/gui/experiment/DatasetListPanel.java

weka/gui/experiment/ResultsPanel.java

weka/gui/explorer/ClassifierPanel.java

weka/gui/sql/ConnectionPanel.java

weka/gui/sql/DbUtils.java

weka/gui/sql/QueryPanel.java

weka/gui/sql/ResultSetHelper.java

weka/gui/sql/ResultSetTableModel.java

weka/gui/sql/SqlViewer.java

weka/gui/sql/event/QueryExecuteListener.java

weka/gui/visualize/JPEGWriter.java

weka/gui/visualize/VisualizeUtils.java

wekadocs/README

wekadocs/bayesnet/bayesnet.tex

wekadocs/experimentertutorial/tutorial.tex

wekadocs/explorerguide/guide.tex

wekadocs/knowledgeflowtutorial/tutorial.tex

Show diffs side-by-side

added added

removed removed

weka/filters/unsupervised/attribute/StringToWordVector.java

import weka.core.Option;

import weka.core.OptionHandler;

import weka.core.Range;

import weka.core.RevisionHandler;

import weka.core.RevisionUtils;

import weka.core.SelectedTag;

import weka.core.SparseInstance;

import weka.core.Stopwords;

import weka.core.Capabilities.Capability;

import weka.core.stemmers.NullStemmer;

import weka.core.stemmers.Stemmer;

import weka.core.tokenizers.Tokenizer;

import weka.core.tokenizers.WordTokenizer;

import weka.core.tokenizers.Tokenizer;

import weka.filters.Filter;

import weka.filters.UnsupervisedFilter;

* Surplus words will be discarded..

* (default: 1000)</pre>

* <pre> -prune-rate <rate as a percentage of dataset>

* Specify the rate (e.g., every 10% of the input dataset) at which to periodically prune the dictionary.

* -W prunes after creating a full dictionary. You may not have enough memory for this approach.

* (default: no periodic pruning)</pre>

* <pre> -T

* Transform the word frequencies into log(1+fij)

* where fij is the frequency of word i in jth document(instance).

129

136

* @author Stuart Inglis (stuart@reeltwo.com)

130

137

* @author Gordon Paynter (gordon.paynter@ucr.edu)

131

138

* @author Asrhaf M. Kibriya (amk14@cs.waikato.ac.nz)

132

* @version $Revision: 1.20 $

139

* @version $Revision: 1.25 $

133

140

* @see Stopwords

134

141

135

142

public class StringToWordVector

136

143

extends Filter

137

144

implements UnsupervisedFilter, OptionHandler {

138

145

139

/** for serialization */

146

/** for serialization. */

140

147

static final long serialVersionUID = 8249106275278565424L;

141

148

142

/** Range of columns to convert to word vectors */

149

/** Range of columns to convert to word vectors. */

143

150

protected Range m_SelectedRange = new Range("first-last");

144

151

145

/** Contains a mapping of valid words to attribute indexes */

152

/** Contains a mapping of valid words to attribute indexes. */

146

153

private TreeMap m_Dictionary = new TreeMap();

147

154

148

155

/** True if output instances should contain word frequency rather than boolean 0 or 1. */

149

156

private boolean m_OutputCounts = false;

150

157

151

/** A String prefix for the attribute names */

158

/** A String prefix for the attribute names. */

152

159

private String m_Prefix = "";

153

160

154

161

/** Contains the number of documents (instances) a particular word appears in.

155

The counts are stored with the same indexing as given by m_Dictionary. */

162

The counts are stored with the same indexing as given by m_Dictionary. */

156

163

private int [] m_DocsCounts;

157

164

158

165

/** Contains the number of documents (instances) in the input format from

159

which the dictionary is created. It is used in IDF transform. */

166

which the dictionary is created. It is used in IDF transform. */

160

167

private int m_NumInstances = -1;

161

168

162

169

/**

165

172

* documents which will be normalized to average document length.

166

173

167

174

private double m_AvgDocLength = -1;

168

175

169

176

/**

170

177

* The default number of words (per class if there is a class attribute

171

178

* assigned) to attempt to keep.

172

179

173

180

private int m_WordsToKeep = 1000;

174

181

182

/**

183

* The percentage at which to periodically prune the dictionary.

184

185

private double m_PeriodicPruningRate = -1;

186

175

187

/** True if word frequencies should be transformed into log(1+fi)

176

where fi is the frequency of word i

188

where fi is the frequency of word i.

177

189

178

190

private boolean m_TFTransform;

179

191

180

192

/** The normalization to apply. */

181

193

protected int m_filterType = FILTER_NONE;

182

183

/** normalization: No normalization */

194

195

/** normalization: No normalization. */

184

196

public static final int FILTER_NONE = 0;

185

/** normalization: Normalize all data */

197

/** normalization: Normalize all data. */

186

198

public static final int FILTER_NORMALIZE_ALL = 1;

187

/** normalization: Normalize test data only */

199

/** normalization: Normalize test data only. */

188

200

public static final int FILTER_NORMALIZE_TEST_ONLY = 2;

189

201

190

202

/** Specifies whether document's (instance's) word frequencies are

197

209

};

198

210

199

211

/** True if word frequencies should be transformed into

200

fij*log(numOfDocs/numOfDocsWithWordi) */

212

fij*log(numOfDocs/numOfDocsWithWordi). */

201

213

private boolean m_IDFTransform;

202

203

/** True if all tokens should be downcased */

214

215

/** True if all tokens should be downcased. */

204

216

private boolean m_lowerCaseTokens;

205

217

206

218

/** True if tokens that are on a stoplist are to be ignored. */

207

219

private boolean m_useStoplist;

208

220

209

/** the stemming algorithm */

221

/** the stemming algorithm. */

210

222

private Stemmer m_Stemmer = new NullStemmer();

211

223

212

/** the minimum (per-class) word frequency */

224

/** the minimum (per-class) word frequency. */

213

225

private int m_minTermFreq = 1;

214

215

/** whether to operate on a per-class basis */

226

227

/** whether to operate on a per-class basis. */

216

228

private boolean m_doNotOperateOnPerClassBasis = false;

217

229

218

230

/** a file containing stopwords for using others than the default Rainbow

219

* ones */

231

* ones. */

220

232

private File m_Stopwords = new File(System.getProperty("user.dir"));

221

233

222

/** the tokenizer algorithm to use */

234

/** the tokenizer algorithm to use. */

223

235

private Tokenizer m_Tokenizer = new WordTokenizer();

224

236

225

237

/**

227

239

228

240

public StringToWordVector() {

229

241

}

230

242

231

243

/**

232

* Returns an enumeration describing the available options

244

* Returns an enumeration describing the available options.

233

245

234

246

* @return an enumeration of all the available options

235

247

261

273

"W", 1, "-W <number of words to keep>"));

262

274

263

275

result.addElement(new Option(

276

"\tSpecify the rate (e.g., every 10% of the input dataset) at which to periodically prune the dictionary.\n"

277

+ "\t-W prunes after creating a full dictionary. You may not have enough memory for this approach.\n"

278

+ "\t(default: no periodic pruning)",

279

"prune-rate", 1, "-prune-rate <rate as a percentage of dataset>"));

280

281

result.addElement(new Option(

264

282

"\tTransform the word frequencies into log(1+fij)\n"+

265

283

"\twhere fij is the frequency of word i in jth document(instance).\n",

266

284

"T", 0, "-T"));

320

338

/**

321

339

* Parses a given list of options.

322

340

323

324

* Valid options are:

325

326

* <pre> -C

327

* Output word counts rather than boolean word presence.

328

* </pre>

329

330

* <pre> -R <index1,index2-index4,...>

331

* Specify list of string attributes to convert to words (as weka Range).

332

* (default: select all string attributes)</pre>

333

334

* <pre> -V

335

* Invert matching sense of column indexes.</pre>

336

337

* <pre> -P <attribute name prefix>

338

* Specify a prefix for the created attribute names.

339

* (default: "")</pre>

340

341

* <pre> -W <number of words to keep>

342

* Specify approximate number of word fields to create.

343

* Surplus words will be discarded..

344

* (default: 1000)</pre>

345

346

* <pre> -T

347

* Transform the word frequencies into log(1+fij)

348

* where fij is the frequency of word i in jth document(instance).

349

* </pre>

350

351

* <pre> -I

352

* Transform each word frequency into:

353

* fij*log(num of Documents/num of documents containing word i)

354

* where fij if frequency of word i in jth document(instance)</pre>

355

356

* <pre> -N

357

* Whether to 0=not normalize/1=normalize all data/2=normalize test data only

358

* to average length of training documents (default 0=don't normalize).</pre>

359

360

* <pre> -L

361

* Convert all tokens to lowercase before adding to the dictionary.</pre>

362

363

* <pre> -S

364

* Ignore words that are in the stoplist.</pre>

365

366

* <pre> -stemmer <spec>

367

* The stemmering algorihtm (classname plus parameters) to use.</pre>

368

369

* <pre> -M <int>

370

* The minimum term frequency (default = 1).</pre>

371

372

* <pre> -O

373

* If this is set, the maximum number of words and the

374

* minimum term frequency is not enforced on a per-class

375

* basis but based on the documents in all the classes

376

* (even if a class attribute is set).</pre>

377

378

* <pre> -stopwords <file>

379

* A file containing stopwords to override the default ones.

380

* Using this option automatically sets the flag ('-S') to use the

381

* stoplist if the file exists.

382

* Format: one stopword per line, lines starting with '#'

383

* are interpreted as comments and ignored.</pre>

384

385

* <pre> -tokenizer <spec>

386

* The tokenizing algorihtm (classname plus parameters) to use.

387

* (default: weka.core.tokenizers.WordTokenizer)</pre>

388

389

341

342

* Valid options are:

343

344

* <pre> -C

345

* Output word counts rather than boolean word presence.

346

* </pre>

347

348

* <pre> -R <index1,index2-index4,...>

349

* Specify list of string attributes to convert to words (as weka Range).

350

* (default: select all string attributes)</pre>

351

352

* <pre> -V

353

* Invert matching sense of column indexes.</pre>

354

355

* <pre> -P <attribute name prefix>

356

* Specify a prefix for the created attribute names.

357

* (default: "")</pre>

358

359

* <pre> -W <number of words to keep>

360

* Specify approximate number of word fields to create.

361

* Surplus words will be discarded..

362

* (default: 1000)</pre>

363

364

* <pre> -prune-rate <rate as a percentage of dataset>

365

* Specify the rate (e.g., every 10% of the input dataset) at which to periodically prune the dictionary.

366

* -W prunes after creating a full dictionary. You may not have enough memory for this approach.

367

* (default: no periodic pruning)</pre>

368

369

* <pre> -T

370

* Transform the word frequencies into log(1+fij)

371

* where fij is the frequency of word i in jth document(instance).

372

* </pre>

373

374

* <pre> -I

375

* Transform each word frequency into:

376

* fij*log(num of Documents/num of documents containing word i)

377

* where fij if frequency of word i in jth document(instance)</pre>

378

379

* <pre> -N

380

* Whether to 0=not normalize/1=normalize all data/2=normalize test data only

381

* to average length of training documents (default 0=don't normalize).</pre>

382

383

* <pre> -L

384

* Convert all tokens to lowercase before adding to the dictionary.</pre>

385

386

* <pre> -S

387

* Ignore words that are in the stoplist.</pre>

388

389

* <pre> -stemmer <spec>

390

* The stemmering algorihtm (classname plus parameters) to use.</pre>

391

392

* <pre> -M <int>

393

* The minimum term frequency (default = 1).</pre>

394

395

* <pre> -O

396

* If this is set, the maximum number of words and the

397

* minimum term frequency is not enforced on a per-class

398

* basis but based on the documents in all the classes

399

* (even if a class attribute is set).</pre>

400

401

* <pre> -stopwords <file>

402

* A file containing stopwords to override the default ones.

403

* Using this option automatically sets the flag ('-S') to use the

404

* stoplist if the file exists.

405

* Format: one stopword per line, lines starting with '#'

406

* are interpreted as comments and ignored.</pre>

407

408

* <pre> -tokenizer <spec>

409

* The tokenizing algorihtm (classname plus parameters) to use.

410

* (default: weka.core.tokenizers.WordTokenizer)</pre>

411

412

390

413

391

414

* @param options the list of options as an array of strings

392

415

* @throws Exception if an option is not supported

393

416

394

417

public void setOptions(String[] options) throws Exception {

395

418

String value;

396

419

397

420

value = Utils.getOption('R', options);

398

421

if (value.length() != 0)

399

422

setSelectedRange(value);

414

437

else

415

438

setWordsToKeep(1000);

416

439

440

value = Utils.getOption("prune-rate", options);

441

if (value.length() > 0)

442

setPeriodicPruning(Double.parseDouble(value));

443

else

444

setPeriodicPruning(-1);

445

417

446

value = Utils.getOption('M', options);

418

447

if (value.length() != 0)

419

448

setMinTermFreq(Integer.valueOf(value).intValue());

420

449

else

421

450

setMinTermFreq(1);

422

451

423

452

setOutputWordCounts(Utils.getFlag('C', options));

424

453

425

454

setTFTransform(Utils.getFlag('T', options));

426

455

427

456

setIDFTransform(Utils.getFlag('I', options));

428

457

429

458

setDoNotOperateOnPerClassBasis(Utils.getFlag('O', options));

430

459

431

460

String nString = Utils.getOption('N', options);

433

462

setNormalizeDocLength(new SelectedTag(Integer.parseInt(nString), TAGS_FILTER));

434

463

else

435

464

setNormalizeDocLength(new SelectedTag(FILTER_NONE, TAGS_FILTER));

436

465

437

466

setLowerCaseTokens(Utils.getFlag('L', options));

438

467

439

468

setUseStoplist(Utils.getFlag('S', options));

440

469

441

470

String stemmerString = Utils.getOption("stemmer", options);

442

471

if (stemmerString.length() == 0) {

443

472

setStemmer(null);

445

474

else {

446

475

String[] stemmerSpec = Utils.splitOptions(stemmerString);

447

476

if (stemmerSpec.length == 0)

448

throw new Exception("Invalid stemmer specification string");

477

throw new Exception("Invalid stemmer specification string");

449

478

String stemmerName = stemmerSpec[0];

450

479

stemmerSpec[0] = "";

451

480

Stemmer stemmer = (Stemmer) Class.forName(stemmerName).newInstance();

452

481

if (stemmer instanceof OptionHandler)

453

((OptionHandler) stemmer).setOptions(stemmerSpec);

482

((OptionHandler) stemmer).setOptions(stemmerSpec);

454

483

setStemmer(stemmer);

455

484

}

456

485

467

496

else {

468

497

String[] tokenizerSpec = Utils.splitOptions(tokenizerString);

469

498

if (tokenizerSpec.length == 0)

470

throw new Exception("Invalid tokenizer specification string");

499

throw new Exception("Invalid tokenizer specification string");

471

500

String tokenizerName = tokenizerSpec[0];

472

501

tokenizerSpec[0] = "";

473

502

Tokenizer tokenizer = (Tokenizer) Class.forName(tokenizerName).newInstance();

474

503

if (tokenizer instanceof OptionHandler)

475

((OptionHandler) tokenizer).setOptions(tokenizerSpec);

504

((OptionHandler) tokenizer).setOptions(tokenizerSpec);

476

505

setTokenizer(tokenizer);

477

506

}

478

507

}

501

530

result.add("-W");

502

531

result.add(String.valueOf(getWordsToKeep()));

503

532

533

result.add("-prune-rate");

534

result.add(String.valueOf(getPeriodicPruning()));

535

504

536

if (getOutputWordCounts())

505

537

result.add("-C");

506

538

559

591

public StringToWordVector(int wordsToKeep) {

560

592

m_WordsToKeep = wordsToKeep;

561

593

}

562

594

563

595

/**

564

596

* Used to store word counts for dictionary selection based on

565

597

* a threshold.

566

598

567

599

private class Count

568

implements Serializable {

600

implements Serializable, RevisionHandler {

569

601

570

/** for serialization */

602

/** for serialization. */

571

603

static final long serialVersionUID = 2157223818584474321L;

572

573

/** the counts */

604

605

/** the counts. */

574

606

public int count, docCount;

575

607

576

608

/**

577

* the constructor

609

* the constructor.

578

610

579

611

* @param c the count

580

612

581

613

public Count(int c) {

582

614

count = c;

583

615

}

616

617

/**

618

* Returns the revision string.

619

620

* @return the revision

621

622

public String getRevision() {

623

return RevisionUtils.extract("$Revision: 1.25 $");

624

}

584

625

}

585

626

586

627

/**

595

636

// attributes

596

637

result.enableAllAttributes();

597

638

result.enable(Capability.MISSING_VALUES);

598

639

599

640

// class

600

641

result.enableAllClasses();

601

642

result.enable(Capability.MISSING_CLASS_VALUES);

602

643

result.enable(Capability.NO_CLASS);

603

644

604

645

return result;

605

646

}

606

647

615

656

* successfully

616

657

617

658

public boolean setInputFormat(Instances instanceInfo)

618

throws Exception {

659

throws Exception {

619

660

620

661

super.setInputFormat(instanceInfo);

621

662

m_SelectedRange.setUpper(instanceInfo.numAttributes() - 1);

685

726

for(int i=0; i < m_NumInstances; i++) {

686

727

firstCopy = convertInstancewoDocNorm(getInputFormat().instance(i), fv);

687

728

}

688

729

689

730

// Need to compute average document length if necessary

690

731

if (m_filterType != FILTER_NONE) {

691

732

m_AvgDocLength = 0;

724

765

}

725

766

726

767

/**

727

* Returns a string describing this filter

768

* Returns a string describing this filter.

769

728

770

* @return a description of the filter suitable for

729

771

* displaying in the explorer/experimenter gui

730

772

731

773

public String globalInfo() {

732

774

return

733

"Converts String attributes into a set of attributes representing "

734

+ "word occurrence (depending on the tokenizer) information from the "

735

+ "text contained in the strings. The set of words (attributes) is "

736

+ "determined by the first batch filtered (typically training data).";

775

"Converts String attributes into a set of attributes representing "

776

+ "word occurrence (depending on the tokenizer) information from the "

777

+ "text contained in the strings. The set of words (attributes) is "

778

+ "determined by the first batch filtered (typically training data).";

737

779

}

738

780

739

781

/**

740

782

* Gets whether output instances contain 0 or 1 indicating word

741

783

* presence, or word counts.

757

799

}

758

800

759

801

/**

760

* Returns the tip text for this property

802

* Returns the tip text for this property.

803

761

804

* @return tip text for this property suitable for

762

805

* displaying in the explorer/experimenter gui

763

806

764

807

public String outputWordCountsTipText() {

765

return "Output word counts rather than boolean 0 or 1"+

766

"(indicating presence or absence of a word).";

808

return "Output word counts rather than boolean 0 or 1"+

809

"(indicating presence or absence of a word).";

767

810

}

768

811

769

812

/**

774

817

public Range getSelectedRange() {

775

818

return m_SelectedRange;

776

819

}

777

820

778

821

/**

779

822

* Set the value of m_SelectedRange.

780

823

785

828

}

786

829

787

830

/**

788

* Returns the tip text for this property

831

* Returns the tip text for this property.

789

832

790

833

* @return tip text for this property suitable for

791

834

* displaying in the explorer/experimenter gui

792

835

793

836

public String attributeIndicesTipText() {

794

837

return "Specify range of attributes to act on."

795

+ " This is a comma separated list of attribute indices, with"

796

+ " \"first\" and \"last\" valid values. Specify an inclusive"

797

+ " range with \"-\". E.g: \"first-3,5,6-10,last\".";

838

+ " This is a comma separated list of attribute indices, with"

839

+ " \"first\" and \"last\" valid values. Specify an inclusive"

840

+ " range with \"-\". E.g: \"first-3,5,6-10,last\".";

798

841

}

799

842

800

843

/**

801

* Gets the current range selection

844

* Gets the current range selection.

802

845

803

846

* @return a string containing a comma separated list of ranges

804

847

833

876

}

834

877

835

878

/**

836

* Returns the tip text for this property

879

* Returns the tip text for this property.

837

880

838

881

* @return tip text for this property suitable for

839

882

* displaying in the explorer/experimenter gui

840

883

841

884

public String invertSelectionTipText() {

842

885

return "Set attribute selection mode. If false, only selected"

843

+ " attributes in the range will be worked on; if"

844

+ " true, only non-selected attributes will be processed.";

886

+ " attributes in the range will be worked on; if"

887

+ " true, only non-selected attributes will be processed.";

845

888

}

846

889

847

890

/**

848

* Gets whether the supplied columns are to be processed or skipped

891

* Gets whether the supplied columns are to be processed or skipped.

849

892

850

893

* @return true if the supplied columns will be kept

851

894

870

913

public String getAttributeNamePrefix() {

871

914

return m_Prefix;

872

915

}

873

916

874

917

/**

875

918

* Set the attribute name prefix.

876

919

881

924

}

882

925

883

926

/**

884

* Returns the tip text for this property

927

* Returns the tip text for this property.

928

885

929

* @return tip text for this property suitable for

886

930

* displaying in the explorer/experimenter gui

887

931

888

932

public String attributeNamePrefixTipText() {

889

return "Prefix for the created attribute names. "+

890

"(default: \"\")";

933

return "Prefix for the created attribute names. "+

934

"(default: \"\")";

891

935

}

892

936

893

937

/**

900

944

public int getWordsToKeep() {

901

945

return m_WordsToKeep;

902

946

}

903

947

904

948

/**

905

949

* Sets the number of words (per class if there is a class attribute

906

950

* assigned) to attempt to keep.

911

955

public void setWordsToKeep(int newWordsToKeep) {

912

956

m_WordsToKeep = newWordsToKeep;

913

957

}

914

958

915

959

/**

916

* Returns the tip text for this property

960

* Returns the tip text for this property.

961

917

962

* @return tip text for this property suitable for

918

963

* displaying in the explorer/experimenter gui

919

964

920

965

public String wordsToKeepTipText() {

921

return "The number of words (per class if there is a class attribute "+

922

"assigned) to attempt to keep.";

966

return "The number of words (per class if there is a class attribute "+

967

"assigned) to attempt to keep.";

968

}

969

970

/**

971

* Gets the rate at which the dictionary is periodically pruned, as a

972

* percentage of the dataset size.

973

974

* @return the rate at which the dictionary is periodically pruned

975

976

public double getPeriodicPruning() {

977

return m_PeriodicPruningRate;

978

}

979

980

/**

981

* Sets the rate at which the dictionary is periodically pruned, as a

982

* percentage of the dataset size.

983

984

* @param newPeriodicPruning the rate at which the dictionary is periodically pruned

985

986

public void setPeriodicPruning(double newPeriodicPruning) {

987

m_PeriodicPruningRate = newPeriodicPruning;

988

}

989

990

/**

991

* Returns the tip text for this property.

992

993

* @return tip text for this property suitable for

994

* displaying in the explorer/experimenter gui

995

996

public String periodicPruningTipText() {

997

return "Specify the rate (x% of the input dataset) at which to periodically prune the dictionary. "

998

+ "wordsToKeep prunes after creating a full dictionary. You may not have enough "

999

+ "memory for this approach.";

923

1000

}

924

1001

925

1002

/** Gets whether if the word frequencies should be transformed into

928

1005

* @return true if word frequencies are to be transformed.

929

1006

930

1007

public boolean getTFTransform() {

931

return this.m_TFTransform;

1008

return this.m_TFTransform;

932

1009

}

933

1010

934

1011

/** Sets whether if the word frequencies should be transformed into

935

1012

* log(1+fij) where fij is the frequency of word i in document(instance) j.

936

1013

937

1014

* @param TFTransform true if word frequencies are to be transformed.

938

1015

939

1016

public void setTFTransform(boolean TFTransform) {

940

this.m_TFTransform = TFTransform;

1017

this.m_TFTransform = TFTransform;

941

1018

}

942

1019

943

1020

/**

944

* Returns the tip text for this property

1021

* Returns the tip text for this property.

1022

945

1023

* @return tip text for this property suitable for

946

1024

* displaying in the explorer/experimenter gui

947

1025

948

1026

public String TFTransformTipText() {

949

return "Sets whether if the word frequencies should be transformed into:\n "+

950

" log(1+fij) \n"+

951

" where fij is the frequency of word i in document (instance) j.";

1027

return "Sets whether if the word frequencies should be transformed into:\n "+

1028

" log(1+fij) \n"+

1029

" where fij is the frequency of word i in document (instance) j.";

952

1030

}

953

1031

954

1032

/** Sets whether if the word frequencies in a document should be transformed

955

1033

* into:

956

1034

* fij*log(num of Docs/num of Docs with word i)

959

1037

* @return true if the word frequencies are to be transformed.

960

1038

961

1039

public boolean getIDFTransform() {

962

return this.m_IDFTransform;

1040

return this.m_IDFTransform;

963

1041

}

964

1042

965

1043

/** Sets whether if the word frequencies in a document should be transformed

966

1044

* into:

967

1045

* fij*log(num of Docs/num of Docs with word i)

970

1048

* @param IDFTransform true if the word frequecies are to be transformed

971

1049

972

1050

public void setIDFTransform(boolean IDFTransform) {

973

this.m_IDFTransform = IDFTransform;

1051

this.m_IDFTransform = IDFTransform;

974

1052

}

975

1053

976

1054

/**

977

* Returns the tip text for this property

1055

* Returns the tip text for this property.

1056

978

1057

* @return tip text for this property suitable for

979

1058

* displaying in the explorer/experimenter gui

980

1059

981

1060

public String IDFTransformTipText() {

982

return "Sets whether if the word frequencies in a document should be "+

983

"transformed into: \n"+

984

" fij*log(num of Docs/num of Docs with word i) \n"+

985

" where fij is the frequency of word i in document (instance) j.";

1061

return "Sets whether if the word frequencies in a document should be "+

1062

"transformed into: \n"+

1063

" fij*log(num of Docs/num of Docs with word i) \n"+

1064

" where fij is the frequency of word i in document (instance) j.";

986

1065

}

987

1066

988

1067

989

1068

/** Gets whether if the word frequencies for a document (instance) should

990

1069

* be normalized or not.

991

1070

995

1074

996

1075

return new SelectedTag(m_filterType, TAGS_FILTER);

997

1076

}

998

1077

999

1078

/** Sets whether if the word frequencies for a document (instance) should

1000

1079

* be normalized or not.

1001

1080

1002

1081

* @param newType the new type.

1003

1082

1004

1083

public void setNormalizeDocLength(SelectedTag newType) {

1005

1084

1006

1085

if (newType.getTags() == TAGS_FILTER) {

1007

1086

m_filterType = newType.getSelectedTag().getID();

1008

1087

}

1009

1088

}

1010

1089

1011

1090

/**

1012

* Returns the tip text for this property

1091

* Returns the tip text for this property.

1013

1092

1014

1093

* @return tip text for this property suitable for

1015

1094

* displaying in the explorer/experimenter gui

1016

1095

1017

1096

public String normalizeDocLengthTipText() {

1018

return "Sets whether if the word frequencies for a document (instance) "+

1019

"should be normalized or not.";

1097

return "Sets whether if the word frequencies for a document (instance) "+

1098

"should be normalized or not.";

1020

1099

}

1021

1100

1022

1101

/** Gets whether if the tokens are to be downcased or not.

1023

1102

1024

1103

* @return true if the tokens are to be downcased.

1025

1104

1026

1105

public boolean getLowerCaseTokens() {

1027

return this.m_lowerCaseTokens;

1106

return this.m_lowerCaseTokens;

1028

1107

}

1029

1108

1030

1109

/** Sets whether if the tokens are to be downcased or not. (Doesn't affect

1031

1110

* non-alphabetic characters in tokens).

1032

1111

1034

1113

* to be formed.

1035

1114

1036

1115

public void setLowerCaseTokens(boolean downCaseTokens) {

1037

this.m_lowerCaseTokens = downCaseTokens;

1116

this.m_lowerCaseTokens = downCaseTokens;

1038

1117

}

1039

1118

1040

1119

/**

1044

1123

* displaying in the explorer/experimenter gui

1045

1124

1046

1125

public String doNotOperateOnPerClassBasisTipText() {

1047

return "If this is set, the maximum number of words and the "

1048

+ "minimum term frequency is not enforced on a per-class "

1049

+ "basis but based on the documents in all the classes "

1050

+ "(even if a class attribute is set).";

1126

return "If this is set, the maximum number of words and the "

1127

+ "minimum term frequency is not enforced on a per-class "

1128

+ "basis but based on the documents in all the classes "

1129

+ "(even if a class attribute is set).";

1051

1130

}

1052

1131

1053

1132

/**

1073

1152

* displaying in the explorer/experimenter gui

1074

1153

1075

1154

public String minTermFreqTipText() {

1076

return "Sets the minimum term frequency. This is enforced "

1077

+ "on a per-class basis.";

1155

return "Sets the minimum term frequency. This is enforced "

1156

+ "on a per-class basis.";

1078

1157

}

1079

1158

1080

1159

/**

1092

1171

public void setMinTermFreq(int newMinTermFreq) {

1093

1172

this.m_minTermFreq = newMinTermFreq;

1094

1173

}

1095

1174

1096

1175

/**

1097

1176

* Returns the tip text for this property.

1098

1177

1100

1179

* displaying in the explorer/experimenter gui

1101

1180

1102

1181

public String lowerCaseTokensTipText() {

1103

return "If set then all the word tokens are converted to lower case "+

1104

"before being added to the dictionary.";

1182

return "If set then all the word tokens are converted to lower case "+

1183

"before being added to the dictionary.";

1105

1184

}

1106

1185

1107

1186

/** Gets whether if the words on the stoplist are to be ignored (The stoplist

1110

1189

* @return true if the words on the stoplist are to be ignored.

1111

1190

1112

1191

public boolean getUseStoplist() {

1113

return m_useStoplist;

1192

return m_useStoplist;

1114

1193

}

1115

1194

1116

1195

/** Sets whether if the words that are on a stoplist are to be ignored (The

1117

1196

* stop list is in weka.core.StopWords).

1118

1197

1120

1199

* ignored.

1121

1200

1122

1201

public void setUseStoplist(boolean useStoplist) {

1123

m_useStoplist = useStoplist;

1202

m_useStoplist = useStoplist;

1124

1203

}

1125

1204

1126

1205

/**

1127

1206

* Returns the tip text for this property.

1128

1207

1130

1209

* displaying in the explorer/experimenter gui

1131

1210

1132

1211

public String useStoplistTipText() {

1133

return "Ignores all the words that are on the stoplist, if set to true.";

1212

return "Ignores all the words that are on the stoplist, if set to true.";

1134

1213

}

1135

1214

1136

1215

/**

1137

1216

* the stemming algorithm to use, null means no stemming at all (i.e., the

1138

* NullStemmer is used)

1217

* NullStemmer is used).

1139

1218

1140

1219

* @param value the configured stemming algorithm, or null

1141

1220

* @see NullStemmer

1201

1280

public String stopwordsTipText() {

1202

1281

return "The file containing the stopwords (if this is a directory then the default ones are used).";

1203

1282

}

1204

1283

1205

1284

/**

1206

* the tokenizer algorithm to use

1285

* the tokenizer algorithm to use.

1207

1286

1208

1287

* @param value the configured tokenizing algorithm

1209

1288

1231

1310

}

1232

1311

1233

1312

/**

1234

* sorts an array

1313

* sorts an array.

1235

1314

1236

1315

* @param array the array to sort

1237

1316

1238

1317

private static void sortArray(int [] array) {

1239

1318

1240

1319

int i, j, h, N = array.length - 1;

1241

1320

1242

1321

for (h = 1; h <= N / 9; h = 3 * h + 1);

1243

1322

1244

1323

for (; h > 0; h /= 3) {

1245

1324

for (i = h + 1; i <= N; i++) {

1246

int v = array[i];

1247

j = i;

1248

while (j > h && array[j - h] > v ) {

1249

array[j] = array[j - h];

1250

j -= h;

1251

}

1252

array[j] = v;

1325

int v = array[i];

1326

j = i;

1327

while (j > h && array[j - h] > v ) {

1328

array[j] = array[j - h];

1329

j -= h;

1330

}

1331

array[j] = v;

1253

1332

}

1254

1333

}

1255

1334

}

1256

1335

1257

1336

/**

1258

* determines the selected range

1337

* determines the selected range.

1259

1338

1260

1339

private void determineSelectedRange() {

1261

1340

1262

1341

Instances inputFormat = getInputFormat();

1263

1342

1264

1343

// Calculate the default set of fields to convert

1265

1344

if (m_SelectedRange == null) {

1266

1345

StringBuffer fields = new StringBuffer();

1271

1350

m_SelectedRange = new Range(fields.toString());

1272

1351

}

1273

1352

m_SelectedRange.setUpper(inputFormat.numAttributes() - 1);

1274

1353

1275

1354

// Prevent the user from converting non-string fields

1276

1355

StringBuffer fields = new StringBuffer();

1277

1356

for (int j = 0; j < inputFormat.numAttributes(); j++) {

1284

1363

1285

1364

// System.err.println("Selected Range: " + getSelectedRange().getRanges());

1286

1365

}

1287

1366

1288

1367

/**

1289

* determines the dictionary

1368

* determines the dictionary.

1290

1369

1291

1370

private void determineDictionary() {

1292

1371

// initialize stopwords

1318

1397

determineSelectedRange();

1319

1398

1320

1399

// Tokenize all training text into an orderedMap of "words".

1400

long pruneRate =

1401

Math.round((m_PeriodicPruningRate/100.0)*getInputFormat().numInstances());

1321

1402

for (int i = 0; i < getInputFormat().numInstances(); i++) {

1322

1403

Instance instance = getInputFormat().instance(i);

1323

1404

int vInd = 0;

1328

1409

// Iterate through all relevant string attributes of the current instance

1329

1410

Hashtable h = new Hashtable();

1330

1411

for (int j = 0; j < instance.numAttributes(); j++) {

1331

if (m_SelectedRange.isInRange(j) && (instance.isMissing(j) == false)) {

1412

if (m_SelectedRange.isInRange(j) && (instance.isMissing(j) == false)) {

1332

1413

1333

1414

// Get tokenizer

1334

m_Tokenizer.tokenize(instance.stringValue(j));

1335

1415

m_Tokenizer.tokenize(instance.stringValue(j));

1416

1336

1417

// Iterate through tokens, perform stemming, and remove stopwords

1337

1418

// (if required)

1338

while (m_Tokenizer.hasMoreElements()) {

1339

String word = ((String)m_Tokenizer.nextElement()).intern();

1340

1341

if(this.m_lowerCaseTokens==true)

1342

word = word.toLowerCase();

1343

1344

word = m_Stemmer.stem(word);

1345

1346

if(this.m_useStoplist==true)

1347

if(stopwords.is(word))

1348

continue;

1349

1350

if(!(h.contains(word)))

1351

h.put(word, new Integer(0));

1352

1353

Count count = (Count)dictionaryArr[vInd].get(word);

1354

if (count == null) {

1355

dictionaryArr[vInd].put(word, new Count(1));

1356

} else {

1357

count.count ++;

1358

}

1359

}

1360

}

1419

while (m_Tokenizer.hasMoreElements()) {

1420

String word = ((String)m_Tokenizer.nextElement()).intern();

1421

1422

if(this.m_lowerCaseTokens==true)

1423

word = word.toLowerCase();

1424

1425

word = m_Stemmer.stem(word);

1426

1427

if(this.m_useStoplist==true)

1428

if(stopwords.is(word))

1429

continue;

1430

1431

if(!(h.contains(word)))

1432

h.put(word, new Integer(0));

1433

1434

Count count = (Count)dictionaryArr[vInd].get(word);

1435

if (count == null) {

1436

dictionaryArr[vInd].put(word, new Count(1));

1437

} else {

1438

count.count++;

1439

}

1440

}

1441

}

1361

1442

}

1362

1443

1363

1444

//updating the docCount for the words that have occurred in this

1370

1451

c.docCount++;

1371

1452

} else

1372

1453

System.err.println("Warning: A word should definitely be in the "+

1373

"dictionary.Please check the code");

1454

"dictionary.Please check the code");

1455

}

1456

1457

1458

if (pruneRate > 0) {

1459

if (i % pruneRate == 0 && i > 0) {

1460

for (int z = 0; z < values; z++) {

1461

Vector d = new Vector(1000);

1462

Iterator it = dictionaryArr[z].keySet().iterator();

1463

while (it.hasNext()) {

1464

String word = (String)it.next();

1465

Count count = (Count)dictionaryArr[z].get(word);

1466

if (count.count <= 1) { d.add(word); }

1467

}

1468

Iterator iter = d.iterator();

1469

while(iter.hasNext()) {

1470

String word = (String)iter.next();

1471

dictionaryArr[z].remove(word);

1472

}

1473

}

1474

}

1374

1475

}

1375

1476

}

1376

1477

1384

1485

int pos = 0;

1385

1486

Iterator it = dictionaryArr[z].keySet().iterator();

1386

1487

while (it.hasNext()) {

1387

String word = (String)it.next();

1388

Count count = (Count)dictionaryArr[z].get(word);

1389

array[pos] = count.count;

1390

pos++;

1488

String word = (String)it.next();

1489

Count count = (Count)dictionaryArr[z].get(word);

1490

array[pos] = count.count;

1491

pos++;

1391

1492

}

1392

1493

1393

1494

// sort the array

1394

1495

sortArray(array);

1395

1496

if (array.length < m_WordsToKeep) {

1396

// if there aren't enough words, set the threshold to

1497

// if there aren't enough words, set the threshold to

1397

1498

// minFreq

1398

prune[z] = m_minTermFreq;

1499

prune[z] = m_minTermFreq;

1399

1500

} else {

1400

// otherwise set it to be at least minFreq

1401

prune[z] = Math.max(m_minTermFreq,

1402

array[array.length - m_WordsToKeep]);

1501

// otherwise set it to be at least minFreq

1502

prune[z] = Math.max(m_minTermFreq,

1503

array[array.length - m_WordsToKeep]);

1403

1504

}

1404

1505

}

1405

1506

1406

1507

// Convert the dictionary into an attribute index

1407

1508

// and create one attribute per word

1408

1509

FastVector attributes = new FastVector(totalsize +

1409

getInputFormat().numAttributes());

1510

getInputFormat().numAttributes());

1410

1511

1411

1512

// Add the non-converted attributes

1412

1513

int classIndex = -1;

1413

1514

for (int i = 0; i < getInputFormat().numAttributes(); i++) {

1414

1515

if (!m_SelectedRange.isInRange(i)) {

1415

if (getInputFormat().classIndex() == i) {

1416

classIndex = attributes.size();

1417

}

1516

if (getInputFormat().classIndex() == i) {

1517

classIndex = attributes.size();

1518

}

1418

1519

attributes.addElement(getInputFormat().attribute(i).copy());

1419

1520

}

1420

1521

}

1421

1522

1422

1523

// Add the word vector attributes (eliminating duplicates

1423

// that occur in multiple classes)

1524

// that occur in multiple classes)

1424

1525

TreeMap newDictionary = new TreeMap();

1425

1526

int index = attributes.size();

1426

1527

for(int z = 0; z < values; z++) {

1427

1528

Iterator it = dictionaryArr[z].keySet().iterator();

1428

1529

while (it.hasNext()) {

1429

String word = (String)it.next();

1430

Count count = (Count)dictionaryArr[z].get(word);

1431

if (count.count >= prune[z]) {

1432

if(newDictionary.get(word) == null) {

1433

newDictionary.put(word, new Integer(index++));

1434

attributes.addElement(new Attribute(m_Prefix + word));

1435

}

1436

}

1530

String word = (String)it.next();

1531

Count count = (Count)dictionaryArr[z].get(word);

1532

if (count.count >= prune[z]) {

1533

if(newDictionary.get(word) == null) {

1534

newDictionary.put(word, new Integer(index++));

1535

attributes.addElement(new Attribute(m_Prefix + word));

1536

}

1537

}

1437

1538

}

1438

1539

}

1439

1540

1440

1541

// Compute document frequencies

1441

1542

m_DocsCounts = new int[attributes.size()];

1442

1543

Iterator it = newDictionary.keySet().iterator();

1456

1557

attributes.trimToSize();

1457

1558

m_Dictionary = newDictionary;

1458

1559

m_NumInstances = getInputFormat().numInstances();

1459

1560

1460

1561

// Set the filter's output format

1461

1562

Instances outputFormat = new Instances(getInputFormat().relationName(),

1462

attributes, 0);

1563

attributes, 0);

1463

1564

outputFormat.setClassIndex(classIndex);

1464

1565

setOutputFormat(outputFormat);

1465

1566

}

1475

1576

1476

1577

// Convert the instance into a sorted set of indexes

1477

1578

TreeMap contained = new TreeMap();

1478

1579

1479

1580

// Copy all non-converted attributes from input to output

1480

1581

int firstCopy = 0;

1481

1582

for (int i = 0; i < getInputFormat().numAttributes(); i++) {

1484

1585

// Add simple nominal and numeric attributes directly

1485

1586

if (instance.value(i) != 0.0) {

1486

1587

contained.put(new Integer(firstCopy),

1487

new Double(instance.value(i)));

1588

new Double(instance.value(i)));

1488

1589

}

1489

1590

} else {

1490

1591

if (instance.isMissing(i)) {

1491

1592

contained.put(new Integer(firstCopy),

1492

new Double(Instance.missingValue()));

1593

new Double(Instance.missingValue()));

1493

1594

} else {

1494

1595

1495

1596

// If this is a string attribute, we have to first add

1496

1597

// this value to the range of possible values, then add

1497

1598

// its new internal index.

1499

1600

// Note that the first string value in a

1500

1601

// SparseInstance doesn't get printed.

1501

1602

outputFormatPeek().attribute(firstCopy)

1502

.addStringValue("Hack to defeat SparseInstance bug");

1603

.addStringValue("Hack to defeat SparseInstance bug");

1503

1604

}

1504

1605

int newIndex = outputFormatPeek().attribute(firstCopy)

1505

.addStringValue(instance.stringValue(i));

1606

.addStringValue(instance.stringValue(i));

1506

1607

contained.put(new Integer(firstCopy),

1507

new Double(newIndex));

1608

new Double(newIndex));

1508

1609

}

1509

1610

}

1510

1611

firstCopy++;

1511

1612

}

1512

1613

}

1513

1614

1514

1615

for (int j = 0; j < instance.numAttributes(); j++) {

1515

1616

//if ((getInputFormat().attribute(j).type() == Attribute.STRING)

1516

1617

if (m_SelectedRange.isInRange(j)

1517

1618

&& (instance.isMissing(j) == false)) {

1518

1519

m_Tokenizer.tokenize(instance.stringValue(j));

1520

1521

while (m_Tokenizer.hasMoreElements()) {

1522

String word = (String)m_Tokenizer.nextElement();

1523

if(this.m_lowerCaseTokens==true)

1619

1620

m_Tokenizer.tokenize(instance.stringValue(j));

1621

1622

while (m_Tokenizer.hasMoreElements()) {

1623

String word = (String)m_Tokenizer.nextElement();

1624

if(this.m_lowerCaseTokens==true)

1524

1625

word = word.toLowerCase();

1525

word = m_Stemmer.stem(word);

1526

Integer index = (Integer) m_Dictionary.get(word);

1527

if (index != null) {

1528

if (m_OutputCounts) { // Separate if here rather than two lines down to avoid hashtable lookup

1529

Double count = (Double)contained.get(index);

1530

if (count != null) {

1531

contained.put(index, new Double(count.doubleValue() + 1.0));

1532

} else {

1533

contained.put(index, new Double(1));

1534

}

1535

} else {

1536

contained.put(index, new Double(1));

1537

}

1538

}

1539

}

1626

word = m_Stemmer.stem(word);

1627

Integer index = (Integer) m_Dictionary.get(word);

1628

if (index != null) {

1629

if (m_OutputCounts) { // Separate if here rather than two lines down to avoid hashtable lookup

1630

Double count = (Double)contained.get(index);

1631

if (count != null) {

1632

contained.put(index, new Double(count.doubleValue() + 1.0));

1633

} else {

1634

contained.put(index, new Double(1));

1635

}

1636

} else {

1637

contained.put(index, new Double(1));

1638

}

1639

}

1640

}

1540

1641

}

1541

1642

}

1542

1643

1543

1644

//Doing TFTransform

1544

1645

if(m_TFTransform==true) {

1545

1646

Iterator it = contained.keySet().iterator();

1552

1653

}

1553

1654

}

1554

1655

}

1555

1656

1556

1657

//Doing IDFTransform

1557

1658

if(m_IDFTransform==true) {

1558

1659

Iterator it = contained.keySet().iterator();

1561

1662

if( index.intValue() >= firstCopy ) {

1562

1663

double val = ((Double)contained.get(index)).doubleValue();

1563

1664

val = val*Math.log( m_NumInstances /

1564

(double) m_DocsCounts[index.intValue()] );

1665

(double) m_DocsCounts[index.intValue()] );

1565

1666

contained.put(index, new Double(val));

1566

1667

}

1567

1668

}

1568

1669

}

1569

1670

1570

1671

// Convert the set to structures needed to create a sparse instance.

1571

1672

double [] values = new double [contained.size()];

1572

1673

int [] indices = new int [contained.size()];

1579

1680

}

1580

1681

1581

1682

Instance inst = new SparseInstance(instance.weight(), values, indices,

1582

outputFormatPeek().numAttributes());

1683

outputFormatPeek().numAttributes());

1583

1684

inst.setDataset(outputFormatPeek());

1584

1685

1585

1686

v.addElement(inst);

1586

1687

1587

1688

return firstCopy;

1588

1689

}

1589

1690

1590

1691

/**

1591

1692

* Normalizes given instance to average doc length (only the newly

1592

1693

* constructed attributes).

1596

1697

* @throws Exception if avg. doc length not set

1597

1698

1598

1699

private void normalizeInstance(Instance inst, int firstCopy)

1599

throws Exception {

1700

throws Exception {

1600

1701

1601

1702

double docLength = 0;

1602

1703

1626

1727

}

1627

1728

1628

1729

/**

1730

* Returns the revision string.

1731

1732

* @return the revision

1733

1734

public String getRevision() {

1735

return RevisionUtils.extract("$Revision: 1.25 $");

1736

}

1737

1738

/**

1629

1739

* Main method for testing this class.

1630

1740

1631

1741

* @param argv should contain arguments to the filter:

1635

1745

runFilter(new StringToWordVector(), argv);

1636

1746

}

1637

1747

}

1748

Older »