java - 解释 StringToWordVector() 的输出 - Weka

Question

我正在尝试使用 Weka java API 进行文档分类。

这是我的数据文件的目录结构。

+- text_example
|
+- class1
|  |
|  3 html files
|
+- class2
|   |
|   1 html file
|
+- class3
    |
    3 html files

我有使用“TextDirectoryLoader”创建的“arff”文件。然后我StringToWordVector在创建的 arff 文件上使用过滤器，使用filter.setOutputWordCounts(true).

以下是应用过滤器后的输出示例。我需要澄清一些事情。

@attribute </form> numeric
@attribute </h1> numeric
.
.
@attribute earth numeric
@attribute easy numeric

这个巨大的列表应该是初始 html 文件内容的标记化。对？

然后我有，

@data
{1 2,3 2,4 1,11 1,12 7,..............}
{10 4,34 1,37 5,.......}
{2 1,5 6,6 16,...}
{0 class2,34 11,40 15,.....,4900 3,...
{0 class3,1 2,37 3,40 5....
{0 class3,1 2,31 20,32 17......
{0 class3,32 5,42 1,43 10.........

为什么前 3 个项目没有类属性？（它应该有class1）。{0 class2,..}, {0 class3..} 中的前导 0 是什么意思。例如，它表示在 class3 文件夹中的第三个 html 文件中，由整数 32 标识的单词出现了 5 次。只是为了看看我如何获得 32 引用的单词（令牌）？

如何降低特征向量的维数？我们不需要使所有特征向量的大小相同吗？（比如只考虑训练集中最常见的 100 个词，然后在测试时，只考虑测试文档中出现的那 100 个词。因为，这样如果我们想出一个全新的词会发生什么在测试阶段，分类器会忽略它吗？）。

我在这里错过了什么吗？我是 Weka 的新手。

如果有人可以向我解释分类器如何使用通过StringToWordVector过滤器创建的这个向量，我也非常感谢您的帮助。（比如使用训练数据创建词汇表，降维，这些是否发生在 Weka 代码中？）

score 8 · Accepted Answer

巨大的列表@attribute包含从您的输入派生的所有标记。
您的@data部分采用稀疏格式，即对于每个属性，仅当它不为零时才说明该值。对于前三行，class 属性是class1，你只是看不到它（如果它是未知的，你会0 ?在前三行的开头看到a）。为什么呢？Weka 在内部将名义属性（包括类）表示为双精度数并从零开始计数。所以你的三个类在内部：class1=0.0，class2=1.0，class3=2.0。由于零值未以稀疏格式说明，因此您看不到前三行中的类。（另请参阅http://www.cs.waikato.ac.nz/ml/weka/arff.html上的“稀疏 ARFF 文件”部分）
要获取索引 n 表示的单词/标记，您可以计数，或者，如果您有Instances对象，则在其上调用attribute(n).name()。为此，n从 0 开始计数。
为了降低特征向量的维数，有很多选择。如果您只想拥有 100 个最常用的术语，则stringToWordVector.setWordsToKeep(100). 请注意，这将尝试保留每节课的 100 个单词。如果您不想每节课保留 100 个单词，stringToWordVector.setDoNotOperateOnPerClassBasis(true). 如果有几个词的频率相同，你会得到略高于 100，所以 100 只是一种目标值。
至于在测试阶段出现的新词，我认为这是不可能的，因为你必须stringToWordVector在分类之前把所有的实例都交给你。不过，我不是 100% 确定这一点，因为我使用的是两类设置，并且StringToWordVector在告诉分类器有关它的任何信息之前，我让我转换了所有实例。

我一般可以向您推荐，尝试使用 Weka KnowledgeFlow 工具来学习如何使用不同的类。如果您知道如何在那里做事，那么您可以很容易地将这些知识用于您的 Java 代码。希望我能帮助你，虽然答案有点晚了。

java - 解释 StringToWordVector() 的输出 - Weka

1 回答 1

Related

Reference