0

我在 RapidMiner 中进行文本挖掘。我正在抓取一个网站并执行一些预处理任务,例如标记化、小写和过滤英语停用词;但我仍然收到一些无意义的词,如“xckxzaz”、“xkaffqoxzomd”或 JavaScript 代码词,如“wpcf”。我的问题是,RapidMiner 有没有办法摆脱这些词?有人告诉我,创建停用词词典是一种解决方案,但这意味着我必须创建一个看起来不太理想的完整英语词典。任何提示将不胜感激!

4

1 回答 1

0

您可以使用Filter Tokens运算符来查找特定的无意义词并设置Invert Condition标志。如果列表很长,这可能会很乏味,因为“废话语料库”需要一个复杂的正则表达式或多个运算符。它也不会适应新的废话。

如果您提前知道您想要的英文单词是什么,您可以使用单词列表输入给Process Documents操作员。这将消除所有不在列表中的单词,但会错过从未见过但您可能想要保留的新单词。您可以使用运算符的输出生成单词列表Process Documents

操作员将消除文件中包含的Filter Stopwords (Dictionary)停用词,因此“您所要做的一切”就是创建无意义的语料库。

这取决于您的问题是什么,但我会使用保存为文件的原始单词列表输出(使用WordList to DataandWrite CSV运算符),我将手动编辑该列表以制作无意义单词列表,然后将其用作停用词过滤的字典.

这是一个棘手的问题,因为问题的本质是决定以前看不见的作品是废话还是英语。例如,LOL 是英语还是废话?

于 2014-07-31T18:23:21.160 回答