“snowball”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

10495 浏览

java - 雪球词干使用

我想在这里使用词干分析器来合并字数。
http://snowball.tartarus.org/download.html
该页面有一个下载链接，但我不知道如何将文件集成到我的eclipse项目中
它不仅仅是一个放入我的lib文件夹的jar，它是一个文件系统。有谁知道一些解释这一点的文件，因为我在网站上没有看到任何文件。
（如，我要导入什么，我该如何称呼它等等。）

2013-07-30T19:56:19.943

0 投票

1 回答

669 浏览

nltk - 如何在 NLTK 中向 SnowballStemmer 添加英语？

我已经从 nltk.download() 界面安装了所有可能的软件包，但如果我打印所有可用的，SnowballStemmer 仍然缺乏英语语言。我可以在 NLTK 的这个词干分析器中添加英语吗？

nltk snowball

2013-10-29T00:01:18.527

0 投票

1 回答

377 浏览

java - IncompatibleClassChangeError 使用 Snowball Stemmer

我从 3 天开始就陷入了这个问题，我没有找到任何解决方案。我正在使用 Weka 开发人员版 (3.7.10) 使用 NetBeans 7.3 开发 DM 应用程序。我正在尝试使用 Snowball 词干分析器，并且在我创建词干分析器的那一刻运行我的应用程序时，我不断收到相同的异常：

我得到的例外是：

我想说的第一件事是snowball.jar我的java项目中包含的文件。第一个奇怪的是我从不使用weka.classifiers.JythonClassifier. 接下来是我使用 Weka-7.3.10 并且在这个版本中JythonClassifier扩展自AbstractClassifier. 似乎JythonClassifier找到的是一些旧版本。

当我开始这个项目时，我开始使用 Weka 稳定版（3.6），但后来我迁移到了开发者版（3.7）。所以我认为某处可能有一些旧的 Weka 图书馆，因此我：

未安装 Weka
删除的wekafiles目录
weka.jar从我的磁盘中删除了任何文件
再次安装 Weka

但我仍然不断收到错误。

我一直在寻找解决方案，但一无所获……useDynamic属性 fromGenericPropertiesCreator.props设置为 on true。

任何想法都会非常感激.....因为我已经用完了它们。

谢谢！

java netbeans weka stemming snowball

2013-12-21T12:17:32.443

0 投票

1 回答

577 浏览

elasticsearch - ElasticSearch：滚雪球不起作用？

我构建以下内容：

...我填充以下内容：

...我在搜索时看到以下内容：

结果是

...我期待 3 次点击：grey、greyed和greying. 为什么这不起作用？请注意，我对在搜索中添加模糊性不感兴趣，因为默认情况下它将匹配灰色（但不是灰色）。

我在这里做错了什么？

elasticsearch query-string stemming snowball

2014-01-13T15:57:03.463

0 投票

1 回答

301 浏览

linux - tm 和 Snowball 包命令在 Linux 中运行缓慢

我在 R 中使用 tm 和 Snowball 包进行文本挖掘。我最初在装有 Windows 7 和 8 GB 内存的笔记本电脑上运行它。后来我在具有 64 GB 内存的 Linux (Ubuntu) 机器上尝试了相同的操作。这两台机器都是 64 位的，并且也使用 64 位版本的 R。但是，Windows 有 R 3.0.0，而 Linux 有 R 2.14

与 Windows 相比，Linux 中的某些命令非常慢。

Corpus 指挥部

在窗户上

这在 Windows 机器上只用了 47 秒

在 Linux 上

这在 Linux 机器上花了大约220 秒

雪球词干

在窗户上

这在 Windows 机器上只用了12 秒

在 Linux 上

这在 Linux 机器上花了大约290 秒

有没有办法在 Linux 机器上加速这些命令？R版本会产生如此大的不同吗？谢谢你。

拉维

linux windows r tm snowball

2014-02-12T10:25:01.017

0 投票

1 回答

808 浏览

solr - 使用荷兰语的 StemmerOverrideFilterFactory 和 SnowballPorterFilterFactory 无法正确分析 Word

索尔：3.5

你好，

我根据以下 fieldType 定义创建了一个荷兰语字段类型：

stemdict_nl.txt 根据http://snowball.tartarus.org/algorithms/kraaij_pohlmann/stemmer.html算法使用 45710 字规则。

大多数搜索查询似乎都运行良好，我得到的建议大多是正确的。

但是，当我搜索“etiketje”时出现问题。根据我的规则：

它应该回退到“etiket”。但是它回退到'etik'。当我分析我的领域时，SOLR 返回：

我希望 SOLR 将“Etiketje”分析为：

希望这里有人可以指出我正确的方向。

solr porter-stemmer solr-query-syntax snowball

2014-03-17T10:21:37.930

0 投票

1 回答

25498 浏览

indexing - Elasticsearch：如何列出特定索引使用的每个分析器

我需要找出在特定索引中配置了哪个分析器（类型、语言..）。我试过http://localhost:9200/wazzup/_mapping了，但它只提供有关字段名称/类型的信息。

谢谢

indexing elasticsearch analyzer snowball

2014-03-25T14:31:03.350

0 投票

2 回答

12927 浏览

r - R 中的 Snowball 和 SnowballC 包是否不同？

我正在使用R 中的包stemDocument来提取文本文档tm。示例代码：

我收到一条错误消息：

loadNamespace(name) 中的错误：没有名为“Snowball”的包</p>

我已经安装了SnowballC包，但找不到 Snowball 包。下面是我的sessionInfo()：

它是否需要任何其他软件包或 Snowball？

r stemming tm snowball

2014-05-07T20:58:47.307

0 投票

2 回答

4675 浏览

r - 失败并出现错误：“包 'sentiment' 是在 R 3.0.0 之前构建的：请重新安装它”

我正在尝试运行 snaMIC.R 脚本，该脚本正在对 Twitter 数据进行情绪分析。但它失败并出现错误说包情绪是在 R 3.0.0 之前构建的：请重新安装。我正在使用 R-3.1.0 i386（32 位获胜）。我注意到的另一件事是我没有在“安装包”下获得情绪包。我从http://cms.unipune.ernet.in/~webmaster/cran/bin/windows/contrib/2.14/sentiment_0.2.zip下载了sentiment_0.2.zip 文件并在默认的R win-library 下成功解压. 但是“安装包”下仍然没有情感包。我添加了一些更多的存储库，但这并没有帮助。任何建议将不胜感激。

r sentiment-analysis snowball roauth

2014-05-23T02:00:27.007

0 投票

1 回答

242 浏览

ruby-on-rails - 将省略过滤器添加到雪球

起初，我使用的是分析器“语言分析器”，一切似乎都运行良好。直到我意识到“a”不是法语停用词列表的一部分

所以我决定用雪球来测试。它似乎也运行良好，但在这种情况下，它确实删除了像“l'”、“d'”这样的短词......

因此我的问题是：如何使用雪球，默认保留过滤器，并添加停用词和省略号列表？

否则，如何更改分析器“语言分析器”的停用词列表？

最后一个问题：真的有兴趣使用雪球而不是分析器“语言分析器”吗？它更快吗？更相关？

谢谢你

ruby-on-rails elasticsearch stop-words snowball

2014-06-05T13:41:12.897

问题标签 [snowball]

Reference