问题标签 [snowball]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
10495 浏览

java - 雪球词干使用

我想在这里使用词干分析器来合并字数。
http://snowball.tartarus.org/download.html
该页面有一个下载链接,但我不知道如何将文件集成到我的eclipse项目中
它不仅仅是一个放入我的lib文件夹的jar,它是一个文件系统。有谁知道一些解释这一点的文件,因为我在网站上没有看到任何文件。
(如,我要导入什么,我该如何称呼它等等。)

0 投票
1 回答
669 浏览

nltk - 如何在 NLTK 中向 SnowballStemmer 添加英语?

我已经从 nltk.download() 界面安装了所有可能的软件包,但如果我打印所有可用的,SnowballStemmer 仍然缺乏英语语言。我可以在 NLTK 的这个词干分析器中添加英语吗?

0 投票
1 回答
377 浏览

java - IncompatibleClassChangeError 使用 Snowball Stemmer

我从 3 天开始就陷入了这个问题,我没有找到任何解决方案。我正在使用 Weka 开发人员版 (3.7.10) 使用 NetBeans 7.3 开发 DM 应用程序。我正在尝试使用 Snowball 词干分析器,并且在我创建词干分析器的那一刻运行我的应用程序时,我不断收到相同的异常:

我得到的例外是:

我想说的第一件事是snowball.jar我的java项目中包含的文件。第一个奇怪的是我从不使用weka.classifiers.JythonClassifier. 接下来是我使用 Weka-7.3.10 并且在这个版本中JythonClassifier扩展自AbstractClassifier. 似乎JythonClassifier找到的是一些旧版本。

当我开始这个项目时,我开始使用 Weka 稳定版(3.6),但后来我迁移到了开发者版(3.7)。所以我认为某处可能有一些旧的 Weka 图书馆,因此我:

  1. 未安装 Weka
  2. 删除的wekafiles目录
  3. weka.jar从我的磁盘中删除了任何文件
  4. 再次安装 Weka

但我仍然不断收到错误。

我一直在寻找解决方案,但一无所获……useDynamic属性 fromGenericPropertiesCreator.props设置为 on true

任何想法都会非常感激.....因为我已经用完了它们。

谢谢!

0 投票
1 回答
577 浏览

elasticsearch - ElasticSearch:滚雪球不起作用?

我构建以下内容:

...我填充以下内容:

...我在搜索时看到以下内容:

结果是

...我期待 3 次点击:greygreyedgreying. 为什么这不起作用?请注意,我对在搜索中添加模糊性不感兴趣,因为默认情况下它将匹配灰色(但不是灰色)。

我在这里做错了什么?

0 投票
1 回答
301 浏览

linux - tm 和 Snowball 包命令在 Linux 中运行缓慢

我在 R 中使用 tm 和 Snowball 包进行文本挖掘。我最初在装有 Windows 7 和 8 GB 内存的笔记本电脑上运行它。后来我在具有 64 GB 内存的 Linux (Ubuntu) 机器上尝试了相同的操作。这两台机器都是 64 位的,并且也使用 64 位版本的 R。但是,Windows 有 R 3.0.0,而 Linux 有 R 2.14

与 Windows 相比,Linux 中的某些命令非常慢。

Corpus 指挥部

在窗户上

这在 Windows 机器上只用了 47 秒

在 Linux 上

这在 Linux 机器上花了大约220 秒

雪球词干

在窗户上

这在 Windows 机器上只用了12 秒

在 Linux 上

这在 Linux 机器上花了大约290 秒

有没有办法在 Linux 机器上加速这些命令?R版本会产生如此大的不同吗?谢谢你。

拉维

0 投票
1 回答
808 浏览

solr - 使用荷兰语的 StemmerOverrideFilterFactory 和 SnowballPorterFilterFactory 无法正确分析 Word

索尔:3.5

你好,

我根据以下 fieldType 定义创建了一个荷兰语字段类型:

stemdict_nl.txt 根据http://snowball.tartarus.org/algorithms/kraaij_pohlmann/stemmer.html算法使用 45710 字规则。

大多数搜索查询似乎都运行良好,我得到的建议大多是正确的。

但是,当我搜索“etiketje”时出现问题。根据我的规则:

它应该回退到“etiket”。但是它回退到'etik'。当我分析我的领域时,SOLR 返回:

我希望 SOLR 将“Etiketje”分析为:

希望这里有人可以指出我正确的方向。

0 投票
1 回答
25498 浏览

indexing - Elasticsearch:如何列出特定索引使用的每个分析器

我需要找出在特定索引中配置了哪个分析器(类型、语言..)。我试过http://localhost:9200/wazzup/_mapping了,但它只提供有关字段名称/类型的信息。

谢谢

0 投票
2 回答
12927 浏览

r - R 中的 Snowball 和 SnowballC 包是否不同?

我正在使用R 中的包stemDocument来提取文本文档tm。示例代码:

我收到一条错误消息:

loadNamespace(name) 中的错误:没有名为“Snowball”的包</p>

我已经安装了SnowballC包,但找不到 Snowball 包。下面是我的sessionInfo()

它是否需要任何其他软件包或 Snowball?

0 投票
2 回答
4675 浏览

r - 失败并出现错误:“包 'sentiment' 是在 R 3.0.0 之前构建的:请重新安装它”

我正在尝试运行 snaMIC.R 脚本,该脚本正在对 Twitter 数据进行情绪分析。但它失败并出现错误说包情绪是在 R 3.0.0 之前构建的:请重新安装。我正在使用 R-3.1.0 i386(32 位获胜)。我注意到的另一件事是我没有在“安装包”下获得情绪包。我从http://cms.unipune.ernet.in/~webmaster/cran/bin/windows/contrib/2.14/sentiment_0.2.zip下载了sentiment_0.2.zip 文件 并在默认的R win-library 下成功解压. 但是“安装包”下仍然没有情感包。我添加了一些更多的存储库,但这并没有帮助。任何建议将不胜感激。

0 投票
1 回答
242 浏览

ruby-on-rails - 将省略过滤器添加到雪球

起初,我使用的是分析器“语言分析器”,一切似乎都运行良好。直到我意识到“a”不是法语停用词列表的一部分

所以我决定用雪球来测试。它似乎也运行良好,但在这种情况下,它确实删除了像“l'”、“d'”这样的短词......

因此我的问题是:如何使用雪球,默认保留过滤器,并添加停用词和省略号列表?

否则,如何更改分析器“语言分析器”的停用词列表?

最后一个问题:真的有兴趣使用雪球而不是分析器“语言分析器”吗?它更快吗?更相关?

谢谢你