问题标签 [snowball]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 雪球词干使用
我想在这里使用词干分析器来合并字数。
http://snowball.tartarus.org/download.html
该页面有一个下载链接,但我不知道如何将文件集成到我的eclipse项目中
它不仅仅是一个放入我的lib文件夹的jar,它是一个文件系统。有谁知道一些解释这一点的文件,因为我在网站上没有看到任何文件。
(如,我要导入什么,我该如何称呼它等等。)
nltk - 如何在 NLTK 中向 SnowballStemmer 添加英语?
我已经从 nltk.download() 界面安装了所有可能的软件包,但如果我打印所有可用的,SnowballStemmer 仍然缺乏英语语言。我可以在 NLTK 的这个词干分析器中添加英语吗?
java - IncompatibleClassChangeError 使用 Snowball Stemmer
我从 3 天开始就陷入了这个问题,我没有找到任何解决方案。我正在使用 Weka 开发人员版 (3.7.10) 使用 NetBeans 7.3 开发 DM 应用程序。我正在尝试使用 Snowball 词干分析器,并且在我创建词干分析器的那一刻运行我的应用程序时,我不断收到相同的异常:
我得到的例外是:
我想说的第一件事是snowball.jar
我的java项目中包含的文件。第一个奇怪的是我从不使用weka.classifiers.JythonClassifier
. 接下来是我使用 Weka-7.3.10 并且在这个版本中JythonClassifier
扩展自AbstractClassifier
. 似乎JythonClassifier
找到的是一些旧版本。
当我开始这个项目时,我开始使用 Weka 稳定版(3.6),但后来我迁移到了开发者版(3.7)。所以我认为某处可能有一些旧的 Weka 图书馆,因此我:
- 未安装 Weka
- 删除的
wekafiles
目录 weka.jar
从我的磁盘中删除了任何文件- 再次安装 Weka
但我仍然不断收到错误。
我一直在寻找解决方案,但一无所获……useDynamic
属性 fromGenericPropertiesCreator.props
设置为 on true
。
任何想法都会非常感激.....因为我已经用完了它们。
谢谢!
elasticsearch - ElasticSearch:滚雪球不起作用?
我构建以下内容:
...我填充以下内容:
...我在搜索时看到以下内容:
结果是
...我期待 3 次点击:grey
、greyed
和greying
. 为什么这不起作用?请注意,我对在搜索中添加模糊性不感兴趣,因为默认情况下它将匹配灰色(但不是灰色)。
我在这里做错了什么?
linux - tm 和 Snowball 包命令在 Linux 中运行缓慢
我在 R 中使用 tm 和 Snowball 包进行文本挖掘。我最初在装有 Windows 7 和 8 GB 内存的笔记本电脑上运行它。后来我在具有 64 GB 内存的 Linux (Ubuntu) 机器上尝试了相同的操作。这两台机器都是 64 位的,并且也使用 64 位版本的 R。但是,Windows 有 R 3.0.0,而 Linux 有 R 2.14
与 Windows 相比,Linux 中的某些命令非常慢。
Corpus 指挥部
在窗户上
这在 Windows 机器上只用了 47 秒
在 Linux 上
这在 Linux 机器上花了大约220 秒
雪球词干
在窗户上
这在 Windows 机器上只用了12 秒
在 Linux 上
这在 Linux 机器上花了大约290 秒
有没有办法在 Linux 机器上加速这些命令?R版本会产生如此大的不同吗?谢谢你。
拉维
solr - 使用荷兰语的 StemmerOverrideFilterFactory 和 SnowballPorterFilterFactory 无法正确分析 Word
索尔:3.5
你好,
我根据以下 fieldType 定义创建了一个荷兰语字段类型:
stemdict_nl.txt 根据http://snowball.tartarus.org/algorithms/kraaij_pohlmann/stemmer.html算法使用 45710 字规则。
大多数搜索查询似乎都运行良好,我得到的建议大多是正确的。
但是,当我搜索“etiketje”时出现问题。根据我的规则:
它应该回退到“etiket”。但是它回退到'etik'。当我分析我的领域时,SOLR 返回:
我希望 SOLR 将“Etiketje”分析为:
希望这里有人可以指出我正确的方向。
indexing - Elasticsearch:如何列出特定索引使用的每个分析器
我需要找出在特定索引中配置了哪个分析器(类型、语言..)。我试过http://localhost:9200/wazzup/_mapping
了,但它只提供有关字段名称/类型的信息。
谢谢
r - R 中的 Snowball 和 SnowballC 包是否不同?
我正在使用R 中的包stemDocument
来提取文本文档tm
。示例代码:
我收到一条错误消息:
loadNamespace(name) 中的错误:没有名为“Snowball”的包</p>
我已经安装了SnowballC
包,但找不到 Snowball 包。下面是我的sessionInfo()
:
它是否需要任何其他软件包或 Snowball?
r - 失败并出现错误:“包 'sentiment' 是在 R 3.0.0 之前构建的:请重新安装它”
我正在尝试运行 snaMIC.R 脚本,该脚本正在对 Twitter 数据进行情绪分析。但它失败并出现错误说包情绪是在 R 3.0.0 之前构建的:请重新安装。我正在使用 R-3.1.0 i386(32 位获胜)。我注意到的另一件事是我没有在“安装包”下获得情绪包。我从http://cms.unipune.ernet.in/~webmaster/cran/bin/windows/contrib/2.14/sentiment_0.2.zip下载了sentiment_0.2.zip 文件 并在默认的R win-library 下成功解压. 但是“安装包”下仍然没有情感包。我添加了一些更多的存储库,但这并没有帮助。任何建议将不胜感激。
ruby-on-rails - 将省略过滤器添加到雪球
起初,我使用的是分析器“语言分析器”,一切似乎都运行良好。直到我意识到“a”不是法语停用词列表的一部分
所以我决定用雪球来测试。它似乎也运行良好,但在这种情况下,它确实删除了像“l'”、“d'”这样的短词......
因此我的问题是:如何使用雪球,默认保留过滤器,并添加停用词和省略号列表?
否则,如何更改分析器“语言分析器”的停用词列表?
最后一个问题:真的有兴趣使用雪球而不是分析器“语言分析器”吗?它更快吗?更相关?
谢谢你