问题标签 [snowball]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
60 浏览

stemming - Can i do this code python with snowball?

The word length is 5. I want to delete the letter in position 0 and the letter in position 3

with python seems like this :

word = word[1:3] + word[4] #this is with python

The question is, How i can do it with snowball ?

0 投票
1 回答
35 浏览

nlp - 使用雪球定义字符串列表

如何使用雪球定义列表字符串?

我试图这样做:

如何获得列表长度?如何处理每个模式?

0 投票
1 回答
1378 浏览

r - R中的stemDocument是否删除“ed”结尾?

下面是我如何阻止我的语料库和我的文件。然而,例如“工作”和“工作”出现了大量的时间,在我的分析中,对于所有意图和目的来说,这些显然是同一个词。是否有一个包或一些代码片段来删除“-ed”结尾?谢谢!

0 投票
1 回答
390 浏览

r - 为什么我错过了术语文档矩阵中的最后一个字母?

我是 R 新手,我正在尝试使用 csv 文件创建术语文档矩阵。但结果显示,有些单词最后漏掉了字母“e”。如何使术语文档矩阵显示完整的单词?如果您在看到看起来不正确的部分时也能告诉我,那就太好了。谢谢!

以下是我在这里看到的文件结果中的一些单词。

导致
停机
故障
中断
无法访问

0 投票
2 回答
8310 浏览

python - Python NLTK 中用于情感分析的德语词干

我最近开始研究德语文本的情绪分析项目,我计划使用词干分析器来改进结果。

NLTK 带有一个德国雪球词干,我已经尝试使用它,但我不确定结果。也许应该是这样,但作为一名计算机科学家而不是语言学家,我有一个问题,即词干变化的动词形式来自不同的词干。

以单词“suchen”(搜索)为例,第一人称单数的词根为“such”,第三人称单数的词根为“sucht”。

我知道也有词形还原,但据我所知,没有工作的德国词形还原器集成到 NLTK 中。有 GermaNet,但他们的 NLTK 集成似乎已中止。

直截了当地说:我希望将变形动词形式放在同一个词干上,至少对于相同时态的规则动词而言。如果这对我的目标没有用处,请告诉我原因。如果是,您是否知道可以使用任何其他资源来帮助我实现这一目标?

编辑:我忘了提,任何软件都应该免费用于教育和研究目的。

0 投票
1 回答
11209 浏览

python - 用于俄语单词列表的 SnowballStemmer

我确实知道如何在一个单词上执行 SnowballStemmer(在我的例子中,在俄语上)。做接下来的事情:

如果我有一个像 ['Василий', 'Геннадий', 'Виталий'] 这样的单词列表,我该怎么做?

我使用 for 循环的方法似乎不起作用:(

0 投票
1 回答
68 浏览

r - R慢速中的词干提取功能

我正在尝试在大约 40000 行的 R 中的数据集(通过 data.table 包上传)上运行词干分析器功能,但它需要永远运行。我的代码如下所示:

如果手动停止该过程,它会显示超过 50 个警告: 图片链接

是否有替代方法可以更快地运行它。我的电脑有 8Gb 内存。

0 投票
0 回答
44 浏览

r - 使用 r 提取一组标记

我曾尝试使用 snowballc 词干分析器进行词干提取,但它会为相同的查询产生不同的输出

上面的词是正确的,但是每当我给出一组标记作为输入时

它输出没有变化的单词

如果有一种方法可以处理(进行词干提取)标记中的所有单词,那将会很有帮助。

0 投票
1 回答
457 浏览

python - 如何在 Python 中使用新的 .sbl 雪球算法?

我想在 Python 中使用立陶宛语词干分析器,但是,像NLTK这样的常用工具中没有立陶宛语。

但是,我可以在这里这里找到立陶宛词干分析器的雪球 .sbl 文件。

但是如何在Python中使用它们呢?

我能够找到的是获取 .c 文件的命令行方法。但接下来呢?

正如雪球官方页面中所述,有 PyStemmer - 雪球的 Python 接口。但是在那里我找不到任何方法来使用新的或自定义的 .sbl 算法。

那么如何将新的 .sbl 算法引入 Python 呢?

0 投票
1 回答
263 浏览

go - Snowball Edge - Golang 中的 aws-sdk-go 包 - 无法连接到 S3

我正在使用 Golang 中的 aws-sdk-go 包连接到 Amazon S3 以提供基于云的存储池。我有这个运作良好。我希望能够使用 Snowball 支持批量高速传输,因此我得到了一个 Snowball Edge 来在我的实验室中进行测试。我还没有弄清楚如何让它工作,而且 Snowball Edge 的文档似乎并不完整。此配置可能会受到订购 Snowball Edge 而不仅仅是 Snowball 的影响。

我发现 Edge 更成问题的原因是,普通的 Snowball 需要运行一个名为 snowballAdapter 的应用程序,它看起来处理了一些端口映射问题。但是,此应用程序似乎与 Edge 设备不兼容,因为它报告说它不适用于“Snowball Edge Manifest 文件”。

我查看了真实 AWS S3 和 nmap 报告中可用的端口:

而在 Snowball Edge 上,端口是:

所以,在我看来,问题可能是我必须让 aws 包使用端口 8443 用于 Snowball Edge,而不是 443 用于真正的 S3。连接到 S3 的代码非常简单:

所以,问题是,如何更改代码以指向 Snowball Edge?我尝试从 Amazon S3 终端节点映射到 /etc/hosts 中的 Snowball Edge。我明白为什么在发现端口不同后这不起作用。我尝试添加不同形式的“WithEndpoint("...host...") 但没有成功。或者,我是否走错了路,应该能够让 snowballAdapter 与 Snowball 一起工作边缘?

顺便说一句,所有 snowballEdge 命令都按预期工作,因此设备似乎工作正常,例如:

而且,我使用了与设备关联的正确密钥,并且它确实配置了 S3 服务: