问题标签 [snowball]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 雪球词干:糟糕的法语词干
我正在处理一些 nlp 任务。我的输入是法语文本,因此只有 Snowball Stemmer 在我的上下文中可用。但是,不幸的是,它一直给我糟糕的词根,因为它甚至不会删除plural "s"
or silent e
。下面是一些例子:
r - 词干的逆向
R中有什么方法可以逆转词干的过程吗?我有一些俄语关键字。我想找出所有可能的词根。
它返回выявлени
。我想输入выявления
,程序应该返回 ' выявлениа
' 和 ' выявления
'
r - 文本分析中的词干提取问题(瑞典数据)
在以下代码中,我的目标是减少具有相同词干的单词数量。比如瑞典语kompis在英语中指朋友,词根相近的词有kompisar、kompiserna。
我创建了一个包含单词 kompis、kompisar、kompiserna 的示例文本文件。然后,我通过以下代码在语料库中做了一些预处理:
结果如下。但是,它包含原始单词而不是相同的词干:kompis。
你知道如何解决吗?
r - 在文本分析中提取正确的文本(瑞典语)
在 R 中提取正确的文本后,我遇到了问题。'papper' 应该显示为 'papper' 但显示为 'papp','projekt' 变为 'projek'。
因此生成的频率云显示了这些缩短的版本,这些版本失去了实际意义或变得难以理解。
我能做些什么来摆脱这个问题?我正在使用最新版本的雪球(0.6.0)。
代码:
python - 使用 nltk 雪球词干分析器将列中的值作为参数传递
传递df[language]
适用于停用词,但不适用于雪球词干分析器。有没有办法解决这个问题?
到目前为止,我还没有真正找到任何线索...
我希望它能够像删除停用词一样使用英语和瑞典语作为语言进行雪球词干提取。我收到error
如下消息:
ValueError:Series 的真值不明确。使用 a.empty、a.bool()、a.item()、a.any() 或 a.all()。
python - 将 Snowballstemmer 应用于每个单词的 Pandas 数据框
所以我想在数据框的列(未提取)上使用 Snowballstemmer 应用词干,以便使用分类算法。
所以我的代码如下所示:
因此,首先,我将所有大写字母转换为小写字母并删除所有荷兰语停用词。接下来是删除所有特殊字符,然后拆分所有单词。我检查了所有列都是“对象”。
我收到以下错误:stem() 缺少 1 个必需的位置参数:'token'
我该如何解决这个问题?
sqlite - 全文搜索雪球算法如何解释未指定语言的单词
我用 sqlite 建立了一个完整的 ext 搜索索引,当我扫描包含几种语言的文档时,我不明白内部发生了什么。
例如,我用俄语描述了一个我正在学习的编程主题,并在描述代码块中添加了显然是英语的编程语言语法语句和注释。
让我们考虑一下示例document.txt
如您所见, document.txt包含两种语言。
我使用雪球标记器(它重用标准sowball 库)来索引明确指定的已完成文档CREATE TABLE documents USING FTS5(text, tokenize='snowball russian');
,并且它可以毫无问题地处理它。所以这里有一点为什么?文档包含英文单词,后来索引包含英文词干和俄文词干,我可以搜索команда
或commenting
成功。事情是这样运作的吗?