问题标签 [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Java 中的分词器、停用词删除、词干提取
我正在寻找一个类或方法,该类或方法需要包含 100 多个单词的长字符串并进行标记,删除停用词和词干以在 IR 系统中使用。
例如:
“大肥猫,对袋鼠说‘我认识的最有趣的人’……”
分词器将删除标点符号并返回一个ArrayList
单词
停用词去除器会去除“the”、“to”等词
词干分析器会减少每个单词的“词根”,例如“最有趣”会变得有趣
提前谢谢了。
algorithm - 从文本中提取关键句子
你知道从文本中提取关键句子的有效方法吗?
我也想知道是否有一些软件实现
非常感谢
mysql - 带词干的 MySQL 全文
我正在为我的网站构建一个小搜索功能。我正在获取用户的查询,对关键词进行词干化,然后针对词干化的关键词运行全文 MySQL 搜索。
问题是 MySQL 将词干视为文字。这是正在发生的过程:
- 用户搜索“棒球”之类的词
- 我的词干算法(Porter Stemmer)将“棒球”变成“棒球”
- 全文没有找到任何匹配“basebal”的内容,即使应该有“baseball”和“baseballs”的匹配项
如何使用全文执行相当于 LIKE 'basebal%' 的操作?
编辑:
这是我当前的查询:
solr - Solr 能否返回使用同义词和词干提取时使用的实际最终查询?
我希望能够在我的 UI 中显示 solr 用于运行最终查询的查询术语。例如,我可能会键入查询“run”,但在幕后 solr 将使用词干提取来查询“ran”和“running”,我可能还定义了一个具有“run = sprint”的同义词。
我想向用户展示,尽管他们输入了“run”,但实际查询是“run run running sprint”
有什么简单的方法可以做到这一点?
谢谢!
python - python中的停用词消除和词干分析器
我有一个有点大的文档,想用 Python 对这个文档的单词进行停用词消除和词干处理。有谁知道这些的货架包装?如果不是对大型文档足够快的代码,也欢迎使用。谢谢
php - PHP 中的 Schinke 拉丁语词干提取算法
本网站提供“Schinke 拉丁语词干算法”供下载,以便在Snowball词干系统中使用。
我想使用这个算法,但我不想使用 Snowball。
好消息:该页面上有一些伪代码,您可以将其转换为 PHP 函数。这是我尝试过的:
我的问题:
1)这段代码能正常工作吗?它是否遵循算法的规则?
2)您如何改进代码(性能)?
非常感谢您!
nlp - 是否有任何可用于印度语言的词干分析器
是否有任何用于印度语言的词干分析器的实现,例如(印地语,泰卢固语)......
java - 词库/词干词典
看来我的 Google-fu 让我失望了。
有谁知道免费提供的仅包含单词库的单词库字典?所以,对于像草莓这样的东西,它会有草莓。但不包含缩写或拼写错误或替代拼写(如英国与美国)?任何可以在 Java 中快速使用的东西都会很好,但只是一个映射的文本文件或任何可以读入的东西都会有帮助。
sql - SQL词根匹配
我想知道那里的主要 SQL 引擎(MS SQL、Oracle、MySQL)是否有能力理解两个词是相关的,因为它们共享相同的根。
我们知道在搜索“network”时很容易匹配“networking”,因为后者是前者的子字符串。
但是SQL引擎有没有在搜索“networking”时可以匹配“network”的功能呢?
非常感谢。
c# - 在 C# 或 ruby 中处理文本的索引词干
鉴于此文本:
“朋友是更友好的朋友,把友好的分类分类分类。花开的花随着花的流动而流动”
我需要将词干应用于文本以实现以下结果:
当我们与 FAST 搜索引擎交互时。FAST 对内容进行索引以向查询提供相关的搜索结果。索引的一个方面是词干提取,我们需要使用 C# 或 ruby 来解决这个问题。
将不胜感激任何人对最佳方法的看法