问题标签 [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 过滤掉搜索查询的常用词
是否有任何简单的方法可以通过提取查询中的有意义的数据来过滤用户的输入(可能是一个问题)?
我基本上想过滤掉任何干扰词,这样我就可以向谷歌的搜索 API 发送一个“干净”的查询。
mysql - 如何重置 MYSQL 中的停用词?
我想重置 mysql 中的停用词列表以进行全文搜索。我已经在我的系统中安装了 WAMP 服务器,它有 phpmyadmin 来访问 mysql。但我不知道如何在 phpmyadmin 中重置停用词。谁能告诉我该怎么做。
我也http://dev.mysql.com/doc/refman/5.1/en/server-system-variables.html#sysvar_ft_stopword_file阅读了这个链接,但不知道如何使用这个???
search - 使用停用词进行 Xapian 多语言搜索?
我有两个 Xapian 数据库,我们称一个为“EN”,另一个为“DE”,假设前者包含一些英文文档,而后者包含一些德文文档。
如果我希望用户能够同时搜索这两个数据库,我可以轻松加载这两个数据库。但是,似乎我只能使用一个词干分析器和一组停用词?
没有办法实例化一个英语词干分析器并让它只应用于那些来自“EN”数据库的结果?没有办法用英文单词创建一个 Stopper,并且只适用于来自“EN”数据库的那些结果?
这可能是对的吗?
language-agnostic - 英语的“停用词”列表?
我正在为一些英语文本生成一些统计数据,我想跳过无趣的单词,例如“a”和“the”。
- 我在哪里可以找到这些无趣单词的列表?
- 这些单词的列表是否与英语中最常用单词的列表相同?
更新:这些显然被称为“停用词”而不是“跳过词”。
sql-server-2005 - 查询 SQl Server 2005 全文搜索噪音/停用词
是否可以通过查询数据库从 SQL Server 2005 中获取全文搜索噪音/停用词的列表?
我知道干扰词位于文本文件 ~/FTData/noiseEng.txt 中,但我们的应用程序无法访问该文件。
我查看了 sys.fulltext_* 表,但这些似乎没有单词。
hebrew - 我在哪里可以找到希伯来语停用词列表?
我在哪里可以找到希伯来语停用词列表?
java - Java 中的分词器、停用词删除、词干提取
我正在寻找一个类或方法,该类或方法需要包含 100 多个单词的长字符串并进行标记,删除停用词和词干以在 IR 系统中使用。
例如:
“大肥猫,对袋鼠说‘我认识的最有趣的人’……”
分词器将删除标点符号并返回一个ArrayList
单词
停用词去除器会去除“the”、“to”等词
词干分析器会减少每个单词的“词根”,例如“最有趣”会变得有趣
提前谢谢了。
sql-server - 全文搜索:正在搜索干扰词
我在 SQL Server 2008 中有一个带有全文搜索索引的数据库。我在 Stoplist 中定义了 Stopword 'al'。但是,当我用关键字“al”搜索任何短语时,“al”这个词仍然在排名中使用。
这可能与我正在分解搜索词并重建它们的事实有关。然后我在多个字段中搜索并对结果进行排名:http: //pastebin.com/fdce11ff。此功能可分解搜索
进入
用于全文搜索。
想象一下这个场景:
姓名:Al Hamra,作者:Jack Brown,类型:小说 Al Karawan,作者:Al Hanz,类型:浪漫
现在搜索'al hamra'将返回'Al Karawan',尽管事实上'al'在停止列表中。为什么是这样?我认为停止列表会导致单词失去重量?
ruby - 忽略 sphinx 索引中的撇号
在我的 sphinx 配置文件中,我有以下内容:
(charset_table 条目来自这里:http ://speeple.com/unicode-maps.txt )
预期的结果是查询kyles
将返回匹配kyles
和/或的所有记录kyle's
,因为我告诉 sphinx 从索引 (ab'cd -> abcd) 中排除 ' (单引号/apos)。然而,在实践中,这并没有发生。
mysql - MySQL 全文停用词基本原理
我目前正在尝试为我的网站开发基本的全文搜索,并且我注意到某些单词(例如“关于”)被列为 MySQL 全文搜索的停用词。现在这并没有让我太困扰,因为搜索给定新闻项目的人不一定会使用“关于”这个词进行搜索(但我当然不能代表所有人!)。然而,我希望这里有人能启发我关于有一个停用词列表的理由。谢谢!
澄清: 我在全文表格中使用 MyIsam。停用词是 MySQL 不会索引的词(对于任何全文索引)。正如对该问题的评论中所述,有一个完整的停用词列表,没有任何解释。我只是想知道“他们”选择的词背后是否有理由。