问题标签 [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 如何使用 PHP 和 MYSQL 在搜索中省略“THE”
我正在为一个项目做一个“字母顺序搜索”模块。
那就是它看起来像
ABCDEF 。. . . . . . . . ... . . . . . ... . . Z
当我点击“ A ”时,结果应该按“ A ”排序。所有字母表都是一样的。
现在我的问题如下:
比如有一部电影叫《木乃伊》。
我所做的是当点击“ ALPHABET T ”时,这个相应的电影将被排序。
但我的客户要求是当用户点击“M”而不是“T”时,“木乃伊”电影必须排序
因为“a,an,the”是“ARTICLES”,没有任何意义。
我希望现在每个人都能理解我的问题是什么......
任何帮助将不胜感激。
提前致谢
sql-server-2005 - SQL Server 2005 全文搜索中的自定义停用词列表
无论如何要向 SQL Server 2005 添加一些自定义停用词吗?
string - 如何从字符串中删除单词列表
我想做的事情(在 Clojure 中):
例如,我有一个需要删除的单词向量:
...和一个字符串向量:
因此,应该从每个字符串中删除每个禁用词,在这种情况下,结果将是:[“movie list”“thisisastring”“haha”]。
这该怎么做 ?
nlp - 无趣单词列表
[警告] 这不是直接的编程问题,而是在语言处理中经常出现的问题,我相信它对社区有一些用处。
有没有人有一个很好的无趣(英语)单词列表,这些单词经过了更多的测试,而不是随意的外观?这将包括所有介词,连词等......可能具有语义含义但通常在每个句子中经常出现的单词,无论主题如何。我不时为个人项目建立自己的清单,但它们是临时的;我不断地添加我忘记的单词。
mysql - 如何编写不考虑任何停用词的完整搜索索引查询?
我编写了一个查询,它将使用 mysql 表中的完整搜索索引执行全文搜索。
但我的问题是,当用户使用“to go”搜索时,由于 mysql 中的停用词,它不会搜索任何内容。
所以我的问题是,如何编写一个忽略停用词的完整搜索查询?
full-text-search - 我在哪里可以找到 Oracle 全文搜索的“停止”词列表?
我有一个客户在一个新的 Oracle UCM 站点上测试全文(下面的示例)搜索。他们选择测试的随机文本字符串是“仅测试”。哪个失败了;从我的测试来看,“only”似乎是一个保留字,因为它永远不会从全文搜索中返回(它是从元数据搜索中返回的)。
我花了一上午的时间搜索 oracle.com,发现这个看起来很全面,但没有“唯一”。
所以我的问题是,“只是”一个保留字。在哪里可以找到完整的 Oracle 全文搜索 (10g) 保留字列表?
全文搜索字符串示例;
更新。 我做了更多的测试。似乎它忽略了指示地点或时间的词;只有,一些,直到,何时,同时,在哪里,那里,这里,附近,那个,谁,关于,这个,他们。
谁能证实这一点?我无法在任何地方的 Oracle 上找到它。
更新 2。发布答案 我应该一直在寻找不是“保留”的“停止”词。更新了问题标题和标签以反映。
php - php文本中最常用的词
我在 stackoverflow 上找到了下面的代码,它可以很好地找到字符串中最常见的单词。但是我可以排除对“a, if, you, have, etc”等常用词的计算吗?还是我必须在计数后删除元素?我该怎么做?提前致谢。
java - 删除java中的停用词
我有一个停用词列表,其中包含大约 30 个单词和一组文章。
我想解析每篇文章并从中删除那些停用词。
我不确定最有效的方法是什么。
例如,如果存在空格,我可以遍历停止列表并替换文章中的单词,但它似乎并不好。
谢谢
solr - 如何在没有停用词的情况下对 solr 进行排序
我正在尝试通过忽略停用词的字段对 solr 查询进行排序,但似乎找不到这样做的方法。例如,我希望结果排序如下:
- 查理
- 一只狐狸
- 直升机
这可能吗?现在字段类型定义如下:
该字段的添加如下:
似乎其他人也必须这样做?还是没有停用词的排序是禁忌?