问题标签 [stop-words]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
300 浏览

php - 如何使用 PHP 和 MYSQL 在搜索中省略“THE”

我正在为一个项目做一个“字母顺序搜索”模块。

那就是它看起来像

ABCDEF 。. . . . . . . . ... . . . . . ... . . Z

当我点击“ A ”时,结果应该按“ A ”排序。所有字母表都是一样的。

现在我的问题如下:

  • 比如有一部电影叫《木乃伊》。

  • 我所做的是当点击“ ALPHABET T ”时,这个相应的电影将被排序。

  • 但我的客户要求是当用户点击“M”而不是“T”时,“木乃伊”电影必须排序

  • 因为“a,an,the”是“ARTICLES”,没有任何意义。

我希望现在每个人都能理解我的问题是什么......

任何帮助将不胜感激。

提前致谢

0 投票
1 回答
1261 浏览

sql-server-2005 - SQL Server 2005 全文搜索中的自定义停用词列表

无论如何要向 SQL Server 2005 添加一些自定义停用词吗?

0 投票
3 回答
2108 浏览

string - 如何从字符串中删除单词列表

我想做的事情(在 Clojure 中):

例如,我有一个需要删除的单词向量:

...和一个字符串向量:

因此,应该从每个字符串中删除每个禁用词,在这种情况下,结果将是:[“movie list”“thisisastring”“haha”]。

这该怎么做 ?

0 投票
2 回答
1275 浏览

nlp - 无趣单词列表

[警告] 这不是直接的编程问题,而是在语言处理中经常出现的问题,我相信它对社区有一些用处。

有没有人有一个很好的无趣(英语)单词列表,这些单词经过了更多的测试,而不是随意的外观?这将包括所有介词,连词等......可能具有语义含义但通常在每个句子中经常出现的单词,无论主题如何。我不时为个人项目建立自己的清单,但它们是临时的;我不断地添加我忘记的单词。

0 投票
1 回答
1798 浏览

mysql - 如何编写不考虑任何停用词的完整搜索索引查询?

我编写了一个查询,它将使用 mysql 表中的完整搜索索引执行全文搜索。

但我的问题是,当用户使用“to go”搜索时,由于 mysql 中的停用词,它不会搜索任何内容。

所以我的问题是,如何编写一个忽略停用词的完整搜索查询?

0 投票
3 回答
8382 浏览

full-text-search - 我在哪里可以找到 Oracle 全文搜索的“停止”词列表?

我有一个客户在一个新的 Oracle UCM 站点上测试全文(下面的示例)搜索。他们选择测试的随机文本字符串是“仅测试”。哪个失败了;从我的测试来看,“only”似乎是一个保留字,因为它永远不会从全文搜索中返回(它是从元数据搜索中返回的)。

我花了一上午的时间搜索 oracle.com,发现这个看起来很全面,但没有“唯一”。

所以我的问题是,“只是”一个保留字。在哪里可以找到完整的 Oracle 全文搜索 (10g) 保留字列表?

全文搜索字符串示例;


更新。 我做了更多的测试。似乎它忽略了指示地点或时间的词;只有,一些,直到,何时,同时,在哪里,那里,这里,附近,那个,谁,关于,这个,他们。

谁能证实这一点?我无法在任何地方的 Oracle 上找到它。


更新 2。发布答案 我应该一直在寻找不是“保留”的“停止”词。更新了问题标题和标签以反映。

0 投票
4 回答
11022 浏览

php - php文本中最常用的词

我在 stackoverflow 上找到了下面的代码,它可以很好地找到字符串中最常见的单词。但是我可以排除对“a, if, you, have, etc”等常用词的计算吗?还是我必须在计数后删除元素?我该怎么做?提前致谢。

0 投票
4 回答
2301 浏览

java - 删除java中的停用词

我有一个停用词列表,其中包含大约 30 个单词和一组文章。

我想解析每篇文章并从中删除那些停用词。

我不确定最有效的方法是什么。

例如,如果存在空格,我可以遍历停止列表并替换文章中的单词,但它似乎并不好。

谢谢

0 投票
3 回答
1740 浏览

solr - 如何在没有停用词的情况下对 solr 进行排序

我正在尝试通过忽略停用词的字段对 solr 查询进行排序,但似乎找不到这样做的方法。例如,我希望结果排序如下:

  • 查理
  • 一只狐狸
  • 直升机

这可能吗?现在字段类型定义如下:

该字段的添加如下:

似乎其他人也必须这样做?还是没有停用词的排序是禁忌?

0 投票
4 回答
18421 浏览

python - 如何从字符串列表中删除单词列表

对不起,如果这个问题有点令人困惑。这类似于这个问题

我认为上述问题接近我想要的,但在 Clojure 中。

还有一个问题

我需要这样的东西,但不是那个问题中的 '[br]' ,而是需要搜索和删除的字符串列表。

希望我说清楚了。

我认为这是因为 python 中的字符串是不可变的。

我有一个需要从字符串列表中删除的干扰词列表。

如果我使用列表推导,我最终会一次又一次地搜索相同的字符串。所以,只有“of”被删除,而不是“the”。所以我修改后的列表是这样的

我想知道我在做什么错误。