问题标签 [stop-words]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

614 问题

0 投票

1 回答

1047 浏览

solr - Solr 突出显示停用词

schema.xml （与我的问题相关的部分）：

注意：我为fieldType: text启用了停用词

当我索引文档时，当我尝试使用此查询进行搜索时，我现在传递问题字段

知道单词have包含在我的停用词列表中，单词have未在结果中突出显示我该如何解决这个问题？我需要突出显示停用词，我检查了这篇文章Solr highlighting without stop-words for phrases? 这就是为什么我将question_highlight作为字符串但它仍然无法正常工作

2012-11-10T23:52:11.430

0 投票

2 回答

879 浏览

perl - Perl 从多个文件中删除停用词

我已经阅读了很多关于如何从文件中删除停用词的表格，我的代码删除了许多其他内容，但我还想包括停用词。这就是我达到的程度，但我不知道我错过了什么。请指教

perl file stop-words

2012-11-11T15:09:37.850

0 投票

2 回答

617 浏览

solr - 如果用户查询仅包含停用词，是否可以从 Solr 返回所有结果？

如果用户查询仅包含停用词，我希望 Solr 返回所有结果，例如 q=the，（默认情况下 Solr 返回 0 个结果）。我可以打开 Solr 配置中的任何标志，或者我可以使用任何 Solr 查询语法构造来实现此目的吗？

我真的不喜欢在客户端复制停用词逻辑并q=*:*在所有术语都是停用词时触发的想法。

solr stop-words solr-query-syntax

2012-11-13T22:42:00.063

0 投票

1 回答

211 浏览

mysql - 没有停用词或最小字长的 MySQL 文本索引

我对在 MySQL 中执行全文搜索很感兴趣，但我特别感兴趣的词往往是短词，或者可能出现在停止列表中的词。例如，我可能想要搜索所有以“It is”开头的条目。

最好的方法是什么？我是否应该手动删除所有停用词并将最小字长设置为 0？还是有其他方法可以做到这一点？

非常感谢你。

mysql full-text-search stop-words

2012-11-23T07:29:24.303

0 投票

1 回答

318 浏览

r - 寻找 twit 和短信风格的停用词

我已经使用 R 来挖掘推文，并且得到了推文中使用频率最高的词。然而，最常见的词是这样的：

我正在寻找文本中的趋势、名称和事件。我想知道是否有办法从语料库中删除这种短信风格的词（例如，想要，想要，...）？他们有停用词吗？任何帮助，将不胜感激。

r nlp text-mining stop-words

2012-11-26T04:33:27.507

0 投票

2 回答

1308 浏览

algorithm - 搜索引擎停用词 - 最佳实践

在为搜索引擎分析文档时，通常不索引所谓的停用词。停用词是语言中经常出现的常用词，例如a、the和。this这个想法是，如果停用词被编入索引，它们会在索引中占用太多空间，并且对搜索结果的质量几乎没有影响。

我想知道是否总是这样。

在现代搜索引擎中，索引停用词是否会使索引大小爆炸？还是只是微幅增长。

此外，删除停用词如何影响短语搜索？搜索“披头士”和“披头士”似乎是两件截然不同的事情。

我正在使用 elasticsearch 构建应用程序，但这个问题同样适用于 Solr、直接 lucene 或任何其他变体。

algorithm search-engine elasticsearch information-retrieval stop-words

2012-11-28T08:03:10.747

0 投票

2 回答

2119 浏览

r - 如何从 R 中的文本文件中读取停用词列表

可能重复：
将文本文件读入 R

我有一个自定义停用词列表，它位于一个用换行符分隔的文本文件中。如何在我的 R 脚本中使用该文件？

代码：

唯一的问题是我想从文件中读取单词，而不是像上面那样对它们进行硬编码。我的文本文件如下所示：

提前致谢。

r text-mining stop-words

2012-11-29T05:24:44.867

0 投票

2 回答

2307 浏览

lucene - 如何覆盖lucene中的停用词

我正在我的文件夹中创建一个 Lucene 索引，并且正在索引 txt 文件的内容。我希望我的内容没有停用词索引，但是在通过分析器后实际上在搜索时让我脱离了停用词，但我所有的文本索引。我把代码放在下面：

示例文件的内容是“安装目录”。如果我对“a”、“to”、“of”进行搜索，但没有找到任何东西，这意味着我已经成功通过了分析器。使用该工具查看索引 LUKE，我看到该字段包含“安装到目录”，但查看 Field.TermVector 仅包含：“安装”和“目录”，这就是我想要出现的全部内容场。

谢谢你。

lucene indexing stop-words

2012-12-06T09:12:58.827

0 投票

2 回答

256 浏览

nlp - 哪些词要省略？

我试图在两个句子之间找到一些相似性度量。我利用了两个词的个体语义相似性。但是字典中有很多单词是我从我的句子中提取出来的。我想从句子中删除一些我认为不能传达有关内容信息的单词。首先，我删除了字母较少的单词，但我认为这不合理，因为它也删除了一些信息丰富的单词。

看这里的一些句子的部分

如果我有一个包含这些单词的文本文件，我会将它们从我的字典中删除，只保留信息性单词。

是否有任何您知道的英语单词列表，以便我可以用来过滤我的字典？

nlp similarity stop-words

2012-12-19T22:18:06.720

0 投票

1 回答

5590 浏览

lucene - stem words and create index without stop words using Lucene 4.0

I have the following problem:there are several text documents which I need to parse and create an index but without stop words and to stem the terms.I can do it manually but I heard from a colleague about Lucene which can do it automatically. I searched the web and found many examples which I tried but each and every example use a different version of lucene and different methods and none of the examples is complete. At the end of this process I need to calculate the tf/idf for each term in my collection.

update: I've created an index with one doc at the moment.the doc is without stop words and stemmed. how do I calculate tf/idf to this doc uisng lucenc? (I will add more docs after I'll figure out how to do the calculation)

Any help with lucene will be appreciated. Thanks.

lucene stemming stop-words

2013-01-04T08:45:08.000

1 2 3 4 5 6 7 8 9 10

问题标签 [stop-words]

Reference