问题标签 [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - java中的停用词去除
我想知道是否有任何线索如何开始编写我自己的停用词删除,而我不想使用任何外部库。在创建 HashSet 之后,我们如何才能将其用于删除文本的停用词?一次同样,我不想使用任何外部库。
sql-server-2008 - SQL 2008:关闭全文搜索查询的停用词
我很难找到一个好的解决方案:
假设我有一个“公司”表,其中有一列名为“名称”。我在这个专栏上有一个全文目录。如果用户搜索“非常好的公司”,我的查询将是:
问题是在这个例子中,“非常”这个词出现在标准的停用词列表中:
导致查询返回没有行,即使有一行名称为“非常好的公司”。
我的问题是,我将如何关闭查询的停用词?或者我将如何完全删除它们?
还是我应该以另一种方式进行此搜索?
string - 使用 matlab 从文件中读取文本时跳过某些单词
我创建了一个 matlab 程序来在文本文件中查找单词二元组及其频率。为此,我使用 textread 函数创建了一个字符串元胞数组:
unigrams = textread('file.txt','%s');
但我也希望从我的单元格数组中省略一堆单词,如'to'、'the'、'is'、'or'等以及特殊字符'#'、'$'、'&'和'%' . 有没有办法在从原始文件中读取单词时排除这些单词。
谢谢。
lucene - Lucene: how to preserve whitespaces etc when tokenizing stream?
I am trying to perform a "translation" of sorts of a stream of text. More specifically, I need to tokenize the input stream, look up every term in a specialized dictionary and output the corresponding "translation" of the token. However, i also want to preserve all the original whitespaces, stopwords etc from the input so that the output is formatted in the same way as the input instead of ended up being a stream of translations. So if my input is
Term1: Term2 Stopword! Term3 Term4
then I want the output to look like
Term1': Term2' Stopword! Term3' Term4'
(where Termi' is translation of Termi) instead of simply
Term1' Term2' Term3' Term4'
Currently I am doing the following:
but this, of course, loses all the whitespaces etc. How can I modify this to be able to re-insert them into the output? thanks much!
============ UPDATE!
I tried splitting the original stream into "words" and "non-words". It seems to work fine. Not sure whether it's the most efficient way, though:
public ArrayList splitToWords(String sIn)
{
}
php - 停止词成字符串
我想在 PHP 中创建一个函数,当它发现字符串中有一些坏词时将返回 true。
这是一个例子:
请假设$stopwords
变量是一个值数组,例如:
我怎样才能做到这一点?
谢谢
php - 停用词功能
如果在数组中找到坏词之一,我有这个函数返回 true$stopwords
它似乎工作正常。
问题是当数组$stopwords
为空时(所以没有指定坏词),它总是返回真,就像空值被识别为坏词并且它总是返回真(我认为问题是这个但可能是另一个)。
谁能帮我解决这个问题?
谢谢
mysql - 删除 mysql ft_stopword_file 后没有结果
我有一个电影数据库,其中包含有关名为 Yes, We're Open 的电影的信息。
在搜索数据库时,我遇到了一个问题,其中搜索“是的,我们是开放的”返回另一个标题,其中包含“我们是”和“开放”但在其描述中没有“是”字样,即使我要求布尔模式下的所有单词(即“是的,我们打开”'+yes +we\'re +open'
在作为查询发送之前被翻译)。
我认为这是因为“是”在内置的停用词列表中。但是,当我设置ft_stopword_file = ""
,重新启动 mysql,然后repair table [tablename] quick
我正在搜索的表时,我在搜索“是的,我们已打开”时没有得到任何结果。我在下面包含了我的 my.cnf。这是 MySQL 版本 5.0.22。有任何想法吗?
编辑:以下是一些示例查询:
#1 - 内置停用词文件
....然后编辑my.cnf,添加ft_stopword_file=""
.....
#2 没有停用词文件
编辑#2:创建表:
python - 使用python删除停用词
全部,
我有一些需要清理的文本,并且我有一个“大部分”有效的小算法。
取本页的第一行。http://en.wikipedia.org/wiki/Paragraph并删除所有我们不感兴趣的字符,在这种情况下都是非字母数字字符。
段落(来自希腊语paragraphos,“写在旁边”或“写在旁边”)是处理特定观点或想法的书面话语的独立单元。一个段落由一个或多个句子组成。[1][2] 段落的开头由换行表示。有时第一行是缩进的。在不同的时间,段落的开头已由 pilcrow 指示:¶。
输出看起来相当不错,只是有些单词的重新组合不正确,我不确定如何更正它。
来自希腊文paragraphos 写在旁边或写在旁边的段落是一个独立的单元
注意“selfcontained”这个词是“self-contained”。
编辑:停用词文件的内容只是一堆字符。
!$ % ^ , & * ( ) { } [ ] <
, . / | \ ? 〜`:; "
事实证明我根本不需要单词列表,因为我只是真的试图删除在这种情况下是标点符号的字符。
.htaccess - 如果 url 等于/包含一些单词,.htaccess 跳过重写
我有这样的.htaccess:
但我想跳过这些规则,如果 url 包含例如admin,在域名之后的管理词(例如 domain.com/admin/ 或 domain.com/administration/)
python - NLTK 错误不显示某些单词
例如......在我的word_list中......我有“爱不会让世界运转。爱是让骑行值得的东西”
我想打印出所有不在停用词中的单词...
但它只打印出love,make,go,round,love,makes,worthy.......“世界,骑行”这个词没有打印出来......有人知道如何解决吗?谢谢...