问题标签 [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
lucene - dismax壮举。停用词、同义词等
dismax 是否支持标准 requestHandler 等所有功能?停用词?同义词?词干?你听说过“edismax”吗?
我正在使用 Solr1.4
对于我对停用词的第一次测试,它不起作用..我想是的..
如果 count terms=[1,2],我将 DisMax 配置为匹配所有术语
示例(法语)
- un tshirt (意思是:一件 tshirt ,即使我的 mm =2 也应该只搜索“tshirt”)
- dismax 没有结果(它是,寻找两个词):它的 dismax “un” 词和 “tshirt” 词
- 使用标准查询找到的结果:仅查找“tshirt”字样。
提前感谢您的帮助:)
c# - 如何对忽略文章(“the”、“a”等)的 SQLite 查询进行排序?
我正在使用 C# 显示从 SQLite 数据库调用的电影标题列表。目前,我正在使用一个自定义 ListBox 类,该类具有对从每个项目的开头剥离单词“The”的文本进行排序的功能。然而,这似乎并不是最简单的方法,因为它从 SQLite 数据库调用然后排序。我宁愿将其减少到一步,希望直接从我的“SELECT”查询中的数据库中排序。
我对此进行了一些搜索,并找到了一些建议,包括在数据库中创建一个额外的排序列。虽然这当然是一种可能性,但我想知道是否有任何更简单的选项不需要插入几乎相同的重复信息(特别是如果数据库变得更大)。我对 SQLite 很陌生,但我读过一些关于创建可用于创建自定义排序的整理函数的内容。但是,我不确定这是否适合使用它,并且似乎无法找到在 C# 中实现它的任何帮助。
希望有人可以分享一些指导。如果一个额外的排序列是最好的方法,那么这就是我要做的。
python - python中的停用词消除和词干分析器
我有一个有点大的文档,想用 Python 对这个文档的单词进行停用词消除和词干处理。有谁知道这些的货架包装?如果不是对大型文档足够快的代码,也欢迎使用。谢谢
objective-c - 有没有更好的方法来删除目标 c 中的停用词?
我现在正在做的方法是将字符串分解为 NSSet 中的单词数组并减去停用词集。有没有更有效的方法?
perl - 如何从大型文本文件中删除停用词?
我有十亿字的语料库,我以标量形式收集。我有一个 .regex 文件,其中包含我想从数据(文本)中删除的所有停用词。
我不知道如何使用这个 .regex 文件,所以我做了一个数组并将 .regex 文件的所有停用词存储在我的停用词数组中。
要删除停用词,我会执行以下操作:
这需要很长时间才能执行。如何在我的 Perl 脚本中使用 .regex 文件来删除停用词?或者有没有更快的方法来删除停用词?
mysql - MySQL全文停用词问题
我有一个名为“产品”的数据库和一个包含列的 FULLTEXT 索引:title
和description
. 我所有的产品都是润滑油(油),它有两种类型:工业和汽车,比率为55%-45%。如果我在 auto-moto oils 之后进行搜索,那么它将不会返回任何结果,因为“auto-moto”关键字出现在超过一半的行中,并且所有这些行中都存在油,因此 MySQL 将它们放入 STOPWORDS列表。
我正在使用 PHP。如何进行该查询以返回正确的结果?
ruby - 从文本描述中简单过滤掉常用词
诸如“a”、“the”、“best”、“kind”之类的词。我很确定有实现这一目标的好方法
为了清楚起见,我正在寻找
- 可以实现的最简单的解决方案,最好是在 ruby 中。
- 我对错误的容忍度很高
- 如果我需要一个常用短语库,我也非常满意
ruby-on-rails-3 - 在模型字段上实现停用词的简单方法
我正在使用 Rails 3.0,并且有几个模型具有公共的英语参考字段,例如故事章节的标题。我正在寻找一种优雅的方式来为控制器上的操作实现某些停用词,例如“new”、“update”、“destroy”等。最好的方法是什么,通过保存期间的某种回调该模型?
text-parsing - 我应该在哪里存储停用词列表?
我的函数解析文本并删除短词,例如“a”、“the”、“in”、“on”、“at”等。
将来可能会修改这些单词的列表。此外,在不同列表之间切换(即,针对不同语言)也可能是一种选择。
那么,我应该在哪里存储这样的列表?
- 约50-200字
- 每分钟阅读很多次
- 几乎没有写入(修改)——例如,几个月一次
我有这些选择:
- 代码中的列表(最快,但听起来不是一个好习惯)
- 一个单独的文件“stop_words.txt”(从文件中读取的速度有多快?我应该每隔几秒钟从同一个文件中读取相同的数据吗?我调用同一个函数?)
- 一个数据库表。当单词列表应该几乎是静态的时,它真的有效吗?
我正在使用 Ruby on Rails(如果这有什么不同的话)。
php - 从文本块中提取相关标签/关键字
我想要一个特定的实现,以便用户提供如下文本块:
“要求 - 工作知识,使用 Linux、Apache 2、MySQL 5 和 PHP 5 的 LAMP 环境, - Web 2.0 标准知识 - 熟悉 JSON - 使用框架、Zend、OOP 的实践经验 - 跨浏览器 Javascripting、JQuery 等. - 版本控制软件的知识,例如子版本将是最好的。
我想要做的是自动选择相关关键字并创建标签/关键字,因此对于上述文本,相关标签应该是:mysql,php,json,jquery,版本控制,oop,web2.0,javascript
我怎样才能用 PHP/Javascript 等来做呢?抢先一步真的很有帮助。