问题标签 [synonym]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 寻找同义词和倾斜词的基本形式
我正在寻找一种 Java 工具,它可以让我做以下事情:
1) 寻找倾斜词的基本形式。例子:
- 对于单词“connection”、“connecting”、“connects”等,它将返回单词“connect”。
- 对于单词“running”,“runs”,它将返回单词“run”。
2) 为每个单词返回其同义词的集合。
有人知道这样的工具吗?
solr - 如何使 solr 同义词起作用
我正在尝试在 Solr 中设置一些基本的同义词。我一直在研究的是:
我们,美国,美国
我的理解是,将其添加到同义词文件将允许用户搜索美国,并获取包含美国或美国的文档。如果用户放入美国或美国,情况同上。
不幸的是,有了这个,当我进行搜索时,我会得到包含所有三个单词的项目的结果——它是对同义词进行 AND 而不是 OR。
如果我打开调试,这确实是我看到的(加上一些词干):
(+DisjunctionMaxQuery(((westCite:us westCite:usa westCite:unit) | (text:us text:usa text:unit) | (docketNumber:us docketNumber:usa docketNumber:unit) | ((status:us status:usa status:unit)^1.25) | (court:us court:usa court:unit) | (lexisCite:us lexisCite:usa lexisCite:unit) | ((caseNumber:us caseNumber:usa caseNumber:unit)^1.25) | ((caseName:us caseName:usa caseName:unit)^1.5))))/no_coord
我做错了什么导致这个吗?我的 defaultOperator 设置为 AND,但我希望同义词过滤器能够理解这一点。
lucene - 在构建索引时提升 Lucene 术语
在创建索引时(而不是在查询时)是否可以确定特定术语比其他术语更重要?
例如,考虑一个同义词过滤器:
doc 1: "this is a nice car"
doc 2: "this is a nice vehicle"
我想将术语车辆添加到第一个文档并将术语汽车添加到第二个文档,但我希望如果稍后使用单词 car 查询索引,则第一个文档的得分将高于第二个文档,如果查询车辆将是相反的方式。
在将字段添加到各自的文档之前对字段调用 setBoost 会起作用吗?
或者也许我应该将同义词添加到不同的字段名称?
还是我从错误的角度看待这个问题?
谢谢
oracle - 在 oracle 物化视图中使用公共同义词
在物化视图查询中是否可以有公共同义词?
nlp - 搜索应用程序的同义词离线词典
我正在尝试构建一个智能搜索引擎应用程序,该应用程序获取问题中单词的同义词并使用每个生成的同义词查询我的数据库
问题是我正在寻找一种方法来使用字典或其他东西获取问题中单词的所有同义词。最终可以提供 1- 直接同义词,例如:文件 > 电影、足球 > 足球 2- 可以提供匹配字符串,例如:人口规模 > 公民数量(可选) 3- 快速可靠的东西。更喜欢离线托管而不是服务的 API
我探索了:
- WordNet,但问题是它需要很多时间,因为它是在线使用的
- Watson 同义词 效率不是很高,而且需要很多,(在线服务的 api)
我想知道是否还有其他有效的替代方案
oracle - 公共同义词与 schema.object 模式
在我的应用程序中,会有很多用户,超过 500 个。他们只处理一个模式对象。我已授予必要的权限。当我说:
我收到“表或视图不存在”错误,这意味着:
- 我要么需要在对象之前指定所有者名称。像
SCOTT.EMP
,或 - 我可以为我将要引用的所有对象创建公共同义词。
我担心的是,公共同义词是否会对具有大约 300 个同时连接的这么多用户的性能产生影响。我应该选择第一种还是第二种方法?
full-text-search - 带同义词的离线全文搜索
我想为我的网站提供全文搜索的离线版本。大多数网站只是纯 HTML + JavaScript。但是我需要使用非英语同义词进行全文搜索。
首先,我在考虑Wapache,因为网站使用 PHP,但它没有 mysql(我几乎不能强迫用户安装和配置 mysql),没有 pspell 支持,它使用旧的 PHP 5.0.3(witch不是最糟糕的),并且可能无法在旧的 IE 版本上运行(该站点将有很多 JavaScript ......)。
我发现的另一个解决方案是 Lucene。但是好像不支持。它的文档我可以使用 Lucene 来索引中文、日文、韩文和其他多字节字符集的文本吗?指的是一个不存在的页面“Lucene Sandbox”。我还发现它不支持同义词。
我还找到了对WorldNet的引用,女巫可以添加对 Lucene 同义词的支持,但仅限于英语。
所以,问题是,我如何制作一个具有非英语同义词感知全文的离线 Web 应用程序,并且如果可能的话,不需要在用户的计算机上安装任何东西(当然 java 运行时不是问题,但是安装和配置mysql + php 是)。
sql - 我如何检查同义词是否已经存在然后不要创建同义词
我正在使用 Oracle SQL developer 2.1 创建同义词。
我如何检查该同义词是否已经存在,如果存在则不要创建同义词。
solr - 有没有办法在使用 Solr 同义词时更多地提升原始术语?
例如,我在 index_synonyms.txt 中有同义词笔记本电脑、上网本、笔记本
当用户搜索上网本时,我想增加原始文本,然后通过同义词扩展?有没有办法在 SynonymFilterFactory 中指定这个?例如使用原始术语两次,所以他的 TF 会更大