问题标签 [thesaurus]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
206 浏览

ios - 同义词链 - iOS/sqlite 的高效路由算法

同义词链是一系列密切相关的词,跨越两个锚点。例如,英文单词“black”和“white”可以连接为:

黑色-黑暗-晦涩-隐藏-隐藏-舒适-舒适-简单-纯白色

或者,这里是“真”和“假”:

-只是=公平=美丽=漂亮-艺术-人工-假-

我正在开发同义词库 iOS 应用程序,我也想显示同义词链。目标是从单词关系的加权图中返回一个链。我的来源是一个带有加权数据的非常大的词库,其中权重衡量单词之间的相似性。(例如,“outlaw”与“bandit”密切相关,但与“rogue”的关系更远。)我们的实际值范围从 0.001 到 ~50,但您可以假设任何权重范围。

您建议采用哪些优化策略来实现这一点,例如,在典型 iOS 设备上处理的 5 秒内?假设词库有 50 万个词条,每个词条有 20 个关联。我敢肯定,有大量关于这类问题的先前研究,我会很感激有关可能适用于此的指示。

我当前的算法涉及从开头和结尾的单词递归下降几级,然后寻找截取单词,但是对于数千个 sqlite(或 Realm)选择,这变得太慢了。

0 投票
1 回答
305 浏览

solr - 我如何在 solr 中使用同义词库

我需要使用 solr 实现同义词搜索。为此,我需要在 solr 中导入同义词库。我尝试在 solr 中搜索导入同义词库,但没有运气。

0 投票
1 回答
62 浏览

hunspell - 词库索引文件中的单词编号

我想知道词库词典是如何构建的。.dat 文件和索引文件 .idx 之间有什么关系?例如,th_en_CA_v2.dat 文件中的相关条目如下所示...

th_en_CA_v2.idx 文件中的相关条目

word ploy 旁边的数字 (12626348) 是什么?

0 投票
1 回答
173 浏览

sql - SQL Server:在字符串中搜索等效的短语,例如英寸、英寸、'' 和 "

根据标题,我正在寻找一种在等效基础上搜索数据的方法

即用户搜索值 20" 它还将搜索 20 英寸、20 英寸等...

我看过可能使用全文搜索和同义词库,但必须建立自己的等价库

还有其他我应该考虑的选择吗?或者是否已经编写了常见的符号/单词等价库?

编辑:

我不是说like关键字和通配符

如果我的数据是
20英寸宽的管道 20 英寸宽的管道
-注意::(这是 2 个单引号)
20 厘米宽
的管道 20 英寸宽
的管道20 英寸宽的管道宽的

我想搜索“20 英寸”并返回20 英寸宽的
管道20 英寸宽
的管道
20 英寸宽
的管道 20 英寸宽的管道

0 投票
0 回答
347 浏览

oracle - 在 oracle 中实现词库的步骤

任何人都可以帮助我了解如何在 oracle 11g 中实现同义词库搜索的步骤。我已阅读 oracle 文本文档,但没有任何帮助。

0 投票
0 回答
126 浏览

java - Webcrawler 中的 JSoup.SocketTimeoutException 和 404 HttpStatusException

我正在尝试编写一个网络爬虫,它从同义词库网站中获取某些单词的同义词,然后将它们打印到文本文件中。似乎随机地,在抓取了几个链接之后,我会得到一个 SocketTimeOutException 或一个 404 HttpStatusException。

只是为了提供背景,我的代码使用一个带有链接的文本文件来为网络爬虫提供 URL。

模式往往是,如果连续三个或更多 url 包含在同义词库网站上找不到的单词,则会引发这些异常。是的,我知道这可以通过简单地删除不在同义词库中找到的单词的链接来解决,但是我的 url 列表相当长,所以定位和验证同义词库中的单词是什么不可能的。

链接在文本文件中如下所示:
http://www.thesaurus.com/browse/Abby?s=t
http://www.thesaurus.com/browse/abdicate?s=t
" "
" "
" "
链接是按字母顺序排列的单词集合。有些词可以在同义词库中找到,有些则不能。我有一个循环应该捕获并跳过同义词库中不属于单词的链接,但是我想它并没有捕获所有错误的链接。

在这个问题上,我有点把头撞在墙上,所以任何帮助/建议都会受到赞赏。

0 投票
3 回答
4462 浏览

vim - VIM 词库文件

我一直在为 vim 词库寻找一个好的解决方案。显然,该功能是内置的,但似乎每个人都使用的文件是 mthesaur.txt。虽然它在插入模式下的命令显示一个列表的意义上“有效”,但在我看来,结果在编程上是正确的,但不是超级有用。vim 在线词库插件工作得非常好,但是网络上的延迟以及对返回的缓冲区使用拆分的必要性并不理想。有人对此有意见吗?

0 投票
1 回答
745 浏览

redirect - Endeca 词库和关键字重定向问题

我们在词库的 Endeca 工作台条目方面遇到了一些问题。

多字-> 多字单向映射似乎存在问题。

橡胶轮 --> 橡胶轮胎

包含“-”和“.”等字符的条目似乎也存在问题。我使用 Endeca 开发人员工作室更改了配置,以使用这些特殊的搜索字符无济于事。

水果 --> 水果

bb-es71 --> bb71

搜索结果未返回映射词库条目的结果。其他似乎按预期工作,并且特殊字符肯定已添加到 search_chars.xml 配置文件中。

除此之外,我们在关键字重定向中看到奇怪的行为,其中“lube”和“cube”都有单独的条目,但搜索lube 重定向到cube url。锁定和外观的相同问题。这可能与匹配模式有关。它当前设置为 matchallpartial。

任何指针将不胜感激。

当前系统正在使用:

  • CAS 3.0.1(内容采集系统)
  • MDEX 6.2.2
  • 平台服务 6.1.2
  • PresentationAPI 6.1.4
  • 工作台 2.1.2
  • 内容汇编器 API 2.1.2
0 投票
1 回答
137 浏览

api - 如何在同义词库 api 中接受用户输入以使用 flash as3 显示同义词

我正在开发一个使用 flash as3 开发同义词库应用程序的项目。然而,我的应用程序运行良好,但它只显示已经放在同义词库 API url 中的单词的同义词。但是,我希望我的应用程序允许任何用户通过输入文本字段进行输入。有没有办法做到这一点?提前谢谢了。我使用“Big Huge Thesaurus API”作为同义词。例如,在下面的 API URL 中,仅显示单词“mother”的同义词。

http://words.bighugelabs.com/api/2/958af28ac9e3b21c650cbdd24a2466e8/mother/

这是我的完整代码。

0 投票
0 回答
126 浏览

sql - SQL Server 词库 XML 文件

有没有什么地方可以从网上获取 xml 同义词库文件,例如英语、法语、俄语、波兰语和意大利语(对于 SQL Server)?