问题标签 [ws4j]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
947 浏览

java - ws4j 中句子级别的语义匹配

我目前正在尝试在语义上匹配 ws4j 中的两个句子。我在单词级别实现了这个概念,但在句子级别实现同样的概念时遇到了麻烦,并以矩阵形式获得输出,就像它在在线演示中显示的那样。如何开发代码来做同样的事情?

0 投票
1 回答
944 浏览

java - 如何从单词相似度到整体句子相似度

我已经使用 WS4J 实现了一个句子相似度方法。

我读过文章中的句子相似度,它基于两个句子中的单词相似度。但是我找不到基于单词相似度计算并返回整个句子相似度的单个值的方法。

在这个网站上的sentence-similarity-using-ws4j上提出了类似的问题

如您所见,我已经设法使用 WS4J 进行编码,直到句子 a 中的任何单词在另一个句子中找到同义词集匹配(并且匹配值高于 0.9)都返回匹配消息。但我猜这不是一个好方法。

我找到了 Yuhua 等 [2] 的文章。所有这些都非常有用,但无法弄清楚他们用于整体句子相似性的方法。

我已经用 Java 完成了我的代码,所以我一直在寻找一些 Java 实现。

[2]:Li, Y., McLean, D., Bandar, ZA, O'shea, JD, & Crockett, K. (2006)。基于语义网和语料库统计的句子相似度。知识和数据工程,IEEE Transactions on,18(8),1138-1150。

0 投票
0 回答
41 浏览

java - 使用 jsoup 从表中提取文本和锚点值

实际上,我需要从所有表中提取文本数据和锚点值(链接文本和来自 ahref 的 URL),以使用 ws4j 进行语义相似度测量。测量值需要从以下地址的网页获取: http ://ws4jdemo.appspot.com/?mode=s&s1=Eventually%2C+a+huge+cyclone+hit+the+entrance+of+my+house.&s2 =最后%2C+a+massive+hurricane+attacked+my+home

在这件事上的任何帮助将不胜感激。

0 投票
1 回答
1445 浏览

java - 如何解决在 Web API 中获得的值与通过 ws4j 中的源获得的值之间的差异?

我使用 ws4j 库开发了以下用于句子语义匹配的 API。但我没有得到语义相似性。输出作为图像附加,显示了冗余或 0 的值。是否有任何库错过了被调用?

结果集

0 投票
0 回答
345 浏览

java - Wu-Palmer 相关性计算器返回 1.33333 分数

我正在使用 WS4j 来查找两个单词之间的相似性。我也在使用 Wu-Palmer 相关性计算器。它适用于许多单词,但是当我试图找到“play”和“playing”之间的相似性时,它给出的分数是 1.3333,这是不可能的,因为它必须在 0 和 1 或 -1 之间返回。我想不出原因。当我使用它的网络界面' http://ws4jdemo.appspot.com/?mode=w&s1=&w1=play&s2=&w2=playing '它返回0.875。这是我的代码:

0 投票
0 回答
135 浏览

java - Porter stemmer 在计算语义相似度时给出不同的结果

我正在使用 ws4j 库进行一些测试。特别是我想计算两个测试词“大学”和“教学”之间的相似度。当我应用词干提取时,它给了我 0 相似度...当我不应用词干提取时,结果高于 0。另一方面,当我检查“性别”和“性别”之间的相似性时,词干提取有反向影响:当我使用它时,它给出了积极的相似性。否则相似度等于0。

为什么会发生这种情况,哪种方法更通用,可以为两个示例提供相似的结果?

0 投票
1 回答
269 浏览

java - WS4J 对一些配置文件和 WordNet 的依赖(200Mb)

我正在使用 WS4J API 来计算单词之间的语义相似度:

问题是这个 API 依赖于以下配置文件,这些配置文件必须放在项目目录中(我/resources用于此目的):

此外,很遗憾这个库在 Maven 存储库中不可用。

有什么办法可以避免将上述文件放入我本地项目的文件夹中?这些文件占用超过 100Mb....

我还检查了库 DISCO,但它似乎没有 WS4J 强大。

0 投票
0 回答
92 浏览

java - ws4j 给出了 1.3333 的分数,对于应该返回 0 和 1 之间的相似性度量

代码应该计算 Wu 和 Palmer 的相似性度量在 0 和 1 之间,但给出的值大于 1。我已经研究过类似的例子,但我没有发现错误。

0 投票
0 回答
422 浏览

java - ws4j API:用于单词相似度

我曾使用 ws4j api 并在我的 JAVA 程序中使用,在我的程序中使用此 API 时,它返回 classNotFound Exception

我遵循了这个程序:

https://www.programcreek.com/2014/01/calculate-words-similarity-using-wordnet-in-java/

这是我的堆栈跟踪:

我在用 :

  • 爪哇 8
  • Maven 3
  • jawjaw-1.0.2.jar
  • ws4j-1.0.1.jar
  • 春天 4
0 投票
1 回答
518 浏览

java - Wordnet 相似性 4 Java (WS4J)

我正在做一个项目,其要求之一是计算单词之间的相似度。我正在使用 WuP 度量来计算应该返回 [0,1] 之间值的单词之间的相似度。问题是 jar 文件似乎有错误,它不返回此范围内的值。网页演示完美地工作,对于相同的单词,它返回最大值 1,但 jar 文件不返回相同的值。结果run( "java","java" );是:

问题不仅在于相同的单词,即使对于不同的单词,它也会给出 wup 超出范围的值:

网页演示:

jar 文件值:

有人可以帮助如何解决这个问题