0

有人可以阐明如何在 del.icio.us 等网站上进行搜索吗?

如果我输入“js”(1)、“javascript”(2) 或“java script”(3) 作为我对美味的查询,我将指向有关 Java Script 的资源。但是,根据查询返回的结果集是不同的(del.icio.us 系统为“js”和“javascript”查询返回不同的书签集)。

因此,系统似乎并没有真正意识到 (1) 和 (2) 是彼此的同义词。相反,它会尝试将我的查询与在关联标签或标题中包含查询字符串的书签进行匹配。那是对的吗?

您将如何“教育”系统所有 (1)、(2)、(3) 实际上是同义词,并且无论选择何种查询,用户都应该看到所有与 Java Script 相关的资源?

这样做是个好主意吗?

谢谢,格雷格

4

4 回答 4

1

是的:人

说真的:以编程方式告诉密切相关主题的同义词将是非常非常困难的 IMO。有些标签组合极有可能同时出现,例如和。诚然,您可能能够对信息做一些事情,比如说,如果没有这些信息永远不会发生,因此必须是它的某种子集,但实际上,它也确实会自行发生。如果正确标记,它们会经常一起出现,但不是同义词,要知道这一点,您需要具有实际技术知识的人来进行调用。javascriptjqueryjqueryjavascriptXMLXSLT

我建议使用一个预过滤系统来查找同义词的候选者,并由管理员进行实际的同义化。

于 2009-12-29T18:59:44.580 回答
0

没有完美的解决方案。您可以将关键字显式声明为同义词,其他所有内容或多或少都是猜测。

一种方法可能是使用距离度量。在美味的情况下,您将汇总两个关键字应用于相同书签的次数。

不过,您可能会收到很多误报。例如,“ruby”可能较少与“rails”一起使用,反之亦然,因为“rails”暗示“ruby”,但“ruby”不是“rails”。这可能是一个有用的属性,可以从同义词中剔除相关术语,它们应该或多或少地互换使用。

于 2009-12-29T19:03:04.000 回答
0

您也可以尝试利用WordNet

于 2009-12-29T19:19:37.303 回答
0

您可以使用LSATFIDF之类的工具来尝试找出数据中包含哪些概念。这很可能是 del.icio.us 所做的。

于 2009-12-29T19:22:03.677 回答