2

我想为我最后一年的硕士学位设计一个语义搜索引擎。我在网上和学术论文上随便阅读了相当多的书,所以我在这个领域并不是一个完全的菜鸟。

我的目标是构建一个语义搜索引擎,它将 HTML 内容解析成其等效的 RDF 三元组,将三元组存储在三元组中,引擎将通过该三元组尝试响应使用 SPARQL 触发的查询。我想做一些与其他学生不同的开箱即用的事情。所以,我决定建立一个语义搜索引擎。

现在,我有一个正在运行的使用 Solr 执行关键字搜索的搜索引擎,我想做的是语义搜索。我知道一些关于 Web 3.0 的开源工具,但不确定它们是否与 Solr 兼容。

那么,您能否为我的构建提供一些帮助。

谢谢。问候

4

1 回答 1

2

虽然听起来很难,但你将无法捕捉到一切。

  1. 你需要很多数据。当然,已经有很多以 owl 和 rdf 等格式排列的数据可供您使用(例如 WordNet、Yago、GeoNames 等),但尽管它们的规模很大,但它们只关注可能话语的很小部分宇宙。

  2. 开发一个好的语义搜索需要大量的资源和脑力。项目,例如德国人工智能研究中心的 KompParse,只关注人类对话的一小部分(八卦或购买家具),到目前为止,已经有几名员工运行了几年,而且仍然“还可以”。

  3. 理解语义已经在不同的搜索引擎中实现,例如 google 或 wolfram alpha。所以这个话题甚至可能不像你想象的那么“开箱即用”。

因此,我将使用 user723630 并强烈建议您专注于较小的主题。你仍然会取得很多成就,但你不会感到沮丧。

于 2012-07-26T13:16:46.930 回答