0

我正在寻找一个 Web 服务、浏览器扩展程序或任何其他直接提取给定网页中包含的任何和所有语义数据的东西,只要该语义数据遵循用于嵌入语义信息的无数现代标准中的任何一个网页内。不知何故,我找不到任何有用的东西。我可以找到许多“语义爬虫”,但没有工具可以仅显示您在给定网页上手头的语义数据。

如果那里存在任何此类工具,我会很高兴获得任何此类工具的指针。如果没有它,我无法理解人们如何调试或开发他们的语义收割机......

我列出了一些相关标准作为这个问题的标签(请参阅下面通常显示的问题标签),但这个列表并不详尽。

谢谢!

4

3 回答 3

3

对于一些好的起点,您可以考虑:

Sindice 可能是其中最通用的,其他大多数都关注 RDFa(我自己的偏见,抱歉)。您的选择可能在一定程度上取决于您对语义数据的考虑(例如,您是否希望<title>计算 HTML5 语义?对于 RDFa,我发现 Apache 的 Any23 最适合我的需求,具有良好的 API、灵活的格式和准确的提取。

不过,这是个好问题,我很想知道其他人最推荐什么工具。W3C 有一个较长的列表,可能有点过时。

于 2013-05-29T22:24:27.513 回答
1

Yandex 也有用于验证嵌入式语义标记的工具。还有一些可用的文档。它适用于微数据、schema.org、opengraph、rdfa、微格式。不仅仅是微格式,正如您可能从标题中得出的结论:)

如果您正在寻找开源工具,Github 上有强大的RDFLib库。它做了很多,特别是解析。

该库包含 RDF/XML、N3、NTriples、N-Quads、Turtle、TriX、RDFa 和 Microdata 的解析器和序列化器。

于 2013-06-17T15:37:59.353 回答
0

对于 RDF 数据,有 Tim Berners-Lee's Tabulator。可用作 Web 应用程序(分别为 FLOSS JavaScript)和 Firefox 插件的浏览器。但是,它似乎不再被维护(?)。

对于 RDFa,有 Firefox 插件RDFa Developer

对于链接在页面头部的 RDF 文件,有 Firefox 插件Semantic Radar

另一个 Firefox 插件是OpenLink Data Explorer

于 2013-05-30T15:53:34.137 回答