r - R：本体和网络提取的数据结构

Question

我想从一个大型网站中提取信息并生成一个本体。可以用描述逻辑处理的东西。

对于提取的 html 数据，建议采用什么数据结构？

我的想法还没有：
- 使用数据框、表结构
- 集合和关系（集合包和良好的关系）
- 图表

.

最后，我想导出数据并计划使用另一种编程语言使用谓词逻辑（或描述逻辑）对其进行处理。

我想使用 R 从 html 页面中提取信息。但据我了解，R（或包）中没有直接支持谓词逻辑或 RDF/OWL。

所以我需要进行提取，在过程中使用一些数据结构并导出数据。

示例数据：

SomeDocument rdf:type PDFDocument
PDFDocument rdfs:subClassOf Document
SomeDocument isUsedAt DepartmentA

DepartmentA rdf:type Department
PersonA rdf:type Person
PersonA headOf DepartmentA

PersonA hasName "John"

其中实例数据是“SomeDocument”、“DepartmentA”和“PersonA”。

.

如果有意义，某种推理（但可能不在 R 中）：

AccessedOften(SomeDocument) => ImportantDocument(SomeDocument)

score 0 · Accepted Answer

如果需要下载很多页面，我会使用 WGET 来下载这些页面。为了处理文件，我将使用 Perl 脚本将数据转换为更易读的格式，例如。逗号分隔。然后我会转向一些编程语言以按照您描述的方式进行组合，但是，在这件事上我不会选择 R。

score 0 · Accepted Answer

最重要的是您的网站数据是什么样的？例如，如果它已经包含 RDFa，您将使用 RDFa 蒸馏器将 RDF 取出；简单的; 完毕。然后，您可以将 RDF 推入三重存储。您可以通过创建您自己的本体来增加网站的数据，您将使用 SPARQL 进行查询，如果您的本体对您在网站上找到的数据进行等效类，那么您就是黄金。许多三元存储可以仅通过 URL 作为 SPARQL 端点进行查询，并以 XML 格式返回，因此即使 R 本身没有 SPARQL 或 OWL 本体包，这并不意味着您根本无法查询数据。

r - R：本体和网络提取的数据结构

2 回答 2

Related

Reference