1

我想从一个大型网站中提取信息并生成一个本体。可以用描述逻辑处理的东西。

对于提取的 html 数据,建议采用什么数据结构?

我的想法还没有:
- 使用数据框、表结构
- 集合和关系(集合包和良好的关系)
- 图表

.

最后,我想导出数据并计划使用另一种编程语言使用谓词逻辑(或描述逻辑)对其进行处理。

我想使用 R 从 html 页面中提取信息。但据我了解,R(或包)中没有直接支持谓词逻辑或 RDF/OWL。

所以我需要进行提取,在过程中使用一些数据结构并导出数据。

示例数据:

SomeDocument rdf:type PDFDocument
PDFDocument rdfs:subClassOf Document
SomeDocument isUsedAt DepartmentA

DepartmentA rdf:type Department
PersonA rdf:type Person
PersonA headOf DepartmentA

PersonA hasName "John"

其中实例数据是“SomeDocument”、“DepartmentA”和“PersonA”。

.

如果有意义,某种推理(但可能不在 R 中):

AccessedOften(SomeDocument) => ImportantDocument(SomeDocument)
4

2 回答 2

0

如果需要下载很多页面,我会使用 WGET 来下载这些页面。为了处理文件,我将使用 Perl 脚本将数据转换为更易读的格式,例如。逗号分隔。然后我会转向一些编程语言以按照您描述的方式进行组合,但是,在这件事上我不会选择 R。

于 2011-03-23T15:47:59.693 回答
0

最重要的是您的网站数据是什么样的?例如,如果它已经包含 RDFa,您将使用 RDFa 蒸馏器将 RDF 取出;简单的; 完毕。然后,您可以将 RDF 推入三重存储。您可以通过创建您自己的本体来增加网站的数据,您将使用 SPARQL 进行查询,如果您的本体对您在网站上找到的数据进行等效类,那么您就是黄金。许多三元存储可以仅通过 URL 作为 SPARQL 端点进行查询,并以 XML 格式返回,因此即使 R 本身没有 SPARQL 或 OWL 本体包,这并不意味着您根本无法查询数据。

于 2011-03-23T21:32:46.200 回答