我想从一个大型网站中提取信息并生成一个本体。可以用描述逻辑处理的东西。
对于提取的 html 数据,建议采用什么数据结构?
我的想法还没有:
- 使用数据框、表结构
- 集合和关系(集合包和良好的关系)
- 图表
.
最后,我想导出数据并计划使用另一种编程语言使用谓词逻辑(或描述逻辑)对其进行处理。
我想使用 R 从 html 页面中提取信息。但据我了解,R(或包)中没有直接支持谓词逻辑或 RDF/OWL。
所以我需要进行提取,在过程中使用一些数据结构并导出数据。
示例数据:
SomeDocument rdf:type PDFDocument
PDFDocument rdfs:subClassOf Document
SomeDocument isUsedAt DepartmentA
DepartmentA rdf:type Department
PersonA rdf:type Person
PersonA headOf DepartmentA
PersonA hasName "John"
其中实例数据是“SomeDocument”、“DepartmentA”和“PersonA”。
.
如果有意义,某种推理(但可能不在 R 中):
AccessedOften(SomeDocument) => ImportantDocument(SomeDocument)