我有一个非常大的 HTML 表数据集(最初从 Wikipedia 中提取)。我想从这些表中提取有意义的tripleSet(这不会与从维基百科信息框中提取三元组相冲突,这是相对容易得多的任务)。
对于人类来说,三元组必须在语义上有意义,而不是像 DBpedia 那样将三元组提取为 URI 和其他格式。所以我可以只提取表格文本值。
请记住桌子方向和形状的多样性。我看到的主要任务是提取表记录的主要实体(例如学校记录中的学生姓名),以便它可以用作三元组的“主题”。
例子
对于这样的表,我们应该知道主要实体是“服务器”,其他只是对象,所以关系应该是这样的:
<AOLserver> <Developed by> <NaviSoft>.
<AOLserver> <Open Source> <Yes>.
<AOLserver> <Software license> <Mozilla>.
<AOLserver> <Last stable version> <4.5.1>.
<AOLserver> <Release date> <2009-02-02>.
另外,请记住,主要实体并不总是位于表格的第一列,甚至有些表格根本不谈论同一主题。
这是一个表,其中主实体是最后一列而不是第一列:
该表应生成如下关系:
<Arsène Wenger> <Position> <Manager>.
<Steve Bould> <Position> <Assistant manager>
问题
我的第一个问题是这是否可以使用基于规则的方法来完成,围绕示例制定一些规则并尝试进行概括,以便我可以检测到正确的实体?你能建议示例规则吗?
第二个问题是关于评估,我该如何评估这样的系统?我如何衡量我的表现,以便提高它?