4

我对使用 DBpedia Spotlight 很感兴趣。但是,我们需要为两个参数confidencesupport插入一个值。这两个参数的真正含义是什么?

我想识别文本中重要的、突出的 n-gram。在这种情况下,置信度和支持参数的通常建议是什么(经验法则)?

4

1 回答 1

5

当您要求DBpedia Spotlight注释文本(查找实体/主题)时,它会搜索在 DBpedia 上具有 URI 的 n-gram(n-gram 是 Wikipedia 标题)。这些 n-gram 称为 DBpedia 资源。

支持:这是Resource Prominence参数,它可以帮助您忽略不重要或无信息的资源。当您为其设置值 X 时,这意味着具有小于 X 的维基百科内链接数量的资源将被忽​​略并且不会返回给您。

置信度:这是消歧置信度参数,它是一个取值在 0 和 1 之间的阈值。当您为其设置较高的值时,您会获得更好、更值得信赖的注释,但您可能会丢失一些正确的注释。

选择这些(或任何其他)参数的值取决于您的用例。

例子:

  • 如果您对感兴趣的 n-gram 类型有一些测试集或黄金标准,您可以调整您的选择,直到您的黄金标准获得足够好的结果。

  • 如果您只关心检索前 N 个 n-gram 以推断文本主题,您可以调整参数选择高值以获得少数(大部分)正确的 n-gram,并按 Confidence 对它们进行排序。

  • 如果您想获得尽可能多的 n-gram,并且您的任务不会受到错误的影响或偏差,您可以设置较低的值。

于 2018-03-24T20:07:45.470 回答