1

我正在查看文档并测试Google 的自然语言 API,并注意到它得到了一些不正确的人员、事件、组织和位置 - 它似乎使用 Wikipedia 作为主要数据源,所以如果它不在 Wikipedia 中,它似乎难以识别各种单词的类型。此外,如果某些词出现在名称(专有名词)中,它似乎总是将实体标识为某种类型,这并不总是正确的。

例如:“国会”似乎总是被识别为一个组织[政府],即使它是事件名称的一部分。名称“WordCamp”显示为一个位置,但它是一个事件。

有没有办法训练自然语言引擎或提供一组自定义的组织、位置、事件等,以便它为不太受欢迎的实体提供更准确的类型信息?

4

1 回答 1

1

我是这个产品的产品经理。当前不支持自定义实体类型。根据您关于未正确获取某些实体类型的评论,这适用于任何 NLP 系统,但我们的目标是不断改进。我们正在努力让您就我们出错的情况向我们提供反馈,以提高我们的准确性,并将很快分享详细信息。请注意,我们已经在多个数据源上训练了我们的模型,而不仅仅是 Wikipedia 数据。API 返回与检测到的实体最相关的 Wikipedia 文章,因此如果实体有多种解释,我们将只返回最常用的解释。

于 2016-07-21T08:07:09.260 回答