nlp - GCP AutoML Natural Language 中 Word Boundary 的 PDF 标注问题

问问题 2021-04-20T16:29:55.687

27 次

我正在使用 250 个 PDF 的样本数据集对 GCP NLP 进行试验，目标是执行实体提取，从每个文档中提取大约 50 个左右的实体。很多实体都是美元金额和百分比，但是当突出显示以特殊字符开头或结尾的值（例如：$ 和 %）时，我遇到了警告。例如，假设我试图提取“合同价值”之类的东西，当我在 GCP NLP 的标签器中突出显示美元金额时，如果我包含美元符号，我会收到以下关于在单词边界上进行注释的警告（参见第 1下图）。当我只是突出显示实际值时（见第二张图片），我没有问题。如果我要突出显示整个字符串（例如：“合同价值为 20 美元”），它将接受该值罚款（$ 位于字符串中间）。

我的问题是，我是否应该避免包含美元符号和其他触发此警告的字符？我确实需要整个字符串，而不仅仅是数字，但我担心它可能会导致模型质量不佳（根据警告）。

如前所述，我有大约 250 个文档，所以我想从一开始就给事情贴上“正确”的标签，所以任何提示或解释都将不胜感激！

相反，如果我只是突出显示数字，没有美元符号，它不会显示警告。

nlp - GCP AutoML Natural Language 中 Word Boundary 的 PDF 标注问题

0 回答 0

Related

Reference