0

我正在使用 250 个 PDF 的样本数据集对 GCP NLP 进行试验,目标是执行实体提取,从每个文档中提取大约 50 个左右的实体。很多实体都是美元金额和百分比,但是当突出显示以特殊字符开头或结尾的值(例如:$ 和 %)时,我遇到了警告。例如,假设我试图提取“合同价值”之类的东西,当我在 GCP NLP 的标签器中突出显示美元金额时,如果我包含美元符号,我会收到以下关于在单词边界上进行注释的警告(参见第 1下图)。当我只是突出显示实际值时(见第二张图片),我没有问题。如果我要突出显示整个字符串(例如:“合同价值为 20 美元”),它将接受该值罚款($ 位于字符串中间)。

我的问题是,我是否应该避免包含美元符号和其他触发此警告的字符?我确实需要整个字符串,而不仅仅是数字,但我担心它可能会导致模型质量不佳(根据警告)。

如前所述,我有大约 250 个文档,所以我想从一开始就给事情贴上“正确”的标签,所以任何提示或解释都将不胜感激!

当我包含美元符号时

相反,如果我只是突出显示数字,没有美元符号,它不会显示警告。 如果我只选择数字,没有警告

4

0 回答 0