我正在尝试从 Google DLP Java 库的去识别结果中报告去识别字/字符串的确切数量。我在响应中使用它:
DeidentifyContentResponse response = dlpClient.deidentifyContent(request);
// Sum up the redactions
List<TransformationSummary> summaries =
response.getOverview().getTransformationSummariesList();
int redactionCount = 0;
if (!isEmpty(summaries)) {
redactionCount = summaries.stream()
.mapToInt(TransformationSummary::getResultsCount)
.sum();
}
我将输入作为表格发送,其中每个输入字符串都是一行,无论其中有多少单词/列。编辑计数似乎与我的预期大致相符,但在某些情况下,计数似乎已关闭。例如,Steve Jobs
当我使用上面显示的代码时,输入产生的 redactionCount 为 3。我猜原因是它匹配多个InfoType。在我的情况下,我的信息类型列表中有FIRST_NAME、LAST_NAME和PERSON_NAME,所以我猜我得到一个匹配名字,另一个匹配姓氏,第三个匹配“人名” . 我正在寻找的基本上是有多少单词被编辑/取消识别。即我希望redactionCount
结果是== 2。有没有更好/更简单的方法来做到这一点?