问题标签 [google-cloud-automl-nl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
54 浏览

python - 不接受 AutoML 语言实体提取 score_threshold 作为参数

环境细节
  • 操作系统类型和版本:Windows 10、WSL 2、Ubuntu 16.04
  • Python版本:3.7.5
  • 点子版本:19.3.1
  • google-cloud-automl版本:2.2.0
重现步骤
  1. 使用 score_threshold 作为参数调用 AutoML 语言实体提取
代码示例 堆栈跟踪
0 投票
0 回答
15 浏览

nlp - 还有什么可以触发 NLP 自动 ML 错误的少量数据点进行训练?

我正在尝试为单分类模型运行 Google auto ML NLP 我的数据集的一些值刚好高于训练的最低要求: 在此处输入图像描述 注意:它已排序以显示带有最少注释的标签

但是后来我尝试开始培训我收到了这个错误:

无法开始训练:要开始训练模型,需要每个注释规范有 8 个用于训练的注释、1 个用于验证的注释和 1 个用于测试的注释。当前数据集不满足最低要求。请在训练之前使用这些注释规范导入更多数据:[标签]。

我是在解析这个错误还是它要求我已经遇到的参数?

我应该怎么做才能解决这个问题?

0 投票
0 回答
47 浏览

google-cloud-platform - 自定义命名实体提取预测标签为 NULL

我正在使用 Google Cloud Platform (AutoML) 工具来构建自定义实体提取器模型。我导入了原始文本句子,并使用谷歌云平台的内置工具对其进行注释。我开始训练模型。测试集中的预测标签在混淆矩阵中都被分类为 NULL,如下图所示,这是不正确的。 混淆矩阵图像 我分析了预测的句子,模型能够识别大多数标签中的实体。但是,由于某种原因,该模型仍将这些实体识别为误报。 句子中的预测标签

有人可以提出一个可能的解决方案来解决这个问题吗?是什么导致了平台的这种不稳定行为?

0 投票
1 回答
43 浏览

google-cloud-platform - 在 AutoML Vision 中使用连续变量作为标签

我想知道是否有人在 AutoML Vision平台中成功地用连续变量标记图像。

具体来说,我想从鸟瞰照片中预测沙堡的高度。我会在标有高度(以英寸为单位)的沙堡鸟瞰照片上训练模型。我的数据集中有 10,000 张图像。我的数据集中的高度范围是 1cm 到 110cm,所以变量是连续的,但不是无限的。

这可以通过 Google AutoML Vision 实现吗?

谢谢!

0 投票
0 回答
27 浏览

nlp - GCP AutoML Natural Language 中 Word Boundary 的 PDF 标注问题

我正在使用 250 个 PDF 的样本数据集对 GCP NLP 进行试验,目标是执行实体提取,从每个文档中提取大约 50 个左右的实体。很多实体都是美元金额和百分比,但是当突出显示以特殊字符开头或结尾的值(例如:$ 和 %)时,我遇到了警告。例如,假设我试图提取“合同价值”之类的东西,当我在 GCP NLP 的标签器中突出显示美元金额时,如果我包含美元符号,我会收到以下关于在单词边界上进行注释的警告(参见第 1下图)。当我只是突出显示实际值时(见第二张图片),我没有问题。如果我要突出显示整个字符串(例如:“合同价值为 20 美元”),它将接受该值罚款($ 位于字符串中间)。

我的问题是,我是否应该避免包含美元符号和其他触发此警告的字符?我确实需要整个字符串,而不仅仅是数字,但我担心它可能会导致模型质量不佳(根据警告)。

如前所述,我有大约 250 个文档,所以我想从一开始就给事情贴上“正确”的标签,所以任何提示或解释都将不胜感激!

当我包含美元符号时

相反,如果我只是突出显示数字,没有美元符号,它不会显示警告。 如果我只选择数字,没有警告

0 投票
0 回答
33 浏览

parsing - 在表单上检测复选框和与它们关联的标签时遇到问题

因此,目前我们正在尝试使用与之关联的正确标签来提取复选框值。格式是

{标签名称} 是[] 否[]

将选择 yes 或 no 旁边的复选框,我们当前的解决方案为我们提供 Yes 或 No 作为键的输出(取决于选中哪个),但我们希望将 {label name} 作为键和选中的键(是或否)作为关键。

当我们正常保存文件和使用打印选项时,文件类型和大小会发生变化,并且表单解析器只能检测我们何时打印而不是保存 实体图片

感谢您的帮助。

0 投票
0 回答
115 浏览

node.js - 使用 Node js 对 GCP Bucket 中的 pdf 执行预测:无效参数

在 Google Cloud Platform (GCP) 上,我有一个在 PDF 上训练的 AutoML 自然语言实体提取模型。因此,它需要对 PDF 执行预测。

我有一个 PDF,我想在 GCP Bucket 中执行实体提取预测,因此我想在 NodeJS 中发出以下请求并predict使用以下命令调用PredictionServiceClient

此代码示例基于实体提取 NodeJS 文本示例中的普通文本的实体提取示例,以及 NodeJS AutoML NL 文档以查找其IPredictRequest外观:AutoML Google API 文档 IPredictRequest

然后我得到错误:

我也尝试过使用下划线input_config代替inputConfig和相同的gcs_sourceinput_uris。我尝试了这个,因为这是request.json NL 模型测试和使用页面上的示例(见图)。

[![示例 request.json][3]][3] 然后我得到:

在 NodeJS NL 文档中它说这documentText是可选的,所以我不明白这个错误。尝试通过提供该字段来修复最后document_text一个错误,再次在这篇文章中创建了第一个错误(我不想手动提供 PDF 中的文本,因为它是复印件)。

我该如何解决这个问题,更重要的是如何解析/理解文档和错误消息?为什么在某些地方使用驼峰式,而在其他地方使用下划线?

0 投票
0 回答
80 浏览

image-recognition - Ai 用于识别壁纸上的表情符号

我想构建一个应用程序来识别壁纸上使用了哪些表情符号。

因此,例如这个应用程序将接收输入:

在此处输入图像描述

在输出中,识别表情符号的名称数组应返回:

当然,这些表情符号的名称将来自训练图像的文件名称。例如这个文件:

在此处输入图像描述

它将被称为Grinning_Face_with_Smiling_Eyes.jpg

我想使用 AWS Rekognition Label 或 Google AutoML Vision,但它们需要每个表情符号至少 10 张图像进行训练。如您所知,我只能提供每个表情符号的一张图像,因为没有更多选择,它们是 2D 的;)

现在我的问题是:我该怎么办?我怎样才能跳过这些要求?我应该选择哪种服务?

PS。在实际业务中,不是表情符号,而是人工智能必须识别的书籍封面。每张 2D 书籍封面照片也有一张图像。

0 投票
0 回答
9 浏览

google-cloud-automl-nl - 训练管道失败并显示错误消息:Val split contains no sample

训练管道失败并显示错误消息:Val split contains no sample。是否有更详细地解释这些错误消息的站点。当我有样品时,上述错误是什么意思

0 投票
1 回答
82 浏览

java - 在goole automl enrity提取中发送pdf而不是TextSnippet

我使用谷歌 AutoML 实体提取器创建了一个自定义处理器并训练了一些 pdf。Pdf 实际上包含照片身份证。我能够在他们的 UI 中对其进行测试,并且能够正确提取实体。现在我使用他们的 Java 客户端库使用下面给出的代码来完成它。这是示例

https://github.com/googleapis/java-automl/blob/b4c760c01efbd2174d93af85c5fbab3c09eee9f2/samples/snippets/src/main/java/com/example/automl/LanguageEntityExtractionPredict.java

在这里,我看到他们将文本内容传递到库中,而不是我想发送 PDF 内容。我不想使用谷歌云存储桶,而是想在本地加载文件并将其发送到实体提取器。我尝试使用如下Document

Document.parseDelimitedFrom(FileInputStream("test.pdf"))但它给了我一个错误。

任何帮助都是高度赞赏的。