我正在将文本项导入 Google 的 AutoML。每行包含大约 5000 个字符,我添加了 70K 这些行。这是一个多标签数据集。没有进度条或指示此过程需要多长时间。它已经运行了几个小时。有没有办法计算剩余时间或总估计时间。我想添加额外的数据集,但我担心在培训开始之前这将是一个非常漫长的过程。任何形式的公式都可以创建甚至是半疯狂的猜测都会很棒。-谢谢!
问问题
460 次
3 回答
0
我尝试使用 50K 记录(约 300 字节/记录)进行训练,负载花费了 20 多分钟,然后我将其杀死。我重试了 1K,它运行了 20 分钟,然后通过电子邮件向我发送了一条错误消息,说我每个输入有多个标签(是的,那又怎样?训练数据将包含其中一些标签)并且我有超过 100 个标签。我简化了分类桶并重新运行。又花了20分钟,成功了。然后我进行了“培训”,花了 3 个小时,向我收取了 11 美元的费用。假设线性行为,这对应于 50K 记录的 550 美元。第一次通过的预测结果还不错,但我感觉它正在向这个问题抛出一个超大的神经网络。如果他们说出它是什么 NN 及其尺寸会有所帮助。他们确实说“测试版”:)
于 2019-04-26T01:04:36.003 回答
0
不要浪费时间尝试使用 google 进行文本分类。我是 GCP 硬用户,但 microsoft LUIS 更好、更精确、速度更快,以至于我无法相信这两种产品都在尝试解决相同的问题。
Luis 有更好的文档,支持更多语言,有更好的测试界面,速度更快。我不知道是否更便宜,因为定价模式不同,但我们愿意支付更多。
于 2019-09-13T13:59:08.720 回答
0
我认为这在今天是不可能的,但我提交了一个功能请求[1],您可以关注更新。我要求训练和导入数据,因为训练它也可能有用。
于 2018-07-26T07:53:17.557 回答