我们应该如何构建一个使用 Amazon Mechanical Turk API 来处理任务流而不是单批批量任务的解决方案?
这里有更多信息:
我们的应用程序每天接收大约 1,000 张照片和视频流。每个图片或视频包含需要转录的 6-8 个数字(它是电子设备的序列号),以及转录的“确定性级别”(例如“Certain”、“Uncertain”、“Can't Read ”)。每个图像的转录时间不到 10 秒,每个视频的转录时间不到 20 秒,并且需要最少的技能或培训。
我们的应用程序将全天不断上传这些图像,我们希望在几分钟内将它们变成数字。理想的解决方案是我们每分钟上传一次新任务(高峰期每分钟不到 20 个)并每分钟下载一次结果。
两个问题:
- 为确保快速周转时间、准确性和成本效益之间的良好平衡,我们应该一次提交一项任务,还是最好批处理任务?如果是这样,在设置批量大小时我们应该考虑哪些变量?
- 是否存在包装 MTurk API 的库或托管服务,以便更轻松地处理像我们这样的 HIT 生成是流式和持续而不是一次性的用例?
为新手问题道歉,我们是 Mechanical Turk 的新手。