我有一堆图像(约 3000 张)已根据某些业务标准手动分类(批准/拒绝)。我已经使用 Google Cloud Platform 处理这些图像,获取注释和安全搜索结果,例如(csv 格式):
文件名; 批准/拒绝;成人; 欺骗; 医疗的; 暴力; 注释 A.jpg;批准;非常不相似;非常不相似;非常不相似;不相似;船|0.9,车辆|0.8 B.jpg;拒绝;非常不相似;非常不相似;非常不相似;不相似;文本|0.9,字体|0.8
我想使用机器学习来预测是否应该批准或拒绝新图像(csv 文件中的第二列)。
我应该使用哪种算法?
我应该如何格式化数据,尤其是注释列?我是否应该首先获取所有可用的注释类型并将它们用作具有数值的特征(如果不适用,则为 0)?或者将注释列作为文本处理会更好吗?