我对基于配方的各种属性的统计分析以编程方式对配方进行分类感兴趣。换句话说,我想将食谱分类为Breakfast
、Lunch
或Dinner
没有Dessert
任何用户输入。
我可用的属性是:
- 食谱标题(如鸡肉沙拉)
- 配方描述(描述配方的任意文本)
- 烹饪方法(准备这个食谱的步骤)
- 准备和烹饪时间
- 配方中的每种成分及其数量
好消息是我有一个样本集,其中包含大约 10,000 个已经分类的食谱,我可以使用这些数据来教授我的算法。我的想法是寻找模式,比如糖浆这个词在统计上出现在早餐食谱中的频率是否更高,或者任何需要超过1 杯糖的食谱有 90% 的可能性是甜点。我想如果我从多个维度分析配方,然后适当调整权重,我可以得到相当准确的东西。
在解决这个问题时,有哪些好的算法可以研究?像 k-NN 这样的东西会有所帮助,还是有更适合这项任务的东西?