Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我有一些用于监督学习任务的数据集。
我想尝试不同的统计分类并存储结果以供进一步分析,此外,最好将分类结果存储在测试数据上,以查看分类在不同示例中的成功情况。
如果有任何特定的应用程序来存储不同分类的结果,例如我会指定不同分类的参数,然后进行分析,存储有趣的示例等。
当然,最初的想法是使用 DB,但是当我尝试了解每个分类有多少不同的参数时,我明白会有一个非常复杂的 DB 方案。
因此,在创建这样的方案之前,我想知道是否已经创建了一些用于此目的的东西。
您可以简单地将结果输出到 CSV 文件,例如格式:
index_of_instance,classification
并将它们与代表您的参数/设计选择的文件名或目录一起存储。文件名可以代表您的参数。假设您正在运行一个具有{100,200,500}棵树和{0,10,20}最大深度的随机森林。您的文件名可以是 100_0.csv、200_0.csv 等。您还可以保存您所在的交叉验证折叠,例如:0_100_0.csv。这样,您以后可以使用 unix 命令、Excel 或 R 等更多相关软件包的简单组合轻松分析结果。