我们正在办公室开发一个小型自动分类系统。
我们有很多过滤器。它们被编写为 python 函数,它们要么匹配文件 - 要么不匹配。
对于每个文件,我们运行所有过滤器。它从上到下扫描文件,如果匹配过滤器 - 文件将被分类,日志文件将包含文件的路径和类别的名称。
每个文件必须只属于一个类别。
对于每个文件,我们运行所有过滤器并生成一个大的 excel 文件,其中包含每个文件,所有过滤器都适用于该文件。
文件名 | 过滤器的名称,例如,文件如下所示:
- 测试.docx | 财务报告
- 测试.docx | 普通文件
- 通过.txt | 密码文件
等等等等。如您所见,一个文件可以匹配多个过滤器。
我们需要基于这个文件工作(因为我们无法访问过滤器本身),并生成一个过滤器列表,以便每个过滤器不会匹配超过 100 个文件 - 即使这意味着某些文件不会分类。当然,我们希望每个过滤器只匹配少量文件。
行日志文件的顺序很重要。在示例日志文件中,如果“财务报告”和“普通文档”过滤器都打开,它将始终被归类为第一个匹配项 - “财务报告”。
有任何想法吗?