0

我手头有一个问题陈述,我需要知道它是否可以通过机器学习来解决。它是这样的: -

我有一个用户可以上传文档的系统,假设我们有一个名为 xxxZxxx.xxx 的文件

用户进入系统文件夹结构的多个级别并放置文件,(例如)A/B/C/D/Z/xxxZxxx.xxx

我们需要创建一个系统来读取文件名并建议 放置文件的路径。

在这种情况下,文件名包含路径的最后一部分,这是一个业务对象目录,但它可能不包含。我们有这样的路径和文档,按 10^5 的顺序排列。

随着时间的推移,可能会添加新的路径,即业务对象,这使得它成为一个多类分类,大约有 10^5 个类,并且不断增加

这可以解决吗?

我尝试使用一袋字符(灵感来自词袋)作为失败的特征向量。

对此可以遵循的任何方法有何评论?让我知道是否需要任何其他信息,我将编辑问题或更改标签。

4

1 回答 1

0

因此,要使其成为真正的 ML 问题,请回答以下问题:

1)为什么不能只读取文件名并获取需要放置文件的chid文件夹?是因为您说用户可能无法证明子文件夹的名称是文件名的一部分吗?还是因为用户提供的名称可能有很多目录?

2) 机器学习问题通常具有本质上是统计性质的模式,这些模式很难用简单的肉眼识别,例如使用正则表达式。在这里,您可以使用正则表达式搜索轻松找到适当的文件夹,不是吗?

于 2014-09-05T11:04:32.973 回答