我手头有一个问题陈述,我需要知道它是否可以通过机器学习来解决。它是这样的: -
我有一个用户可以上传文档的系统,假设我们有一个名为 xxxZxxx.xxx 的文件
用户进入系统文件夹结构的多个级别并放置文件,(例如)A/B/C/D/Z/xxxZxxx.xxx
我们需要创建一个系统来读取文件名并建议 放置文件的路径。
在这种情况下,文件名包含路径的最后一部分,这是一个业务对象目录,但它可能不包含。我们有这样的路径和文档,按 10^5 的顺序排列。
随着时间的推移,可能会添加新的路径,即业务对象,这使得它成为一个多类分类,大约有 10^5 个类,并且不断增加
这可以解决吗?
我尝试使用一袋字符(灵感来自词袋)作为失败的特征向量。
对此可以遵循的任何方法有何评论?让我知道是否需要任何其他信息,我将编辑问题或更改标签。