我想构建一个 Web 应用程序,让用户可以上传文档、视频、图像、音乐,然后让他们能够搜索它们。把它想象成Dropbox + 语义搜索。
当用户上传新文件时,例如Document1.docx,如何根据文件内容自动生成标签?换句话说,不需要用户输入来确定文件的内容。如果假设Document1.docx是一篇关于数据挖掘的研究论文,那么当用户搜索数据挖掘或研究论文或document1时,该文件应该在搜索结果中返回,因为数据挖掘和研究论文很可能是潜在的自动- 为给定文档生成的标签。
1. 对于这个问题,你会推荐哪些算法?
2. 有没有可以为我做这件事的自然语言库?
3. 我应该研究哪些机器学习技术来提高标记精度?
4. 如何将其扩展到视频和图像自动标记?
提前致谢!