-3

假设我有大量的文档以列的关系表表示

    ID (unique identifier)
    Title (255 characters)
    Description (5000 characters)
    Category (predefined meta-data )
    Additional Notes (1000 characters )

我想为文档表中的每一行添加一个或多个标签。这里的标签是指一个单词或一组单词,它告诉读者文档是关于什么的。

是否有任何数据挖掘/文本挖掘/机器学习技术或方法可以帮助我在没有人为干扰的情况下为给定文档找到最合适的标签。

4

1 回答 1

1

一种简单的可能方法:对于给定的文档,计算每个单词的TF-IDF度量,并选择前 N 个单词作为标签(或将候选者削减某个阈值)。同样在您的情况下,对 Title 和 Category 字段中的单词使用经验提升系数是合理的。

于 2013-10-27T11:16:07.077 回答