我想自动为我的内容创建标签。会有一个常量标签列表,机器人应该创建关于它的标签。我怎样才能做到这一点?你知道这方面的课程吗?任何建议,将不胜感激!
谢谢!
你需要标签有多好?
您可以简单地计算 n-gram 词频。例如,通过一些调整,这可以创建完全有效的标签以用于博客文章。
如果您正在寻找更高级的东西,并且您有一个文档语料库,您可以使用TF*IDF(词频,逆文档频率)。这将显示 1 个文档中提到的有意义的关键字,基于它们出现在其他文档中的可能性。如果您的语料库足够大,它将为您提供良好的结果。
一种快捷的方法可能是识别内容的相关部分(标题?类别?来源?)并使用类似的东西。
此外, Yahoo 有一个术语提取 API,您可能会觉得它很有趣。