几乎所有的例子都是基于数字的。在文本文档中,我有单词而不是数字。
那么,您能否向我展示如何使用这些算法进行文本文档分类的简单示例。
我不需要代码示例,只需要逻辑
伪代码将有很大帮助
几乎所有的例子都是基于数字的。在文本文档中,我有单词而不是数字。
那么,您能否向我展示如何使用这些算法进行文本文档分类的简单示例。
我不需要代码示例,只需要逻辑
伪代码将有很大帮助
The common approach is to use a bag of words model (http://en.wikipedia.org/wiki/Bag_of_words_model) where the classifier would learn the presence of words in a text, it is simple but works surprisingly well.
Also, here there is a similar question: Prepare data for text classification using Scikit Learn SVM
您将出现在文档中的术语表示为向量中的权重,其中每个索引位置都是术语的“权重”。例如,如果我们假设一个文档“hello world”,我们将位置 0 与“hello”的重要性相关联,将位置 1 与 world 的重要性相关联,并且我们将重要性衡量为该术语出现的次数,该文档被视为 d = (1, 1)。
同时,只说“你好”的文档将是 (1, 0)。
这种表示可以作为衡量文档中术语重要性的任何衡量标准的基础,因为术语频率(如@Pedrom 所建议的)是最简单的选项。最常见但又足够简单的技术是应用TF-IDF,它结合了一个术语在文档中的常见程度和在集合中的罕见程度。
我希望这有帮助,
在词袋模型中,您可以使用术语频率并根据它们在新文档和训练文档中的出现情况为其分配权重。之后,您可以使用相似度函数计算训练和测试文档之间的相似度。