-1

我正在使用tm包来创建文档语料库,并且我想使用谱聚类(kernlab包)进行文本分类。

所以,如果我有一个语料库

my_corpus = VCorpus(DirSource(directory="C:/Users/me/Desktop/Documents", pattern="txt")

我想使用specc带有以下参数的函数执行谱聚类

specc(x, centers, kernel)

我把什么作为第一个论点?文档说 x 必须是“要聚类的数据矩阵,或者要拟合的模型的符号描述,或者 kernelMatrix 类的内核矩阵,或者字符向量列表”。但简单地放置my_corpus是行不通的。所以如果你有一个文档库,我很困惑这是如何工作的。

4

2 回答 2

0
  1. 选择合适的内核

  2. 计算核矩阵

  3. 光谱聚类

  4. 评价,评价,评价。聚类可能会失败,但仍然会产生结果。而在文字上,任何结果都可以解释为好看……见标题为“阅读茶叶”的两个主题建模的出版物!

于 2017-03-06T07:59:25.690 回答
0

x 需要一个矩阵和一个数据框。如果有的话,Corpus 就不是任何东西了。您应该将语料库转换为文档术语矩阵,然后将其转换为矩阵格式。

于 2019-11-29T07:10:57.557 回答