0

我有一组文件(多行句子文本)。我想用胡萝卜2对它们进行聚类。根据文档中指定的xml文件格式。必须有一个带有片段、url 和标题的查询和文档。

我的问题如下: -

  1. XML文件的查询组件应该写什么??
  2. 应该给出什么作为文档的 URL 和标题,因为我没有它们。我只有从数据集中提取的文档(多行文本)。

我认为第一个问题的答案是*:*。那是对的吗??请帮忙!!

编辑:-

java.lang.NullPointerException在指定 xml 文件并按下过程后,carrot2-wordbench 会抛出错误。

我确信错误是由于 xml 文件作为输入给出的。

有谁知道可能导致程序抛出异常的 xml 错误?

很长时间以来,我一直无法弄清楚这一点。

4

1 回答 1

1

您可以将标题和 URL 字段留空。标题内容(如果存在)在聚类期间被赋予更多权重。URL 字段仅用于显示目的。

于 2016-06-22T08:16:27.520 回答