我有一组文件(多行句子文本)。我想用胡萝卜2对它们进行聚类。根据文档中指定的xml文件格式。必须有一个带有片段、url 和标题的查询和文档。
我的问题如下: -
- XML文件的查询组件应该写什么??
- 应该给出什么作为文档的 URL 和标题,因为我没有它们。我只有从数据集中提取的文档(多行文本)。
我认为第一个问题的答案是*:*
。那是对的吗??请帮忙!!
编辑:-
java.lang.NullPointerException
在指定 xml 文件并按下过程后,carrot2-wordbench 会抛出错误。
我确信错误是由于 xml 文件作为输入给出的。
有谁知道可能导致程序抛出异常的 xml 错误?
很长时间以来,我一直无法弄清楚这一点。