xml - 在carrot2 xml 文件中将什么指定为URL？

Question

我有一组文件（多行句子文本）。我想用胡萝卜2对它们进行聚类。根据文档中指定的xml文件格式。必须有一个带有片段、url 和标题的查询和文档。

我的问题如下： -

我认为第一个问题的答案是*:*。那是对的吗？？请帮忙！！

编辑：-

java.lang.NullPointerException在指定 xml 文件并按下过程后，carrot2-wordbench 会抛出错误。

我确信错误是由于 xml 文件作为输入给出的。

有谁知道可能导致程序抛出异常的 xml 错误？

很长时间以来，我一直无法弄清楚这一点。

score 1 · Accepted Answer

您可以将标题和 URL 字段留空。标题内容（如果存在）在聚类期间被赋予更多权重。URL 字段仅用于显示目的。

1 回答 1