我正在开发一个基于 wordnet 的文档 summaryr.in 的项目,我需要提取搭配。我尝试尽可能多地进行研究,但由于在我难以理解 CollocDriver.java 的工作原理(在 API 上下文中)之前我没有与 Mahout 合作过
在网上搜索时,我发现了这个: Mahout Collocations
这就是问题所在:我有一个 POSTagged 输入文本。我需要识别其中的搭配。我有 collocdriver.java 代码。现在我需要知道如何使用它?是否使用 generateAllGrams() 方法或仅 generateCollocations() 方法对于我的摘要器中的子任务就足够了..??
最重要的是如何使用它?我提出这个问题是因为我承认,我不太了解 API,
我还得到了collocdriver 的grepcode 版本,这两种实现似乎略有不同..输入是 grepcode 版本的字符串和原始路径对象的形式...
我的问题:输入参数中的配置对象是什么以及如何使用它?源/目标将是字符串(如 grepcode)还是路径(如原始)?输出会是什么?
我对 collocdriver 程序做了一些进一步的研发……我发现它使用了一个序列文件,然后是矢量生成……我想知道这个序列文件/矢量生成是如何工作的……请帮助……