0

我正在开发一个基于 wordnet 的文档 summaryr.in 的项目,我需要提取搭配。我尝试尽可能多地进行研究,但由于在我难以理解 CollocDriver.java 的工作原理(在 API 上下文中)之前我没有与 Mahout 合作过

在网上搜索时,我发现了这个: Mahout Collocations

这就是问题所在:我有一个 POSTagged 输入文本。我需要识别其中的搭配。我有 collocdriver.java 代码。现在我需要知道如何使用它?是否使用 generateAllGrams() 方法或仅 generateCollocations() 方法对于我的摘要器中的子任务就足够了..??

最重要的是如何使用它?我提出这个问题是因为我承认,我不太了解 API,

我还得到了collocdriver 的grepcode 版本,这两种实现似乎略有不同..输入是 grepcode 版本的字符串和原始路径对象的形式...

我的问题:输入参数中的配置对象是什么以及如何使用它?源/目标将是字符串(如 grepcode)还是路径(如原始)?输出会是什么?

我对 collocdriver 程序做了一些进一步的研发……我发现它使用了一个序列文件,然后是矢量生成……我想知道这个序列文件/矢量生成是如何工作的……请帮助……

4

1 回答 1

0

要使用 mahout 进行搭配,您需要遵循一些简单的步骤

1)您必须从您的输入文本文件中制作一个序列文件。

/bin/mahout seqdirectory -i /home/developer/Desktop/colloc/ -o /home/developer/Desktop/colloc/test-seqdir -c UTF-8 -chunk 5

2)有两种方法可以从序列文件中生成搭配。

a)Convert sequence file to sparse vector and find out the collocation
b)Directly find out the collocation from the sequence file (with out creating the sparse vector)

3)这里我正在考虑选择b。

/bin/mahout org.apache.mahout.vectorizer.collocations.llr.CollocDriver -i /home/developer/Desktop/colloc/test-seqdir -o /home/developer/Desktop/colloc/test-colloc -a org.apache .mahout.vectorizer.DefaultAnalyzer -ng 3 -p

只需检查输出文件夹,您需要的文件就在那里!!!(按顺序文件格式)

/bin/mahout seqdumper -s /home/developer/Desktop/colloc/test-colloc/ngrams/part-r-00000 >> out.txt 将给出 ua 文本输出!!!

于 2011-03-22T05:05:11.853 回答