问题标签 [lingpipe]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
160 浏览

java - LingPipe POS 标注器内存不足

我无法使用LingPipe POS 标记器来计算大型(~180MB)电子邮件语料库中最常用的词性。具体来说,它会消耗大量内存(至少 4GB),因此无论我为 JVM 提供多少内存,它都会因 OutOfMemoryError 而失败。在我放弃并尝试不同的标记库之前,我想我会问这里是否有人对 LingPipe 足够熟悉,知道我做错了什么。

我首先从文件 pos-en-general-brown.HiddenMarkovModel 中读取一个 HiddenMarkovModel 对象,该文件包含在 LingPipe 库中,它是样板 Java 序列化代码。然后我尝试像这样使用它:

其中countTagsInEmails定义如下:

我认为 的细节FileUtil.loadMLPosts()并不重要;Email这只是从我的 180MB 电子邮件存档文件中创建一个对象列表,其中body每个对象的字段都是Email包含电子邮件正文的字符串。请注意,这Multiset是 Guava 的实现。

如果我在运行我的程序时观察 Java 的内存使用情况,它从 1GB 开始(已经惊人的高),然后随着标记的电子邮件的增多而稳步攀升。在某些时候,它会急剧跳跃,一次增加数百兆字节。在它完成对语料库的标记之前,它达到了 4GB(我给我的 JVM 的内存量)并崩溃了。

LingPipe 的 HmmDecoder 是否应该如此低效?还是我用错了?我注意到在 LingPipe 的(相当稀疏的)文档页面上给出的用于 POS 标记的示例总是显示解码器一次标记一个句子,所以将整个电子邮件正文传递给 是一个错误decoder.tag()吗?

0 投票
1 回答
266 浏览

java - Java 的 NLP 库安装指南

我是 NLP 新手。我需要基本的想法来开始安装它。我已经浏览了 LingPipe 并打开了 NLP 安装部分,但我不明白为什么要安装 maven 和额外的训练集、模型等。任何简单的安装说明都将有助于我开始编码。平台 - Ubuntu

对不起,如果这个问题太笼统或太简单

0 投票
1 回答
452 浏览

topic-modeling - 使用主题建模 Java 工具包

我正在研究文本分类,我想使用主题模型(LDA)。我的语料库包含至少 24,000 个波斯新闻文件。语料库中的每个文档都是从新闻中提取的(关键字,权重)对的格式。

我看到了两个 Java 工具包:mallet 和 lingpipe。我已阅读有关导入数据的槌教程,它以纯文本形式获取数据,而不是我拥有的格式。有什么办法可以改变它吗?

还阅读了一些关于 lingpipe 的信息,教程中的示例是使用整数数组。大数据方便吗?

我需要知道哪种 LDA 实现更适合我?还有其他适合我的数据的实现吗?(在 Java 中)

0 投票
1 回答
215 浏览

nlp - LingPipe 命名实体识别器输出很多不匹配

我正在尝试使用 LingPipe 并按照本教程提取命名实体(人员、人员和组织) 。这是我试图从中提取名称的全文,这是代码(为简洁起见,省略了异常处理):

这是我得到的(部分)输出:

如您所见,有很多不匹配/部分匹配,例如Bali., pair, the Bali, I', Widodo. I, " Abbott, "。我假设库的 NER 工作得很好,问题是上面的代码在某种程度上滥用了这个库中的类/方法。但我似乎无法找到代码有什么问题?

有任何想法吗?

0 投票
1 回答
287 浏览

java - lingpipe情感分析教程demo报错?

我正在从lingpipe网站教程中进行情绪分析,并且一直收到此错误,有没有人可以帮忙?

0 投票
1 回答
67 浏览

java - 如何修复lingpipe java错误

我在现有的 ant-buildfile 选项下打开 lingpipe 然后创建一个包将 PolarityBasic.java 放入包中
我确实更改了mPolarityDir=new file("Desktop/POLARITY_DIR/txt_sentoken")甚至创建了一个包含该文件的字符串,仍然是同样的错误

http://alias-i.com/lingpipe/web/download.html lingpipe-4.1.0

0 投票
1 回答
86 浏览

sentiment-analysis - 用于情感分析的行业特定 lingpipe 分类训练数据集

我正在寻找 lingpipe 训练数据集(分类 - 正面、负面、中性),用于对以下行业的评论数据进行情绪分析 -

医疗保健(关于医生、医疗保健服务的评论) 餐厅 酒店 零售

有人可以指导任何可以帮助我获得上述训练数据集的资源吗?

谢谢

0 投票
1 回答
261 浏览

java - 使用 LingPipe 在 Gate 中识别命名实体

GATE NLP用来处理我的文档,我想使用实体名称作为标签候选者在 Gate 有OpenNLP,当我在这里LingPipe 阅读答案表格时, @Shashikant Kore 回答他说

如果你有句子“我的朋友 Joe Smith 去了沃尔玛商店”,OpenNLP 会识别出两个命名实体——“Joe Smith”和“Walmart”。我无法将“Joe Smith”标记为“个人”,将“Walmart”标记为“组织”。

并建议使用LingPipe,所以我使用了 Gate NLP 中提供的 LingPipe,如下所示

但是,当我运行我的程序时,我有这个异常

线程“main”gate.creole.ResourceInstantiationException 中的异常:未提供模型文件!在gate.lingpipe.NamedEntityRecognizerPR.init(NamedEntityRecognizerPR.java:55) 在gate.lingpipe.NamedEntityRecognizerPR.init(NamedEntityRecognizerPR.java:55)

没有提供模型文件是什么意思?抱歉,因为我在问这个问题,但我对这个领域完全陌生,我刚刚了解了 ANNIE,当我使用它来提取 POS 标记时它不需要任何文件有任何帮助吗?

0 投票
1 回答
133 浏览

java - 使用 lingpipe 进行增量语言模型训练

我正在尝试DynamicLMClassifier.createNGramProcess(categories,nGram)在大于 20GB 的大数据集上训练 a。我目前正在将整个培训文件作为字符串提供给培训方法,出于显而易见的原因,我得到了一个java.lang.OutOfMemoryError: Java heap space

尽管可能增加 JVM 堆大小以支持此类训练,但我有兴趣找到一种增量方法。

训练代码如下所示:

理想的解决方案是在训练集的 N 个子集的循环中提供分类器.handle()。从理论上讲,我认为这应该是可能的,因为模型只需要记住具有各自计数的 ngram 元组来计算 MLE。

0 投票
1 回答
28 浏览

classcastexception - LingPipe 中的 ClassCastException

我正在使用序列化一个训练有素的模型

然后我训练它并使用它编译它

当我在模型中阅读时使用

我得到一个 ClassCastException。有任何想法吗?