问题标签 [mallet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 在槌中处理 CRF 的整数值特征
我刚开始在槌中使用 SimpleTagger 类。我的印象是它需要二进制特征。我要实现的模型具有正整数值特征,我想知道如何在 mallet 中实现它。另外,我听说如果模型要有意义,就需要对非二进制特征进行归一化。我将不胜感激有关如何执行此操作的任何建议。
附言。是的,我知道有一个专门的槌邮件列表,但我已经等了将近一天才能让我的订阅获得批准,以便能够在那里发帖。我只是很着急。
nlp - 使用槌进行主题建模
我正在尝试将主题建模与 Mallet 一起使用,但有一个问题。
我怎么知道什么时候需要重建模型?例如,我有这么多从网络上爬取的文档,使用 Mallet 提供的主题建模,我可能能够创建模型并用它推断文档。但随着时间的推移,随着我爬取的新数据,可能会出现新的主题。在那种情况下,我怎么知道我是否应该从头到现在重建模型?
我正在考虑为每个月抓取的文件这样做。有人可以建议吗?
那么,主题建模是否更适合主题数量固定(输入参数 k,主题数量)下的文本。如果不是,我如何真正确定要使用的数字?
nlp - 关于潜在狄利克雷分配(MALLET)的问题
老实说,我对 LDA 并不熟悉,但我的一个项目需要使用 MALLET 的主题建模。
我的问题是:给定特定时间戳内的一组文档作为主题模型的训练数据,对于文档 + 或 - 训练数据的时间戳,使用模型(使用推理器)跟踪主题趋势有多合适. 我的意思是,如果在模型构建阶段,我们只提供我需要分析的数据集的一个子集,那么 MALLET 提供的主题分布是否是一个合适的指标来跟踪主题随时间的流行度。
谢谢。
nlp - 关于 lda 推理
现在,我正在使用 MALLET 包中的 LDA 主题建模工具对我的文档进行一些主题检测。最初一切都很好,我从中得到了 20 个主题。但是,当我尝试使用该模型推断新文档时,结果有点令人费解。
例如,我故意在我手动创建的文档上运行我的模型,该文档只包含来自主题“FLU”之一的关键字,但我得到的每个主题的主题分布均 <0.1。然后,我在一个已经采样的文档中尝试相同的操作,其中一个主题的得分为 0.7。同样的事情又发生了。
有人可以就原因提供一些线索吗?
尝试在 MALLET 邮件列表上询问,但显然没有人回复。
java - Mallet 中的主题建模;文档
我正在为 Mallet 寻找一些好的文档,特别是与主题建模相关的类。我查看了 Java 文档,但它们并没有太大帮助。例如:
仍然不知道这个方法是做什么的(如果你知道,请告诉我......)。另外,如果您对槌有一定的经验并且可以帮助我打印通过主题模型学习的主题(或代表主题的词组),请告诉我。欢迎大家咨询!
我见过 getTopWords 方法,但我无法调用它……也许是一个丢失的罐子?
java - 木槌主题建模
我一直在使用 mallet 来推断包含 100,000 行的文本文件的主题(mallet 格式大约 34 MB)。但是现在我需要在一个包含一百万行(大约 180MB)的文件上运行它,我得到一个 java.lang.outofmemory 异常。有没有办法将文件拆分成更小的文件,并为所有文件中存在的数据建立模型?提前致谢
machine-learning - Mallet CRF SimpleTagger 性能调优
任何使用 Java 库 Mallet 的 SimpleTagger 类用于条件随机字段 (CRF) 的人的问题。假设我已经在使用多线程选项来获得可用的最大 CPU 数量(就是这种情况):我从哪里开始,如果我需要它运行得更快,我应该尝试哪些事情?
一个相关的问题是,是否有一种方法可以做类似于随机梯度下降的事情,从而加快训练过程?
我想做的培训类型很简单:
(特征是我在自己的代码中对数据进行的处理的输出。)
我在让除 Mallet 之外的任何 CRF 分类器大致工作时遇到问题,但我可能不得不再次回溯并重新访问其他实现之一,或者尝试一个新的实现。
java - Mallet:每个预测的特征贡献
我正在使用 CRF 在 Mallet 上开发 NER 系统。
你知道是否可以收集每个预测的特征贡献?我需要知道并理解 CRF 模型的精确行为。
有什么建议么?
谢谢。
干杯,乌克兰
java - 使用 Mallet Java Api 进行主题建模?
嗨,我必须使用 Mallet Java API 进行主题建模,但我是编码新手,所以我发现很难理解和使用 Java 库。有没有人有一些示例代码,他们使用可用于构建的 API 进行主题建模?
java - 使用 Mallet Api for Java 进行主题建模
嗨,我必须使用 Mallet Java API 进行主题建模,但我是 Mallet 的新手,所以我发现很难理解 Mallet 库并使用它们。有谁知道任何地方可能有一些主题建模的源代码来理解这些库?