问题标签 [mallet]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将 Python 字符串传递给 Mallet 以进行主题建模
我正在使用 BeautifulSoup 构建一个文本语料库,该语料库与一些来自 HTML 的元数据一起收集。如果我可以从 Python 中调用 Mallet,并让它从 Python 字符串而不是目录中的文本文件中建模主题,那将非常有帮助。这样我就可以将 Mallet 定位的 n 个关键字放入每个文件中。
当我运行时,我收到一条消息说 Mallet 已被识别:
但是我在接下来的步骤中没有任何运气,甚至不确定 Mallet 是否接受除了保存的文件之外的任何内容。
我无法找到任何我能真正理解的文档。有人看过可消化的文档吗?(NLTK 书没有进入 Mallet)。我也很乐意学习 Python 中的任何其他主题建模方法,我可以在没有真正深入的 Python 知识的情况下操作这些方法。
抱歉,这是我的第一次牛仔竞技表演。
java - 如何加载和使用使用 Mallet 训练的 CRF?
我已经使用 训练了一个 CRF GenericAcrfTui
,它将一个写入ACRF
文件。我不太确定如何加载和使用训练有素的 CRF,但是
似乎工作。但是,标签似乎不正确,并且似乎依赖于我作为输入传递的标签。 如何使用加载的 ACRF 进行标记?
这是我做标签的方式:
我看了一下就知道了GenericAcrfTui
。我尝试过的一些事情:
- 当我尝试给出不同的初始标签(“O”除外)时,结果标签发生了变化,但这无济于事,因为我无法猜测最初要给出什么标签,否则我不需要标注器。
- 我试图根本不给出任何初始标签,但这只会导致异常,看来 Mallet 真的想要这些标签。
我注意到还有SimpleTagger
可以用来训练CRF
但我认为使用它来标记新输入我仍然会遇到同样的问题。
SimpleTagger
使用来自或的 CRF 进行标记的任何帮助GenericAcrfTui
都会有所帮助。
顺便说一句,我通常使用 CRF++,但对于这项任务,我想构建自己的图表,因为我正在使用依赖项解析功能。
topic-modeling - MALLET 中主题模型的增量训练
根据 MALLET文档,可以逐步训练主题模型:
“-output-model [FILENAME] 此选项指定一个文件来编写序列化的 MALLET 主题训练器对象。这种类型的输出适用于暂停和重新开始训练”
我想在一组数据上训练主题,然后用另一组数据增加模型。在两个训练步骤之后,我想输出两个数据集的状态(使用 --output-state)。这是我尝试这样做的方法:
在最后一个命令中,如果我添加“--input-model model”,则来自第二个数据集的数据不会出现在输出状态文件中。如果我不添加它,则输出状态文件中不存在来自第一个数据集的数据。
如果我尝试在代码中向模型添加其他实例:
我收到一个错误:
MALLET列表之前也有类似的问题:http: //permalink.gmane.org/gmane.comp.ai.mallet.devel/924,http : //permalink.gmane.org/gmane.comp.ai.mallet .devel/2139
那么主题模型的增量训练是可能的吗?
regex - R 正则表达式中的槌错误:java.lang.NoSuchMethodException:给定参数没有合适的方法
我一直在关注如何在 R 中使用 mallet 创建主题模型的教程。我的文本文件每行有 1 个句子。它看起来像这样,大约有 50 句话。
这是我的代码:
除了代码的最后一行,一切正常
我不断收到此错误:
根据包,函数应该是这样的:
我相信它与 token.regexp 参数有关,因为它
documents1 <- mallet.read.dir(Dir)
工作得很好,这意味着提供给 mallet.instances 的前 3 个参数是正确的。
这是我正在遵循教程的 git repo 的链接。 https://github.com/shawngraham/R/blob/master/topicmodel.R
任何帮助将非常感激。
谢谢,J
lda - Mallet Api - 获得一致的结果
我是 LDA 和木槌的新手。我有以下查询
我尝试使用命令行运行 Mallet-LDA,并通过将--random-seed设置为固定值,我能够获得多次运行该算法的一致结果
但是,我确实尝试过使用 Mallet-Java-API,每次运行程序时都会得到不同的输出。我做了谷歌,发现需要修复随机种子,我在我的java代码中修复了它。我仍然得到不同的结果。
谁能让我知道我需要考虑哪些其他参数才能获得一致的结果(多次运行时)
我可能想在多次运行时添加该训练主题(命令行)产生相同的结果。但是,当我重新运行import-dir然后运行train-topics时,结果与前一个不匹配。(可能正如预期的那样)。我可以只运行一次import-dir,然后通过运行train-topics来试验不同数量的主题和迭代。同样,如果我想在使用 Java-Api 时复制相同的内容,则需要更改/保持不变。
topic-modeling - 主题建模和发现主题中的相似性
问题陈述:我有几个文件(20k 个文件)。我需要应用主题建模来查找相似的文档,然后分析这些相似的文档以找出它们之间的不同之处。问:谁能建议我任何可以实现这一目标的主题建模包。我正在探索 Mallet 和 Gensim Python。不确定哪个最适合我的要求。
任何帮助将不胜感激。
java - MALLET 主题建模:输入字符串
我有这个代码来导入文件.mallet:
但是如果我想手动切换每个实例,我该怎么办?我试过这个:
但它给了我一个错误!
编辑
我试过了,它似乎可以处理一个字符串数组:
java - Mallet java: get probability distribution of a documents collection
I would like to get a single probability distribution for a collection of documents, as I need to be able to use the KL-Divergence, is this possible?
In this example: http://mallet.cs.umass.edu/topics-devel.php with the method getTopicProbabilities() I get the probability distribution of each instance, but if I wanted to get a single distribution for a collection of documents?
Could this be the topic distribution of the documents?
lda - MALLET 主题中单词的排名
我对槌子比较陌生,需要知道:-槌子产生的每个主题中的单词是否以某种方式排序?- 如果是这样,主题列表中的排序(即)是第一个在整个语料库中分布最高的排序(即)是什么?
谢谢!
java - 无法运行 Mallet TopicModel
我正在尝试运行 Mallet 的主题建模,但出现以下错误:
我已经添加了所有的jar文件!你能告诉我这里有什么问题吗?
谢谢,