任何使用 Java 库 Mallet 的 SimpleTagger 类用于条件随机字段 (CRF) 的人的问题。假设我已经在使用多线程选项来获得可用的最大 CPU 数量(就是这种情况):我从哪里开始,如果我需要它运行得更快,我应该尝试哪些事情?
一个相关的问题是,是否有一种方法可以做类似于随机梯度下降的事情,从而加快训练过程?
我想做的培训类型很简单:
Input:
Feature1 ... FeatureN SequenceLabel
...
Test Data:
Feature1 ... FeatureN
...
Output:
Feature1 ... FeatureN SequenceLabel
...
(特征是我在自己的代码中对数据进行的处理的输出。)
我在让除 Mallet 之外的任何 CRF 分类器大致工作时遇到问题,但我可能不得不再次回溯并重新访问其他实现之一,或者尝试一个新的实现。