问题标签 [crfsuite]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2580 浏览

scikit-learn - AttributeError:“RandomizedSearchCV”对象没有属性“grid_scores_”

当我尝试这段代码时:

我收到错误:

AttributeError:“RandomizedSearchCV”对象没有属性“grid_scores_”

sklearn-crfsuite 版本 = 0.3.6

0 投票
1 回答
2595 浏览

scikit-learn - ModuleNotFoundError:没有名为“sklearn_crfsuite”的模块

我正在尝试使用,sklearn's crfsuite但它显示没有名为“ sklearn_crfsuite”的模块的错误,还检查了那里的文档也提到了同样的事情?

0 投票
0 回答
62 浏览

python - 为什么在开发集上优化 CRF 超参数后 NER 的 F1 分数较低?

我将一个数据集(其中每个文本由元组列表(令牌、POS 标签、OBI 标签)表示)拆分为训练集、开发集和测试集,按大小比 0.6:0.2:0.2 并尝试做名称实体条件随机场 ( CRF ) 的识别 ( NER ) 使用. 在开发集上优化超参数后,测试集上的加权平均 F1 分数变得低于基线运行中的值,其中超参数是盲目规定的。我觉得这违反直觉。sklearn_crfsuite

我知道这个问题很模糊。但是关于在哪里看有什么建议吗?我怎样才能确定这是正常情况还是我的模型在某个地方出错了?我应该使用更大的开发集吗?通过交叉验证来优化超参数是否更合适?还是我需要回去修改功能?

顺便说一句,我知道不同的数据源可能会导致这个问题,所以我特别检查。文本长度、POS 标签和 OBI 标签的分布在训练集、开发集和测试集中看起来都非常相似。

0 投票
1 回答
60 浏览

python - 如何在 sklearn_crfsuite 中设置随机种子

我目前正在尝试使用sklearn_crfsuite库实现 NER 模型。

训练代码简单如下:

代码是做十次重复训练,我的目标是观察 10 个不同的分数并将它们平均作为最终分数。然而,每次重复都会给出相同的分数,尽管我在每个循环中重新初始化了模型。

问题是,我如何正确设置随机种子,以便每次重复都能给出不同的结果?

注意:在每个循环中对训练数据进行混洗后,它仍然给出相同的结果。最后,我将训练算法从 'lbfgs'(使用 L-BFGS 方法的梯度下降)更改为'l2sgd' (使用 L2 正则化的随机梯度下降),然后我开始获得不同的结果。

0 投票
0 回答
13 浏览

crf - CRFsuite 训练太慢

我在 CRFsuite 上训练 NER,但速度太慢(9 小时以上)。我的火车数据包括 66436 个句子,平均每个句子有 57 个标记。我的测试数据包括 1365 个句子,平均 24 个标记/句子。我只放了7个特征。输出只有 13 个标签。

我在 Colab Pro 上运行。