“crfsuite”的相关标签问题_Stack Overflow中文网

0 投票

3 回答

3475 浏览

python - 运行 CRFSuite 示例

我正在尝试使用 CRFSuite，但我不知道如何使用 example/ner.py 和 pos.py

准确地说，我如何输入表单：

或者

例如，我可以从 CoNNL 模型中获得“yw pos”，但我并没有真正获得 pos.py 中的“chk”部分和所有这些字段。

此外，鉴于我有一个训练有素的模型，有没有办法用 CRFSuite 处理原始文本（没有所有这些标签）？

2011-12-03T19:33:45.937

0 投票

5 回答

2051 浏览

image-processing - CRF++ 或 CRFSuite

我开始使用 crf++ 和 crfsuite（两者都使用非常相似的文件格式）。我想做与图像相关的事情（分割、活动识别等）。我的主要问题是如何构建培训文件。有人使用 crf 和图像吗？有没有人解释我或提供一些文件来学习。提前致谢。

image-processing android-activity crf++crfsuite

2012-06-30T22:29:11.097

0 投票

1 回答

1536 浏览

python - 在 crfsuite 中使用标签作为属性

我是 CRF 的新手，我想使用 CRFsuite 来标记单词。我阅读了 CRFsuite 的手册并了解了训练数据的格式，但是如果我想添加一些带有“近词”标签的特征，那么训练数据文件是什么样的？

我有谷歌，但我没有发现这个问题。

python label crf crfsuite

2014-03-06T08:17:54.903

0 投票

1 回答

310 浏览

classification - 如果标签是“：”，CRFSuite 预测会被吞噬？

我正在使用 CRFSuite 进行序列分类（POS 标记）。令我惊讶的是，似乎 CRFSuite 不喜欢标签':' 具有 ':' 作为实际标签的单元或标记被完全跳过（预测输出中没有关于丢失或跳过的项目的备注）

我使用其他与标点符号相关的标签，例如“。” 或“，”，但这些都被正确使用和输出。

有没有人有过类似的经历或现在为什么跳过“：”？

classification crfsuite

2014-09-24T12:00:40.523

0 投票

1 回答

811 浏览

model - 使用 CRFSuite 进行 k 折交叉验证并将其保存在模型文件中

我是 CRFSuite 库的新手，但我知道如何训练模型并将其保存在文件中，这要归功于“-m”选项。但是，我尝试掌握 de k-fold 交叉验证，但“-m”选项似乎无法将 de 进程保存在文件中。该命令根本不会创建模型文件。

我可以举一个简单的例子来说明如何使用 CRFSuite 很好地使用 k-fold 交叉验证，它将过程写入文件（不是日志文件，而是模型文件）。在文档中，作者解释了如何进行 k-fold 交叉验证，但没有指定文件来保存模型。我真的很想知道如果我们不保存之后生成的模型，为什么要执行交叉验证......

我在这里找到了关于 CRFSuite 的文档：http: //www.chokkan.org/software/crfsuite/manual.html

但这还不足以满足我的需求。谢谢。

model cross-validation crfsuite

2014-12-08T19:32:07.393

0 投票

0 回答

140 浏览

make-install - CRF套件安装

在CRFsuite安装期间，将libLBFGS安装到主目录下的本地目录时，我无法运行 make 命令。

我已成功执行该步骤$./configure，但无法运行make和make install.

make-install crfsuite

2016-06-16T05:34:08.877

0 投票

1 回答

95 浏览

azure-devops - 在另一个项目中的一个 Visual Studio Team Services 项目中包含人工制品？

我正在使用 Visual Studio Team 服务来构建CRFSuite和LibLBFGS。CRFSuite 依赖于正在构建的 LibLBFGS 库。我可以毫无问题地构建 LibLBFGS。我希望能够在构建 CRFSuite 项目时将由 LibLBFGS 构建生成的库和头文件包含在 CRFSuite 项目中。

希望我遗漏了一些非常明显的东西，这是可以做到的。

azure-devops crfsuite

2016-12-09T10:30:24.370

0 投票

0 回答

817 浏览

python - CRFSuite vs CRF++ 参数和结果

如何在 CRFSuite 中模拟基本 CRF++ 模型的结果？

我使用 CRF++ 已经有一段时间了，结果非常有希望，但是我最近切换到带有 Python 实现的 CRFSuite 以将模型投入生产。也就是说，我无法复制到使用简单参数在 CRFSuite 中使用 CRF++ 获得的结果。

我创建的模型尽可能简单，只有一个特征（当前单词）：

CRFSuite 模型基于此示例 - https://github.com/scrapinghub/python-crfsuite/blob/master/examples/CoNLL%202002.ipynb

我正在使用 CRF++ 的默认参数，但即使修改 CRFSuite 的参数以匹配这些参数，也无法获得相同的结果。

我用于 CRFSuite 的参数是（来自手册）：

这应该与 CRF++ 中的默认参数相同（我会发布手册但没有足够的代表 - 搜索 CRF++ 文档）。

我错过了什么吗？谢谢！

python crf crf++crfsuite

2017-02-14T15:45:12.850

0 投票

2 回答

131 浏览

java - jcrfsuite 培训文件格式

根据我从 jcrfsuite 示例中给出的 POS 标记示例的理解。训练文件是制表符分隔的，第一个标记是标签。但我没有得到 BigCluster| 事物。有人可以帮助我如何在训练文件中指定令牌。

下面的例子：

O BigCluster|00 BigCluster|0000 BigCluster|000000 BigCluster|00000000 BigCluster|0000000000 BigCluster|000000000000 BigCluster|00000000000000 BigCluster|0000000000000000 NextBigCluster|0100 NextBigCluster|01000101 NextBigCluster|010001011111 POSTagDict|D POSTagDict|N POSTagDict|^ POSTagDict|$ POSTagDict|G NextPOSTag |V 1gramSuff|i 1gramPref|i prevword| prevcurr||i nextword|predict nextword|predict currnext|i|predict Word|I Lower|i Xxdshape|X charclass|1, first-shortcap prevnext||predict t=0

测试文件格式：

！BigCluster | 01 BigCluster | 0110 BigCluster | 011011 BigCluster | 01101100 BigCluster | 0110110011 BigCluster | 011011001100 BigCluster | 01101100110011001100110011100110011110011001111111110011001100110011000000 NextBigCluster | 1000 NextBigCluster | 1000100010001000100010001000 | 10001000 | 1000年| 10001000 | 1000年| 10001000年| 1000年| 1000年| 1000年| 1000年; mnn 4gramSuff|mmnn 5gramSuff|mmmnn 6gramSuff|ammmnn 7gramSuff|aammmnn 8gramSuff|aaammmnn 9gramSuff|daaammmnn 1gramPref|d 2gramPref|da 3gramPref|daa 4gramPref|daaa 5gramPref|daaam 6gramPref|daaamm 7gramPref|daaammm|daaammm 8gramPref|daammn 预置词 prevcurr||daaammmnn nextword|。下一个字|。当前下一个|daaammmnn|。Word|Daaammmnn Lower|daaammmnn Xxdshape|Xxxxxxxxx charclass|1,2,2,2,2,2,2,2,2, first-initcap prevnext||. t=0

java machine-learning crfsuite

2017-05-18T10:04:57.917

0 投票

1 回答

349 浏览

machine-learning - 训练没有句子边界的 CRF

我需要在 HTML 文档中标记部分文本。但是，它主要由日期、公司名称、地址等形式的文本组成。我计划使用 CRF (sklearn-crfsuite)

我的问题是很难将数据集分成句子。我们能否训练一个没有句子边界的 CRF 模型，将所有内容都视为一个序列？CRFSuite 或 sklearn-crfsuite 中的教程没有讨论这个。

如果没有句子分割就无法完成，关于如何将这些文本分成句子的任何提示？

数据是这样的：（我不能分享实际数据）

machine-learning crf crfsuite python-crfsuite

2017-07-17T20:38:12.840

问题标签 [crfsuite]

Reference