问题标签 [crfsuite]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3475 浏览

python - 运行 CRFSuite 示例

我正在尝试使用 CRFSuite,但我不知道如何使用 example/ner.py 和 pos.py

准确地说,我如何输入表单:

或者

例如,我可以从 CoNNL 模型中获得“yw pos”,但我并没有真正获得 pos.py 中的“chk”部分和所有这些字段。

此外,鉴于我有一个训练有素的模型,有没有办法用 CRFSuite 处理原始文本(没有所有这些标签)?

0 投票
5 回答
2051 浏览

image-processing - CRF++ 或 CRFSuite

我开始使用 crf++ 和 crfsuite(两者都使用非常相似的文件格式)。我想做与图像相关的事情(分割、活动识别等)。我的主要问题是如何构建培训文件。有人使用 crf 和图像吗?有没有人解释我或提供一些文件来学习。提前致谢。

0 投票
1 回答
1536 浏览

python - 在 crfsuite 中使用标签作为属性

我是 CRF 的新手,我想使用 CRFsuite 来标记单词。我阅读了 CRFsuite 的手册并了解了训练数据的格式,但是如果我想添加一些带有“近词”标签的特征,那么训练数据文件是什么样的?

我有谷歌,但我没有发现这个问题。

0 投票
1 回答
310 浏览

classification - 如果标签是“:”,CRFSuite 预测会被吞噬?

我正在使用 CRFSuite 进行序列分类(POS 标记)。令我惊讶的是,似乎 CRFSuite 不喜欢标签':' 具有 ':' 作为实际标签的单元或标记被完全跳过(预测输出中没有关于丢失或跳过的项目的备注)

我使用其他与标点符号相关的标签,例如“。” 或“,”,但这些都被正确使用和输出。

有没有人有过类似的经历或现在为什么跳过“:”?

0 投票
1 回答
811 浏览

model - 使用 CRFSuite 进行 k 折交叉验证并将其保存在模型文件中

我是 CRFSuite 库的新手,但我知道如何训练模型并将其保存在文件中,这要归功于“-m”选项。但是,我尝试掌握 de k-fold 交叉验证,但“-m”选项似乎无法将 de 进程保存在文件中。该命令根本不会创建模型文件。

我可以举一个简单的例子来说明如何使用 CRFSuite 很好地使用 k-fold 交叉验证,它将过程写入文件(不是日志文件,而是模型文件)。在文档中,作者解释了如何进行 k-fold 交叉验证,但没有指定文件来保存模型。我真的很想知道如果我们不保存之后生成的模型,为什么要执行交叉验证......

我在这里找到了关于 CRFSuite 的文档:http: //www.chokkan.org/software/crfsuite/manual.html

但这还不足以满足我的需求。谢谢。

0 投票
0 回答
140 浏览

make-install - CRF套件安装

CRFsuite安装期间,将libLBFGS安装到主目录下的本地目录时,我无法运行 make 命令。

我已成功执行该步骤$./configure,但无法运行makemake install.

0 投票
1 回答
95 浏览

azure-devops - 在另一个项目中的一个 Visual Studio Team Services 项目中包含人工制品?

我正在使用 Visual Studio Team 服务来构建CRFSuiteLibLBFGS。CRFSuite 依赖于正在构建的 LibLBFGS 库。我可以毫无问题地构建 LibLBFGS。我希望能够在构建 CRFSuite 项目时将由 LibLBFGS 构建生成的库和头文件包含在 CRFSuite 项目中。

希望我遗漏了一些非常明显的东西,这是可以做到的。

0 投票
0 回答
817 浏览

python - CRFSuite vs CRF++ 参数和结果

如何在 CRFSuite 中模拟基本 CRF++ 模型的结果?

我使用 CRF++ 已经有一段时间了,结果非常有希望,但是我最近切换到带有 Python 实现的 CRFSuite 以将模型投入生产。也就是说,我无法复制到使用简单参数在 CRFSuite 中使用 CRF++ 获得的结果。

我创建的模型尽可能简单,只有一个特征(当前单词):

CRFSuite 模型基于此示例 - https://github.com/scrapinghub/python-crfsuite/blob/master/examples/CoNLL%202002.ipynb

我正在使用 CRF++ 的默认参数,但即使修改 CRFSuite 的参数以匹配这些参数,也无法获得相同的结果。

我用于 CRFSuite 的参数是(来自手册):

这应该与 CRF++ 中的默认参数相同(我会发布手册但没有足够的代表 - 搜索 CRF++ 文档)。

我错过了什么吗?谢谢!

0 投票
2 回答
131 浏览

java - jcrfsuite 培训文件格式

根据我从 jcrfsuite 示例中给出的 POS 标记示例的理解。训练文件是制表符分隔的,第一个标记是标签。但我没有得到 BigCluster| 事物。有人可以帮助我如何在训练文件中指定令牌。

下面的例子:

O BigCluster|00 BigCluster|0000 BigCluster|000000 BigCluster|00000000 BigCluster|0000000000 BigCluster|000000000000 BigCluster|00000000000000 BigCluster|0000000000000000 NextBigCluster|0100 NextBigCluster|01000101 NextBigCluster|010001011111 POSTagDict|D POSTagDict|N POSTagDict|^ POSTagDict|$ POSTagDict|G NextPOSTag |V 1gramSuff|i 1gramPref|i prevword| prevcurr||i nextword|predict nextword|predict currnext|i|predict Word|I Lower|i Xxdshape|X charclass|1, first-shortcap prevnext||predict t=0

测试文件格式:

!BigCluster | 01 BigCluster | 0110 BigCluster | 011011 BigCluster | 01101100 BigCluster | 0110110011 BigCluster | 011011001100 BigCluster | 01101100110011001100110011100110011110011001111111110011001100110011000000 NextBigCluster | 1000 NextBigCluster | 1000100010001000100010001000 | 10001000 | 1000年| 10001000 | 1000年| 10001000年| 1000年| 1000年| 1000年| 1000年; mnn 4gramSuff|mmnn 5gramSuff|mmmnn 6gramSuff|ammmnn 7gramSuff|aammmnn 8gramSuff|aaammmnn 9gramSuff|daaammmnn 1gramPref|d 2gramPref|da 3gramPref|daa 4gramPref|daaa 5gramPref|daaam 6gramPref|daaamm 7gramPref|daaammm|daaammm 8gramPref|daammn 预置词 prevcurr||daaammmnn nextword|。下一个字|。当前下一个|daaammmnn|。Word|Daaammmnn Lower|daaammmnn Xxdshape|Xxxxxxxxx charclass|1,2,2,2,2,2,2,2,2, first-initcap prevnext||. t=0

0 投票
1 回答
349 浏览

machine-learning - 训练没有句子边界的 CRF

我需要在 HTML 文档中标记部分文本。但是,它主要由日期、公司名称、地址等形式的文本组成。我计划使用 CRF (sklearn-crfsuite)

我的问题是很难将数据集分成句子。我们能否训练一个没有句子边界的 CRF 模型,将所有内容都视为一个序列?CRFSuite 或 sklearn-crfsuite 中的教程没有讨论这个。

如果没有句子分割就无法完成,关于如何将这些文本分成句子的任何提示?

数据是这样的:(我不能分享实际数据) 在此处输入图像描述