问题标签 [crf]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
7192 浏览

crf - 如何制作CRF++的模板文件?

我是 CRF++ 的新手。我正在自学查看其手册: http ://crfpp.googlecode.com/svn/trunk/doc/index.html?source=navbar#templ

而且我不明白这是什么意思:

这是一个描述一元特征的模板。当你给一个

模板“U01:%x[0,1]”,CRF++自动生成一组特征

函数(func1 ... funcN),例如:

func1 = if (output = B-NP and feature="U01:DT") return 1 else return 0

func2 = if (output = I-NP and feature="U01:DT") return 1 else return 0

func3 = if (output = O and feature="U01:DT") return 1 else return 0

.... funcXX = if (output = B-NP and feature="U01:NN") return 1 else return 0

funcXY = if (output = O and feature="U01:NN") return 1 else return 0. 模板生成的特征函数个数

等于 (L * N),其中 L 是输出的数量

为什么 Unigram 特征有很多行,它们是什么意思?

0 投票
1 回答
1700 浏览

linux - 如何让 CRFSuite 在 Mac OS X 上运行?

我试图让CRFSuite在 Mac OS X 上工作。作者只有 Windows 和 Linux 的二进制文件,但确实提供了源包。我猜我需要以某种方式将源代码编译成 Mac OS X 可执行文件?这我不知道该怎么做。我对此进行了一些研究,但实际上没有任何效果。我还专门问了一个大学的博士生这个问题——他告诉我这将是非常困难的。

我已经能够通过使用 WineSkin 让 CRFSuite 工作,但这是一种解决方法,而不是真正的解决方案。

理想情况下,当我打开终端时,我应该能够通过键入“crfsuite”来调用 CRFSuite,而不是跳过箍将命令传送到 WineSkin Windows 终端。

0 投票
1 回答
228 浏览

machine-learning - 训练序列长度为 1 的条件随机场是否只是 Maxent 模型?

我正在尝试执行一个分类程序,我的训练数据如下所示:

(状态,(feature_1,feature_2,feature_3,...,feature_n))

因此,给定一组特征,我需要预测这些特征最可能对应的状态/标签/类别。

我设置了很好的CRFSuite模型,可以非常快速地制作 CRF,但是 CRF 真的非常适合这种学习吗?我过去使用 CRF 来处理状态序列,即第 n 个状态的标签也可能取决于之前的 $n-1 个状态的标签/特征。例如,下面是一个训练序列,我用它来尝试在给定成人 IPA 转录的情况下预测孩子的语音输出:

CRF 对这些数据有意义,因为音韵学/语音学非常有规律——选择什么声音会极大地影响未来的声音选择,例如元音后面可能会跟着一个辅音而不是另一个元音。

我(相信)理解 CRF 实际上只是 Maxent 模型的顺序形式。因此,如果我所有的训练序列总是长度为 1 美元,那么我基本上只有一个称为 CRF 的 Maxent 模型吗?

这个问题CRF for named entity recognition使用 CRF for named entity recognition 解决,但我猜它使用状态序列?

0 投票
1 回答
531 浏览

algorithm - 如何训练线性链 CRF?

我想做一个简单的线性链CRF。我正在寻找一些期刊,要求我从我的项目中制作一些功能。该功能如:

  1. f1(s, i, li, li-1), = 1 if li = ADVERB 并且第 i 个单词以“-ly”结尾;否则为 0。
  2. f2(s, i, li, li-1), = 1 if i=1, li= VERB, 句子以问号结尾;0 否则
  3. ETC

s=句子;i=词的位置;li=当前单词的标签;和 li-1=前一个单词的标签。

我的项目是 POS 标记到印度尼西亚句子。如何从该功能计算重量?

0 投票
3 回答
3260 浏览

machine-learning - 我可以在 crf 模型中使用数值特征吗

在 crf 模型中添加数字特征是否可能/很好?例如序列中的位置。

我正在使用CRFsuite。似乎所有特征都将转换为字符串,例如'pos = 0','pos = 1',然后失去它作为欧几里得距离的含义。

或者我应该使用它们来训练另一个模型,例如 svm,然后与 crf 模型集成?

0 投票
0 回答
64 浏览

java - CRF 中的 ClassNotFoundException

我已经从这个链接http://sourceforge.net/projects/crf/下载了 CRF 包。不幸的是,当我运行它时,我遇到了这个错误。我试图更改类路径,但它仍然无法正常工作。

错误:

0 投票
1 回答
546 浏览

nlp - CRF++ 中的用户定义特征

我尝试向 CRF++ 模板添加更多功能。

根据How can I tell CRF++ classifier that a word x is captilized or understand punctuations?

训练样本

特征模板

训练阶段没问题。但我没有得到 crf_test 的输出

如果忽略上面的形状,一切正常。我哪里做错了?

0 投票
0 回答
447 浏览

nlp - 如何在 crfpp 中正确建模特征

好的,下面是模板文件,如果我将每个特征都视为第一个特征(单词),一切正常,但是当我尝试只处理当前单词的形​​状特征时,模型会尽力标记每件事都是PER...

我在crfpp模板上找不到任何详细的描述,但我想我可能弄错了。

对于大写功能,如果我只想对当前单词的信息进行建模而忽略前一个或下一个单词的大写信息,是否可以?

0 投票
1 回答
783 浏览

xml - 转换 XML 以用作命名实体识别 (NER) 的训练集

我想利用我拥有的 XML 形式的结构化信息来为斯坦福 NLP 包训练 CRF 模型。XML 看起来像:

根据http://nlp.stanford.edu/software/crf-faq.shtml#a我可以使用

得到我的代币。但是我如何利用 XML 封装来自动用适当的类标记我的令牌呢?

斯坦福 NLP 包中是否有这样的支持/流程,还是我应该手动编写我的令牌文件(例如使用 XSLT)?

0 投票
0 回答
302 浏览

neural-network - 上下文相关的文本分类(HMM、CRF、ANN 或其他)

我的目标是构建一个文本分类系统,用于理解并可能自动化一种流行的编码工具,该工具在教育中用于对学生论坛消息进行编码。

编码方案有四个代码(T、E、I、R),每个在线论坛消息只能分配一个。这些代码代表了学生学习周期中的一个阶段,并且通过模型理论化,学生的学习经历了反映在他们的信息中的这四个阶段。我们有 1750 条由人类编码员编码的消息,我们希望建立一个模型,可以深入了解每个阶段(T、E、I 和 R)的定义。

我们最初的目标是基于我们认为重要的各种特征构建一个“典型”分类器。但是,我们希望以某种方式包含“线程上下文”,因为答案(及其内容)取决于先前的消息。基本上,我想以某种方式考虑讨论中先前消息的类别以及给定作者的先前消息。像这样的东西:

在此处输入图像描述

现在,我刚刚开始并探索如何建模这个问题的不同想法。我正在考虑以某种方式为此使用隐藏马尔可夫模型,并且想知道我是否走在正确的轨道上?

问题是我们的状态不是未知的,鉴于这是标记的数据集,我们知道状态并希望估计转换和排放概率,然后将它们用于“未知数据”的分类(保留折叠或真正的新消息)

此外,我们对每个状态都有多个观察结果,根据我们将使用的特征,我们可能有大量的文本提取特征

最后,每个状态取决于两个先前的状态:1)线程中先前消息的状态,以及 2)作者的先前状态。我不确定这是否可以以某种方式建模:)

编辑:我已经了解了条件随机场,现在它们似乎更适合这类问题,有什么关于它们的建议吗?:)