问题标签 [crf++]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
crf++ - 如何使用 CRF 创建一个简单的特征来检测句子的情绪?
我想将 CRF 用于句子级别的情感分类(正面或负面)。但是,我不知道如何创建一个非常简单的功能来使用 CRFsuite 或 CRF++ 来检测这一点。尝试了几天,任何人都可以建议如何设计一个简单的功能,我可以以此为起点来了解如何使用这些工具。
谢谢。
crf - crf++中的交叉验证
我想知道如何在 CRF++ 中进行交叉验证。它写在文档中:
如本手册中所述,如何进行交叉验证
crf - 如何制作CRF++的模板文件?
我是 CRF++ 的新手。我正在自学查看其手册: http ://crfpp.googlecode.com/svn/trunk/doc/index.html?source=navbar#templ
而且我不明白这是什么意思:
这是一个描述一元特征的模板。当你给一个
模板“U01:%x[0,1]”,CRF++自动生成一组特征
函数(func1 ... funcN),例如:
func1 = if (output = B-NP and feature="U01:DT") return 1 else return 0
func2 = if (output = I-NP and feature="U01:DT") return 1 else return 0
func3 = if (output = O and feature="U01:DT") return 1 else return 0
.... funcXX = if (output = B-NP and feature="U01:NN") return 1 else return 0
funcXY = if (output = O and feature="U01:NN") return 1 else return 0. 模板生成的特征函数个数
等于 (L * N),其中 L 是输出的数量
为什么 Unigram 特征有很多行,它们是什么意思?
nlp - CRF++ 中的用户定义特征
我尝试向 CRF++ 模板添加更多功能。
根据How can I tell CRF++ classifier that a word x is captilized or understand punctuations?
训练样本
特征模板
训练阶段没问题。但我没有得到 crf_test 的输出
如果忽略上面的形状,一切正常。我哪里做错了?
mallet - Mallet 中 CRF++ 和 SimpleTagger 的功能差异
我正在做一些实验来比较 Mallet 中 CRF++ 和 SimpleTagger 之间的时间性能。但是,运行后,我发现它们之间的精度存在差距,尽管我设置了相同的参数(L2-norm)。我试图通过打印从 CRF++ 和 Mallet 创建的功能来解决这个问题,但我不能用 Mallet 做到这一点。那么,CRF++ 和 Mallet 的功能有什么区别吗?如何打印出 Mallet 创建的功能?
nlp - 如何在 crfpp 中正确建模特征
好的,下面是模板文件,如果我将每个特征都视为第一个特征(单词),一切正常,但是当我尝试只处理当前单词的形状特征时,模型会尽力标记每件事都是PER...
我在crfpp模板上找不到任何详细的描述,但我想我可能弄错了。
对于大写功能,如果我只想对当前单词的信息进行建模而忽略前一个或下一个单词的大写信息,是否可以?
c++ - C++ API 中的 crf++ 详细模式
我正在使用 CRF++ 工具在 C++ 中进行 CRF 解析。在 crf_learn.exe 中,我们可以通过启用详细方法来获得置信度度量。有什么方法可以在 CRF++ 的 C++ API 中启用该详细方法?
提前致谢
python - 如何在使用 crfsuite 时使用先前令牌的实体类作为 NER 的功能
我在 python 中使用 python-crfsuite 包,这是由 Naoaki Okazaki 开发的 CRFSUITE 的实现(http://www.chokkan.org/software/crfsuite/)
我想使用前一个标记的实体类作为特征,这将帮助我识别多词命名实体。我的训练数据示例:
[(Raheja,B-builder),(vista,I-builder),(is,O),(very,O),(着名,O)]
在这里,如果我可以在训练时使用之前的类特征。但是在预测时,我们将特征列表传递给标记器对象。测试时的问题是不知道以前的课程。
谁能告诉我这在 python-crfsuite 中是否可行。我觉得我们将特征传递给标记器对象的方式,是不可能的。
macos - MAC 上的 CRF++-058
我对使用 mac 几乎没有新意,当我尝试从命令行运行工具时遇到了一些问题。我正在尝试运行需要 CRF++ 的软件。这是错误;
我已经在我的机器上安装了 CRF++-058。我使用 brew 来安装 CRF++ 0.58。
这是 brew doctor 的输出
有谁知道如何解决这个问题?任何帮助将非常感激。谢谢
java - 自然语言处理 - 将非结构化书目转换为结构化元数据
目前正在从事一个自然语言处理项目,我需要将非结构化参考书目部分(位于研究文章的末尾)转换为结构化元数据,如“年份”、“作者”、“期刊”、“卷 ID”、“页面”编号”、“标题”等。
例如:输入
预期输出:
使用的工具:CRFsuite
数据集:这包含 12000 个引用
- 包含期刊标题,
- 包含文章标题的话,
- 包含位置名称,
给定行中的每个单词都被视为标记,对于每个标记,我得出以下特征
- BOR 在行首,
- EOR 结束
- digitFeature : 如果令牌是数字
- 年份:如果令牌的年份格式为 19** 和 20**
- 在当前数据集中可用,
从上面的工具和数据集我得到的准确率只有 63.7%。“标题”的准确性非常低,而“年份”和“卷”的准确性很好。
问题:
- 我可以绘制任何附加特征吗?
- 我可以使用任何其他工具吗?