问题标签 [crf++]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1495 浏览

nlp - 如何将地名词典或字典表示为 crf++ 中的特征?

如何使用地名词典或词典作为CRF++中的功能?

详细说明:假设我想对人名进行 NER,并且我有一个包含常见人名的地名词典(或字典),我想使用这个地名词典作为 crf++ 的输入,我该怎么做?

我正在使用条件随机字段包 crf++ 来执行命名实体识别任务。我知道如何在 crf++ 中表示一些常用的特性。例如,如果我们想使用大写作为特征,我们可以在 crf 的特征模板中添加一个单独的列,指示单词是否大写。

0 投票
1 回答
55 浏览

crf++ - crf++中文单字标记和多字标记有什么区别?

我使用crf++进行中文命名实体识别。train文件中的第一列是token代表当前单词。我看到有人在第一列只使用一个汉字,但有人使用了很多汉字,比如中国。

0 投票
1 回答
307 浏览

nlp - 如何在 CRF++ 中使用目标标签作为特征?

我正在尝试构建一个中文分词器作为本文。如果我理解正确,他们会使用带有 CRF++ 的 2-tag 分割方法。我的问题是,如何将该论文中的标签转换(例如T(-1)C(0)T(0))作为CRF ++中的特征模板?例如,对于这样的训练数据:

共乙

同美

创 B

造M

美 B <- 当前单词

好男

的乙

新乙

世乙

纪 M

CRF++中是否有可能有特征T(-1)C(0)T(0) -> M/美/B?我尝试添加功能模板,例如 U01:%x[-1,1]/%x[0,0]/%x[0,1] 但失败了。我也很困惑,既然 B/I 标记是我们要在测试数据中标记的标记(例如原始中文句子),为什么可以将标记用作论文中的特征?还是我误解了什么?

0 投票
0 回答
377 浏览

python - 将 CRF++ 工具绑定到 python

我已经使用 CRF++ 工具为自然语言处理构建了一个程序,现在我想将该代码的输出提供给 python。我怎样才能做到这一点?请帮忙...

0 投票
1 回答
136 浏览

stanford-nlp - 制作斯坦福 Ner CRF 训练数据的约定

我必须制作一个很好的基于 NER CRF 的模型。我的目标是一个广阔的领域,我的目标类总数是 17 个。我还制作了一组很好的功能集(austen.prop),通过大量实验应该对我有用。NER没有产生好的结果。我需要知道NER 的局限性,它是基于训练数据大小等上下文的 CRF。

我进行了很多搜索,但直到现在我都找不到在制作训练数据时应该遵循的约定。

(注意:我完全知道如何制作模型和使用它,我只需要知道是否有任何约定,每个目标类应该存在一定比例等)

如果有人能指导我,我会很感激你。

0 投票
0 回答
296 浏览

stanford-nlp - 斯坦福 NER 公报

我正在按照此链接中给出的约定制作我自己的基于 CRF 的斯坦福 NER 模型。

我想添加公报并从同一链接关注此内容。我提到了我所有的 Gazettes 都使用了这个属性,gazette=file1.txt;file2.txt并且还在 austen.prop 中提到了useGazettes =true。在我从公报中测试数据时制作模型后,它没有正确标记。我在文件中提到的标签不正确。这些结果对我来说有点令人惊讶,因为斯坦福 NER 没有给它们提供与这些文件中提到的相同的标签。

斯坦福 NER 的公报是否有一些限制,或者我仍然遗漏了什么?如果有人可以帮助我,我会很感激你。

0 投票
1 回答
565 浏览

machine-learning - 使用条件随机场进行序列学习?

我是顺序学习(和机器学习)的新手,我正在尝试了解如何使用条件随机场来解决我的问题。

我有一个数据集,它是我的应用程序的最终用户何时何地工作的顺序日志。例如,以下数据集将只有 User1 的值

我正在尝试解决以下问题:给定用户工作的工作日和设施,他们接下来将在哪个设施和工作日工作?

为了解决这个问题,我开始研究 Conditional Random Fields,但是对于任何库都很难使用它。

我尝试使用以下库: 1. PyStruct ( https://pystruct.github.io/ ) 但由于这个问题,这对我不起作用:Index out of bounds: Fitting SSVM using Pystruct

  1. CRFSuite(http://www.chokkan.org/software/crfsuite/)(这依赖于 libBFGS。当我在我的 ubuntu 机器上安装 libbfgs 时没有任何错误,为 CRFSuite 运行“make install”仍然失败并说它无法识别 libBFGS)

所以我转向另一个图书馆.. 3. CRF++ ( https://taku910.github.io/crfpp/ )

我能够安装 CRF++ 并且还能够运行他们发行版中给出的示例。但是,我需要一些帮助来了解如何修改模板文件以适合我的用例......

另外,我在想我的标签将是来自上述数据集的设施+工作日的串联字符串。

我是序列学习的新手,目前正在努力研究如何解决这个问题......

任何建议都会非常有帮助,因为我似乎有点卡在这里..

谢谢!

0 投票
0 回答
158 浏览

visual-studio-2013 - 请告诉我在 Visual Studio 2013 上使用 CRF++ 的方法

请告诉我在 Visual Studio 2013 上使用 CRF++ 的方法。

操作系统:Windows 7 64 位

开发工具包:Visual Studio 2013

如何在 Visual Studio 2013 上使用 CRF++-0.54?

0 投票
2 回答
556 浏览

machine-learning - CRF(条件随机场)可以用来标记整个句子吗?

我正在尝试使用机器学习来标记句子(每个句子都有一个标签,我假设句子是相互独立的)。我认为线性 CRF 模型适用于这种情况,但我有一些问题。

我尝试使用CRF++(我看到的其他实现似乎有类比格式)。它使用句子作为输入,但输出标签分配给每个标记。如何为整个句子使用单个标签?(我想到的技巧是在测试数据中分配一个重要的标签,并将其视为整个句子的输出标签。)

如何使用不同长度的句子?训练配置需要指定在分析当前令牌时要考虑哪些令牌。但是一个句子可以有大量或少量的标记,我想使用一个句子中的所有标记(不是更多或更少),以利用整个信息。

这个问题看来,我正在尝试做的事情是可能的(整个序列的单个标签),但我不知道如何为此格式化训练数据。

0 投票
1 回答
173 浏览

file-writing - 如何将 CRF++ 工具的结果写入文件

我正在使用 CRF++。以下命令用于测试:-

没有将结果写入文件的选项。虽然我们需要单独文件的结果。