问题标签 [crf++]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 如何将地名词典或字典表示为 crf++ 中的特征?
如何使用地名词典或词典作为CRF++中的功能?
详细说明:假设我想对人名进行 NER,并且我有一个包含常见人名的地名词典(或字典),我想使用这个地名词典作为 crf++ 的输入,我该怎么做?
我正在使用条件随机字段包 crf++ 来执行命名实体识别任务。我知道如何在 crf++ 中表示一些常用的特性。例如,如果我们想使用大写作为特征,我们可以在 crf 的特征模板中添加一个单独的列,指示单词是否大写。
crf++ - crf++中文单字标记和多字标记有什么区别?
我使用crf++进行中文命名实体识别。train文件中的第一列是token代表当前单词。我看到有人在第一列只使用一个汉字,但有人使用了很多汉字,比如中国。
nlp - 如何在 CRF++ 中使用目标标签作为特征?
我正在尝试构建一个中文分词器作为本文。如果我理解正确,他们会使用带有 CRF++ 的 2-tag 分割方法。我的问题是,如何将该论文中的标签转换(例如T(-1)C(0)T(0))作为CRF ++中的特征模板?例如,对于这样的训练数据:
共乙
同美
创 B
造M
美 B <- 当前单词
好男
的乙
新乙
世乙
纪 M
CRF++中是否有可能有特征T(-1)C(0)T(0) -> M/美/B?我尝试添加功能模板,例如 U01:%x[-1,1]/%x[0,0]/%x[0,1] 但失败了。我也很困惑,既然 B/I 标记是我们要在测试数据中标记的标记(例如原始中文句子),为什么可以将标记用作论文中的特征?还是我误解了什么?
python - 将 CRF++ 工具绑定到 python
我已经使用 CRF++ 工具为自然语言处理构建了一个程序,现在我想将该代码的输出提供给 python。我怎样才能做到这一点?请帮忙...
stanford-nlp - 制作斯坦福 Ner CRF 训练数据的约定
我必须制作一个很好的基于 NER CRF 的模型。我的目标是一个广阔的领域,我的目标类总数是 17 个。我还制作了一组很好的功能集(austen.prop),通过大量实验应该对我有用。NER没有产生好的结果。我需要知道NER 的局限性,它是基于训练数据大小等上下文的 CRF。
我进行了很多搜索,但直到现在我都找不到在制作训练数据时应该遵循的约定。
(注意:我完全知道如何制作模型和使用它,我只需要知道是否有任何约定,每个目标类应该存在一定比例等)
如果有人能指导我,我会很感激你。
machine-learning - 使用条件随机场进行序列学习?
我是顺序学习(和机器学习)的新手,我正在尝试了解如何使用条件随机场来解决我的问题。
我有一个数据集,它是我的应用程序的最终用户何时何地工作的顺序日志。例如,以下数据集将只有 User1 的值
我正在尝试解决以下问题:给定用户工作的工作日和设施,他们接下来将在哪个设施和工作日工作?
为了解决这个问题,我开始研究 Conditional Random Fields,但是对于任何库都很难使用它。
我尝试使用以下库: 1. PyStruct ( https://pystruct.github.io/ ) 但由于这个问题,这对我不起作用:Index out of bounds: Fitting SSVM using Pystruct
- CRFSuite(http://www.chokkan.org/software/crfsuite/)(这依赖于 libBFGS。当我在我的 ubuntu 机器上安装 libbfgs 时没有任何错误,为 CRFSuite 运行“make install”仍然失败并说它无法识别 libBFGS)
所以我转向另一个图书馆.. 3. CRF++ ( https://taku910.github.io/crfpp/ )
我能够安装 CRF++ 并且还能够运行他们发行版中给出的示例。但是,我需要一些帮助来了解如何修改模板文件以适合我的用例......
另外,我在想我的标签将是来自上述数据集的设施+工作日的串联字符串。
我是序列学习的新手,目前正在努力研究如何解决这个问题......
任何建议都会非常有帮助,因为我似乎有点卡在这里..
谢谢!
visual-studio-2013 - 请告诉我在 Visual Studio 2013 上使用 CRF++ 的方法
请告诉我在 Visual Studio 2013 上使用 CRF++ 的方法。
操作系统:Windows 7 64 位
开发工具包:Visual Studio 2013
如何在 Visual Studio 2013 上使用 CRF++-0.54?
machine-learning - CRF(条件随机场)可以用来标记整个句子吗?
我正在尝试使用机器学习来标记句子(每个句子都有一个标签,我假设句子是相互独立的)。我认为线性 CRF 模型适用于这种情况,但我有一些问题。
我尝试使用CRF++(我看到的其他实现似乎有类比格式)。它使用句子作为输入,但输出标签分配给每个标记。如何为整个句子使用单个标签?(我想到的技巧是在测试数据中分配一个重要的标签,并将其视为整个句子的输出标签。)
如何使用不同长度的句子?训练配置需要指定在分析当前令牌时要考虑哪些令牌。但是一个句子可以有大量或少量的标记,我想使用一个句子中的所有标记(不是更多或更少),以利用整个信息。
从这个问题看来,我正在尝试做的事情是可能的(整个序列的单个标签),但我不知道如何为此格式化训练数据。
file-writing - 如何将 CRF++ 工具的结果写入文件
我正在使用 CRF++。以下命令用于测试:-
没有将结果写入文件的选项。虽然我们需要单独文件的结果。