machine-learning - 训练没有句子边界的 CRF

Question

我需要在 HTML 文档中标记部分文本。但是，它主要由日期、公司名称、地址等形式的文本组成。我计划使用 CRF (sklearn-crfsuite)

我的问题是很难将数据集分成句子。我们能否训练一个没有句子边界的 CRF 模型，将所有内容都视为一个序列？CRFSuite 或 sklearn-crfsuite 中的教程没有讨论这个。

如果没有句子分割就无法完成，关于如何将这些文本分成句子的任何提示？

数据是这样的：（我不能分享实际数据）

score 0 · Accepted Answer

是的，您可以在不将输入序列划分为句子的情况下进行训练 - 只需对所有内容使用大序列即可。例如，https://github.com/scrapinghub/webstruct为 HTML 页面执行此操作。

在句子中拆分序列提供了额外的信息（硬边界），但 CRF 可以在没有它的情况下工作。另请参阅：https ://stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf 。

machine-learning - 训练没有句子边界的 CRF

1 回答 1

Related

Reference