0

我需要在 HTML 文档中标记部分文本。但是,它主要由日期、公司名称、地址等形式的文本组成。我计划使用 CRF (sklearn-crfsuite)

我的问题是很难将数据集分成句子。我们能否训练一个没有句子边界的 CRF 模型,将所有内容都视为一个序列?CRFSuite 或 sklearn-crfsuite 中的教程没有讨论这个。

如果没有句子分割就无法完成,关于如何将这些文本分成句子的任何提示?

数据是这样的:(我不能分享实际数据) 在此处输入图像描述

4

1 回答 1

0

是的,您可以在不将输入序列划分为句子的情况下进行训练 - 只需对所有内容使用大序列即可。例如,https://github.com/scrapinghub/webstruct为 HTML 页面执行此操作。

在句子中拆分序列提供了额外的信息(硬边界),但 CRF 可以在没有它的情况下工作。另请参阅:https ://stats.stackexchange.com/questions/197291/sequence-length-when-training-a-conditional-random-field-crf 。

于 2017-10-16T08:16:01.343 回答