我有一个大约 250000 条酒店评论的评论数据集,我计划使用 crfsharp dll 从中提取方面,但是我拥有的数据是普通文本段落形式,我需要将其转换为 crfsharp 的格式所以我可以训练和测试数据以提取方面。那么有人可以告诉我什么是最好的方法,我正在考虑编写一个用于数据格式转换的小程序。我想知道的另一件事是 CRF sharp 是否可以使用它拥有的 crf 模型进行方面提取?我正在使用 c#。
问问题
411 次
1 回答
0
您将在任务中使用哪些功能和标签?有一个最简单的例子。一句话“!东京和纽约是主要的金融中心”。如果您想从中提取位置名称并且您唯一的特征是令牌字符串,您可以生成训练语料库,如下所示:
!NOR Tokyo LOCATION 和 NOR New LOCATION York LOCATION 是 NOR 主要的 NOR 金融 NOR 中心 NOR。也不
第一列是句子的术语,第二列是对应的标签。NOR 表示普通术语,LOCATION 表示位置名称。您可以生成上述格式的训练语料库并使用 CRFSharp 训练模型。
更复杂的例子,比如更多的特征,模板,在标签中添加单词位置,你可以参考CRFSharp主页(http://crfsharp.codeplex.com)中的另一个例子。
于 2014-03-24T02:43:34.467 回答