9

什么是条件随机场条件随机字段究竟如何将专有名称识别为结构化或非结构化文本中的人、组织或地点?

例如:此产品由 StackOverFlow Inc. 订购。

条件随机场如何将 StackOverFlow Inc. 识别为一个组织?

4

2 回答 2

17

CRF 是一种判别性、批处理、标记模型,与最大熵马尔可夫模型属于同一族。

完整的解释是书本长度。

简要说明如下:

  1. 人类注释 200-500K 字的文本,标记实体。
  2. 人类选择一组他们希望指示实体的特征。诸如大小写之类的事情,或者该词是否在带有标签的训练集中被看到。
  3. 训练过程计算所有出现的特征。
  4. CRF 算法的核心是搜索适合计数的所有可能模型的空间,以找到一个非常好的模型。
  5. 在运行时,解码器(可能是维特比解码器)查看一个句子并决定为每个单词分配什么标签。

其中最难的部分是特征选择和步骤 4 中的搜索算法。

于 2009-12-27T12:49:28.233 回答
1

很好理解,你必须学习很多东西。
开始

了解马尔可夫和贝叶斯网络的基础知识。
daphne coller 在 coursera 中提供在线课程
https://class.coursera.org/pgm/lecture/index

CRF 是一种特殊类型的马尔可夫网络,我们有观察和隐藏状态。
目标是为未观察到的变量找到最佳状态分配,也称为 MAP 问题。
为大量概率和优化做好准备。:-)

于 2015-04-27T18:31:30.780 回答