根据我从 jcrfsuite 示例中给出的 POS 标记示例的理解。训练文件是制表符分隔的,第一个标记是标签。但我没有得到 BigCluster| 事物。有人可以帮助我如何在训练文件中指定令牌。
下面的例子:
O BigCluster|00 BigCluster|0000 BigCluster|000000 BigCluster|00000000 BigCluster|0000000000 BigCluster|000000000000 BigCluster|00000000000000 BigCluster|0000000000000000 NextBigCluster|0100 NextBigCluster|01000101 NextBigCluster|010001011111 POSTagDict|D POSTagDict|N POSTagDict|^ POSTagDict|$ POSTagDict|G NextPOSTag |V 1gramSuff|i 1gramPref|i prevword| prevcurr||i nextword|predict nextword|predict currnext|i|predict Word|I Lower|i Xxdshape|X charclass|1, first-shortcap prevnext||predict t=0
测试文件格式:
!BigCluster | 01 BigCluster | 0110 BigCluster | 011011 BigCluster | 01101100 BigCluster | 0110110011 BigCluster | 011011001100 BigCluster | 01101100110011001100110011100110011110011001111111110011001100110011000000 NextBigCluster | 1000 NextBigCluster | 1000100010001000100010001000 | 10001000 | 1000年| 10001000 | 1000年| 10001000年| 1000年| 1000年| 1000年| 1000年; mnn 4gramSuff|mmnn 5gramSuff|mmmnn 6gramSuff|ammmnn 7gramSuff|aammmnn 8gramSuff|aaammmnn 9gramSuff|daaammmnn 1gramPref|d 2gramPref|da 3gramPref|daa 4gramPref|daaa 5gramPref|daaam 6gramPref|daaamm 7gramPref|daaammm|daaammm 8gramPref|daammn 预置词 prevcurr||daaammmnn nextword|。下一个字|。当前下一个|daaammmnn|。Word|Daaammmnn Lower|daaammmnn Xxdshape|Xxxxxxxxx charclass|1,2,2,2,2,2,2,2,2, first-initcap prevnext||. t=0