我使用了 Solomon Messing 的教程(见下面的链接),了解如何将数据从 CAT 导出到 R 并取得了巨大成功。然而,当只有 3/4 的编码人员完成了对数据集的编码时,我遇到了问题。即使我删除了所有编码人员尚未编码的那些文档,R 似乎也无法解析 XML 文件。我的猜测是,来自 CAT 的 XML 文件是为初始数量的文档和编码器设置的,因此当文档和编码器被删除时,R 脚本不再兼容。有没有办法修改 XML 文件,甚至删除某些编码人员的编码?控制台输出如下所示:(当所有编码人员都完成编码时,我对奇数字符没有任何问题。)
doc <- xmlInternalTreeParse(doc, asText=T)
xmlParseCharRef:无效的 xmlChar 值 0
xmlParseCharRef:无效的 xmlChar 值 0
xmlParseCharRef:无效的 xmlChar 值 0
xmlParseCharRef:无效的 xmlChar 值 0
错误:1:xmlParseCharRef:无效的 xmlChar 值 0
2: xmlParseCharRef: 无效的 xmlChar 值 0
3: xmlParseCharRef: 无效的 xmlChar 值 0
4: xmlParseCharRef: 无效的 xmlChar 值 0
5: xmlParseCharRef: 无效的 xmlChar 值 0
6: xmlParseCharRef: 无效的 xmlChar 值 0
http://solomonmessing.wordpress.com/2013/02/04/cat-r-for-content-analysislabels-for-text-mining/