我有 MS Word 中的数据副本,想读入一个名为 R 的统计程序。问题是这些文档包含特殊字符(不是纯文本)。我处理它们的过程是将它们分到 MS Word/保存为 txt 文档/读入 MS Excel(使用导入向导为人员和对话创建一列)/转换为 .csv/读入 R。这过程有效,但耗时。我发现了如何将带有特殊字符的文本直接读入 R(R 通常需要纯文本),但这需要文档位于 excel 文档中。这是可取的,因为如果我可以将特殊字符读入 R,那么一次删除所有特殊字符是相当简单的。出现问题是因为我无法将 MS Word 文档直接导入 Excel。我必须先将其保存为文本文件(我没有 不介意)然后读进去。这会将特殊字符变成方框和问号。我需要将 MS Word 文档作为具有 2 列(人物、对话)的数据框导入 Excel,而不会破坏特殊字符(“、”、-、“、”、……等)。
我可以通过在 Word 中用替换替换来做到这一点,但如果我能把它放到 Excel 中,在 R 中这样做会容易得多。
这是我的数据的示例 MS Word 文档(制表符分隔的列)
https://dl.dropbox.com/u/61803503/TEST.doc
Win 7 计算机上的 Excel 和 Word 版本 2010。