我认为这是一个相当不寻常的问题,因为我在任何地方都找不到任何答案。我有大约 100000 个 word 文档(即临床报告字母 - 所以它们都是自由文本,带有逗号、格式等),它们都存储在同一个文件夹中。我希望将它们合并到一个电子表格中(最好是 .csv),以便每个 .doc 占据 .csv 的一行。
为了使问题复杂化,每个 .doc 的前 6 个字符包括每个文件的 ID 号(即 '123456report.doc' - 'report' 名称也可能具有可变长度和字符:即 '123456John Smith report.doc' 或'123457Jack Ryan Rep 01 01 2013.doc')。最初我将 .doc 存储在包含 ID 号的单个文件夹中(实际上它是一个子文件夹系统,文件夹名称的串联给出了 .doc 的 ID 号,然后我设法将其添加到文件名中) -让我知道这是否有用,我可以更详细地解释)。
因此,.csv 我需要的最终结构是:
ID, Clinical report
123456, clinical text in document 123456report1.doc
123457, clinical text in document 123457report2.doc
123458, clinical text in document 123458report3.doc
...
请注意,该 ID 可能会在数据表中重复(即,如果对一名患者进行多次检查,则为一名患者发布多份报告),并且允许我将该 ID 与包含其他数据的其他电子表格交叉引用,这是必不可少的。
我不确定这是否简单(我想可能不是),但我不知道从哪里开始。我什至不确定实现这一目标的最佳环境,所以任何提示将不胜感激!即使这包括购买一些专门为此类任务设计的软件。
非常感谢,马可