我正在尝试编写一些代码来打开文件夹中的所有数据文件,应用一个函数(或一组函数)来提取我感兴趣的数据。到现在为止还挺好。问题是我想使用文件名的一个元素重新命名我从每个文件中提取的列之一,我很难弄清楚如何提取它。
我有一堆名为“YYYY-MM-DD geneName data copy.txt”的文件,想提取文件名的“geneName”部分。(例如,我有“2012-05-31 PMA1 data copy.txt”。)
日期格式始终相同(YYYY-MM-DD),所有文件名都以“data copy.txt”结尾。
此外,一些文件名在日期和基因名称之间的文件名中具有附加的实验注释(“E(数字)”或“扩展(数字)”)(例如,“2012-05-21 E7 PMA1 数据复制.txt"); 其他人在geneName和“data copy.txt”之间有“SDM”。
这是一些文件名和我想要的输出的列表:
- 2012-05-31 CTN1数据copy.txt(我要“CTN1”)
- 2012-05-21 E7 PMA1 数据copy.txt(想要“PMA1”)
- 2011-11-29 TDH3 SDM 数据copy.txt(想要“TDH3”)
- 2012-01-04 POX1 数据 copy.txt(想要“POX1”)
关于如何在不必手动从某些文件中删除实验编号或“SDM”的情况下如何做到这一点的任何想法?
谢谢!