我有一个类似于以下的数据集 - 我对正则表达式非常生疏,尽管尝试了几次微不足道的尝试,但我对“走树”一无所知 - 由于各种术语类/标签的 asinine 组织,Excel 中的文本到列没有帮助在 EFFECT_DATA 字段和手动调整引入的错误。
样本数据
ROW_ID|NAME | UNORDERED_CSV_CONCATD_TAG_DATA_STRING
123456|Prod123|"Minoxidistuff [MoA], Direct [PE], Agonists [EPC]"
123457|Prod124|"Minoxion [Chem], InterferonA [EPC], Delayed [PE]"
123458|Prod125|"Anotherion [EPC], Direct [MoA], Agonists [EPC]"
123459|Prod126|"Competitor [PE], Progestin [EPC], Agonists [EPC]"
123460|Prod127|"Minoxidistuff [Chem]"
采样所需的数据输出:
PRODUCT|EPC |
Prod125|Antherion|
Prod125|Agonists |
PRODUCT|CMPD |
Prod127|Minoxidistuff|
Prod124|Minoxion |
如果有意义的话,对于 product[i]tag[j] 的所有标签等,基本上是 ea。CSVD_TAG_DATA 字段无序并包含多个标签(位于所需术语的末尾。
我开始只是一种多维散列方法,即原谅我被屠杀的正则表达式伪代码。
非常感谢。