我需要找到最好的方法来匹配来自 CSV 或文本文件的符号、字母和数字的精确模式组合与非常非结构化的数据集。
我需要准确地提取模式“<code>BR1*********”(BR1
+ 正好 9 位),它位于行 :61: 的中间以及模式“<code>?54** *”(?54
+ 正好 3 位数字),它始终位于行 :61: 的末尾。
两种模式都是重复的,但数字组合不同。
我已经尝试过grep
,grepl
但到目前为止没有成功。结果,我总是收到整行,其中该模式近似匹配,但符号和数字不完全匹配。
以下是数据集的一小部分:
:11:hgttu6576575?//80&&80980jhkhkhlkhkh gjdggfjsdf?kjhkuhsfk778798978**&
:27:jhkjhuiy867tjhfsh/.>?kjklh8ggdhkotrdkhofkhodkgj
:61:kjljlkfjsdlBR1678899458iyuyugug7787?>?///uhhiuyi
jhkhkjhiy878697y8hukjlu97 ??///khiuy8oujhuhijk?54160
:11:hgggdgf79878yiuhlkhkh gjdggfhuihiuhuiou89 ioiojsdf?kjhkuhsfk778798978**&
:27:jhkjhuiy867tjhfsh/.>?kjklh8ggdhkotrdkhofkhodkgj
:61:kjljlkfjsdlBR1234885765iyuyugug7787?>?///uhhiuyi
jhkhkjhiy878697y8hukjlu97 ??///khiuy8oujhuhijk?54190