我有一个字符串向量,每个字符串都包含一个或多个作者的姓氏和名字。我想提取每个字符串中每个作者的姓氏。我所知道的是,首先出现的名字总是作者(第一作者)的姓氏,而其他作者的姓氏是介于 a;
和 a之间的所有内容,
。例如,在以下字符串中:
tutu <- "goulenok, tiphaine miquel; meune, christophe; gossec, laure; dougados, maxime; kahan, andre; allanore, yannick"
我想提取:
"goulenok" "meune" "gossec" "dougados" "kahan" "allanore"
姓氏可以包含标点符号,例如'
or-
但总是在 a;
和 a之间,
任何的想法?