0

我想创建一个可以自动解析一些文本的工具。我正在使用 javascript 和正则表达式。

例如,我有这样的文字:

Aa Aaa 1, Bb Bbb 2  and Cc Ccc 1
1 Institut xx Xx, Some University, Xxxx 14, US-10000 NewYork, USA; E-Mails: aa.aaa@edu.com; cc.ccc@edu.com
2 Institut zz Zzz, Some University2, Zzzz 20, US-10000 NewYork, USA; E-Mail: bb.bbb@edu.com

我想解析这些信息

对于每个作者(名字和姓氏):

  • 隶属关系
  • 电子邮件地址

所以在我的例子中,我想要:

Aa Aaa - Institut xx Xx, Some University, Xxxx 14, US-10000 NewYork, USA - aa.aaa@edu.com

Bb Bbb - Institut zz Zzz, Some University2, Zzzz 20, US-10000 NewYork, USA - bb.bbb@edu.com

Cc Ccc - Institut xx Xx, Some University, Xxxx 14, US-10000 NewYork, USA - cc.ccc@edu.com

它看起来很复杂,所以如果我认为我应该将我的问题分成几个更简单的问题,请告诉我。

谢谢你。

4

1 回答 1

1

这是可行的任务。

我不会用 JavaScript 编写代码,但我希望 SO 中的某个人会为您克隆以下 Perl 代码:

$_ = "\n\n" . $input;
1 while s/^(.*?\n?)\n{1,2}\s*([^\d]+)\s+(\d+)\s*?(?:\s*and|[,\n\s])(.*?)(?<=\n)(\3\s+)([^\n]*)(\n.*$|$)/$1$2 - $6\n\n$4$5$6$7/gs;
s/\n\n.*$//s;
print $_;

在此处查看并测试 Perl 代码。

于 2012-06-29T14:46:44.013 回答