3

我需要提取文本中用文字或数字书写的数字。

我有一张看起来像这样的桌子,

... 1 child ...
... three children ... 
...four children ...    
...2 children...
...five children

我想捕捉一个用文字或数字写成的数字。每行有一个数字。所以所需的输出将是:

1
three
four
2
five

我的正则表达式看起来像这样:

prxparse("/one|two|three|four|five|six|seven|eight|nine|ten|eleven|twelve|thirteen|child|\d\d?/")

有什么帮助吗?

4

1 回答 1

6

描述

此正则表达式将匹配字符串中的数字,前提是数字被空格或符号包围。

(?<=\s|^)(?:[0-9]+|one|two|three|four|five|six|seven|eight|nine|ten)(?=\s|$)

在此处输入图像描述

现场示例:http ://www.rubular.com/r/6ua7fTb8IS

要包含一到十之外的数字的拼写单词版本,您需要包含这些数字。此正则表达式将捕获从零到一百的数字 [排除任何错别字]

(?<=\s|^)(?:[0-9]+|(?:(?:twenty|thirty|forty|fifty|sixty|seventy|eighty|ninety)\s)?(?:one(?:[\s-]hundred)?|two|three|four|five|six|seven|eight|nine)|ten|eleven|twelve|(?:thir|four|fif|six|seven|eight|nine)teen|twenty|thirty|forty|fifty|sixty|seventy|eighty|ninety|zero)(?=\s|$)

在此处输入图像描述

现场示例:http ://www.rubular.com/r/EIa18nx731

Perl 示例

 $string = <<END;
 ... 1 child ...
 ... three children ... 
 ... four children ...    
 ... 2 children...
 ... five children
END
@matches = $string =~ m/(?<=\s|^)[0-9]+|one|two|three|four|five|six|seven|eight|nine|ten(?=\s|$)/gi;
    print join("\n", @matches);

产量

1
three
four
2
five
于 2013-06-12T16:20:03.007 回答