3

我正在处理非正式编写的文本语料库,但通常按照惯例符合非常标准的格式(想想像Froyo Frozen YogurtSmucker's Peanut Butter 之类的东西),并且偶尔需要递归(Froyo Frozen Yogurt with Smucker's Peanut Butter)。

使用正则表达式,复杂性很快就会失控( Froyo 的 Frozen Yogurt ,Smucker's 的Froyo Froyo Frozen Yogurt with Peanut Butter等)。

我很难找到资源来帮助我为此编写 EBNF,而且 NLP 方法太复杂(加上我的“词性”并不真正对应于普通英语)。是否有针对半正式文本的中间方法?

4

1 回答 1

0

You could build a cheap and simple EBNF "into" your favorite programming language, e.g: (pseudocode, let's imagine these variables represent regexes)

var digit_excluding_zero = "1|2|3|4|5|6|7|8|9";
var digit = "0|" + digit excluding zero;

(this is the first example from the EBNF Wikipedia page)

于 2012-07-18T09:47:53.457 回答