我正在处理非正式编写的文本语料库,但通常按照惯例符合非常标准的格式(想想像Froyo Frozen Yogurt,Smucker's Peanut Butter 之类的东西),并且偶尔需要递归(Froyo Frozen Yogurt with Smucker's Peanut Butter)。
使用正则表达式,复杂性很快就会失控( Froyo 的 Frozen Yogurt ,Smucker's 的Froyo Froyo Frozen Yogurt with Peanut Butter等)。
我很难找到资源来帮助我为此编写 EBNF,而且 NLP 方法太复杂(加上我的“词性”并不真正对应于普通英语)。是否有针对半正式文本的中间方法?