0

我得到了一个用一种元语言编写的文件,它描述了验证某些数据所需的过程。我需要生成验证函数来验证数据。数据已经存储在结构中

我做的步骤:

  1. 使用 char like(' . , ; == >= ) 将文本拆分为字符串 []
  2. 删除冠词、介词...
  3. 规范化文本(如何?)
  4. 使用正则表达式或文本匹配将单词与标记匹配
  5. 使用 Token 类型匹配模式
  6. 根据匹配模式规则生成函数


您将在第 3 步或一般情况下使用什么来改进此过程?

4

1 回答 1

0

正如wiki所引用的,正则表达式是实现“文本规范化”的技术之一:

对于简单的、与上下文无关的规范化,例如删除非字母数字字符或变音符号,正则表达式就足够了。例如,sed 脚本 sed -e "s/\s+/ /g" 输入文件会将空白字符的运行规范化为单个空格。更复杂的规范化需要相应复杂的算法,包括被规范化的语言和词汇的领域知识。在其他方法中,文本规范化已被建模为对文本流进行标记和标记的问题[5],以及机器翻译的一个特例。 [6][7]

在我看来,数据涉及语言注释。您可以查看IMS Open Corpus Workbench (CWB)等工具。此外,还有另一个站点(带有示例代码)可能对您有用:什么是文本规范化?.

于 2016-03-17T20:35:06.250 回答