0

我在将正则表达式应用于Split()HuggingFace 库中的操作时遇到问题。库请求以下输入Split()

pattern (str or Regex) -- 用于分割字符串的模式。通常是一个 string或一个Regex

在我的代码中,我正在应用这样的Split()操作:

tokenizer.pre_tokenizer = Split(pattern="[A-Z]+", behavior='isolated')

但它不起作用,因为[A-Z]+它被解释为字符串而不是正则表达式。我使用以下方法无济于事:

pattern = re.compile("[A-Z]+")
tokenizer.pre_tokenizer = Split(pattern=pattern, behavior='isolated')

收到以下错误:

TypeError: 无法将 re.compile('[AZ]+') (re.Pattern) 转换为 Union[str, tokenizers.Regex]

4

1 回答 1

1

以下解决方案通过Regex从 tokenizers 库导入来工作:

from tokenizers import Regex

tokenizer.pre_tokenizer = Split(pattern=Regex("[A-Z]+"),
                                behavior='isolated')
于 2021-02-26T19:17:24.817 回答