我在将正则表达式应用于Split()
HuggingFace 库中的操作时遇到问题。库请求以下输入Split()
。
pattern (str or Regex) -- 用于分割字符串的模式。通常是一个
string
或一个Regex
在我的代码中,我正在应用这样的Split()
操作:
tokenizer.pre_tokenizer = Split(pattern="[A-Z]+", behavior='isolated')
但它不起作用,因为[A-Z]+
它被解释为字符串而不是正则表达式。我使用以下方法无济于事:
pattern = re.compile("[A-Z]+")
tokenizer.pre_tokenizer = Split(pattern=pattern, behavior='isolated')
收到以下错误:
TypeError: 无法将 re.compile('[AZ]+') (re.Pattern) 转换为 Union[str, tokenizers.Regex]