python - TypeError: 无法将 re.compile('[AZ]+') (re.Pattern) 转换为 Union[str, tokenizers.Regex]

Question

我在将正则表达式应用于Split()HuggingFace 库中的操作时遇到问题。库请求以下输入Split()。

pattern (str or Regex) -- 用于分割字符串的模式。通常是一个 string或一个Regex

在我的代码中，我正在应用这样的Split()操作：

tokenizer.pre_tokenizer = Split(pattern="[A-Z]+", behavior='isolated')

但它不起作用，因为[A-Z]+它被解释为字符串而不是正则表达式。我使用以下方法无济于事：

pattern = re.compile("[A-Z]+")
tokenizer.pre_tokenizer = Split(pattern=pattern, behavior='isolated')

收到以下错误：

TypeError: 无法将 re.compile('[AZ]+') (re.Pattern) 转换为 Union[str, tokenizers.Regex]

score 1 · Accepted Answer

以下解决方案通过Regex从 tokenizers 库导入来工作：

from tokenizers import Regex

tokenizer.pre_tokenizer = Split(pattern=Regex("[A-Z]+"),
                                behavior='isolated')

1 回答 1