我在看:
它只是说:
tokenizer:可调用或无(默认)覆盖字符串标记化步骤,同时保留预处理和 n-gram 生成步骤。仅在分析器 == 'word' 时适用。
函数应该返回什么?单词列表?是否有示例显示此函数必须返回的数据结构?
编辑:例如,如果我正在编写自己的自定义标记器函数,它应该返回什么。
我在看:
它只是说:
tokenizer:可调用或无(默认)覆盖字符串标记化步骤,同时保留预处理和 n-gram 生成步骤。仅在分析器 == 'word' 时适用。
函数应该返回什么?单词列表?是否有示例显示此函数必须返回的数据结构?
编辑:例如,如果我正在编写自己的自定义标记器函数,它应该返回什么。