我正在尝试为项目操作有限状态传感器。但是,在构建 FST 时,我需要每个输出符号都是来自输入符号的任意长字符序列,这些字符只是来自相关文本语料库的单个唯一字符。此外,我需要统一表示这些任意长的序列,以便每个组合的表示具有相同的长度。当然,对于任意长度,可能的最长组合具有无限长度,因此让我们假设没有组合可以比相关语料库中最长的文档更长。
换句话说,给定一个input_vocabulary
of ['a', 'b', 'c']
,一个output_vocabulary
of['a', 'ab', 'acb', 'abcb']
需要每个都表示为某个长度为 4 的向量,每个向量中的每个项目都是来自 的项目input_vocabulary
。我唯一的想法是使用填充向量来做到这一点,例如,对于这个例子,[ [0, 3, 3, 3], [0, 1, 3, 3], [0, 2, 1, 3], [0, 1, 2, 1] ]
,其中3
是一个填充标记,但我对此很陌生,所以任何帮助将不胜感激。
为了澄清,我想知道是否有办法在没有填充令牌的情况下做到这一点。