我试图了解如何为 ELMo 矢量化准备段落。
该文档仅显示了如何同时嵌入多个句子/单词。
例如。
sentences = [["the", "cat", "is", "on", "the", "mat"],
["dogs", "are", "in", "the", "fog", ""]]
elmo(
inputs={
"tokens": sentences,
"sequence_len": [6, 5]
},
signature="tokens",
as_dict=True
)["elmo"]
据我了解,这将返回 2 个向量,每个向量代表一个给定的句子。我将如何准备输入数据以矢量化包含多个句子的整个段落。请注意,我想使用我自己的预处理。
可以这样做吗?
sentences = [["<s>" "the", "cat", "is", "on", "the", "mat", ".", "</s>",
"<s>", "dogs", "are", "in", "the", "fog", ".", "</s>"]]
或者可能是这样?
sentences = [["the", "cat", "is", "on", "the", "mat", ".",
"dogs", "are", "in", "the", "fog", "."]]