最近我一直在研究自然语言处理及其向量化方法和每个向量化器的优点。
我喜欢字符向量化,但似乎对每个单词的字符向量化器最关心的是嵌入具有固定长度。
我不想只用 0 嵌入它们,这就是众所周知的 0 填充,例如,目标固定长度为 100,并且仅存在 72 个字符,那么所有 28 个 0 将在最后填充。
“段落和短语的示例......以矢量化器形式”< 长度为 72
变成
[0, 25, 60, 12, 24, 0, 19, 99, 7, 32, 47, 11, 19, 43, 18, 19, 6, 25, 43, 99, 0, 32, 40, 14, 20 , 5, 37, 47, 99, 11, 29, 7, 19, 47, 18, 20, 60, 18, 19, 2, 19, 11, 31, 130, 130, 76, 0, 32, 40, 14 , 20, 7, 19, 47, 18, 20, 60, 11, 37, 43, 99, 11, 29, 99, 17, 39, 47, 11, 31, 18, 19, 43, 0, 19, 77 , 0, 0, 0, 0, 0, 0, 0, 0, ...., 0, 0, 0, 0, 0, 0]
.
.
我想让向量在 N 个固定维度上呈公平分布形式,而不是像上面的那样
如果您知道任何论文或算法更喜欢考虑这个问题,或者从各种长度的向量生成固定长度向量的常用方法,请分享。
.
.
根据 gojomo 的要求添加了更多信息;
我正在尝试获取语料库中单词的字符级向量。
假设在上面的例子中,“段落的例子......”以
T [40]
h [17]
e [3]
e [3]
× [53]
[1]
米 [21]
p [25]
l [14]
e [3]
注意每个字符都有自己的数字(等等,可以是ascii),word表示字符向量组合的向量,例如,
[40, 17, 3]
示例 [3, 53, 1, 21, 25, 14, 3]
向量的维度不同。对于上面提到的情况,很多人在末尾填充 0 以使其大小一致
例如,如果有人想让每个单词的维度为 300,那么 297 of 0 将被填充到字母“The”,而 293 of 0 将被填充到“example”,例如
[40, 17, 3, 0, 0, 0, 0, 0, ...., 0]
示例 [3, 53, 1, 21, 25, 14, 3, 0, 0, 0, 0, 0, ...., 0]
现在我认为这种填充方法不适合我的实验,所以我想知道是否有任何方法可以将其向量转换为非稀疏形式的统一形式(如果允许该术语)。
即使是两个单词的短语,“示例”也只需要 11 个字符,仍然不够长。
无论如何,我想知道是否有一些众所周知的技术可以将向量的非正式长度转换为某个固定长度。
谢谢 !