问题标签 [torchtext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - torchtext 库中的 interleave_keys() 函数究竟做了什么?
你可以在torchtext/data/utils.py文件中找到这个函数
我已经给出了官方代码和下面的文档
更详细的解释将有助于理解它如何根据给定的两个字符串的相似程度返回一个整数。
而且里面使用的format函数是python中常用的内置函数
python - Torchtext 使令牌保持相同的顺序
我有一个用于翻译文本的 seq2seq 神经网络。我需要句子在批处理期间保持不变,更准确地说,一个句子应该像一个不可分割的标记块。但是,看起来 Torchtext 提供的迭代器(BucketIterator 和 Iterator)不保持令牌的初始顺序。除了编写我自己的填充和批处理功能之外,是否有解决方案?
python - 向量序列的 PyTorch 数据集字段(无词汇)
我有一个“简单”的机器翻译任务,我有一个向量序列要映射到一个或两个单词。(向量为 258 维)
例如:
[[1, ..., 2], [3, ..., 4]]
=> “你好”[[1, ..., 2], [3, ..., 4], [5, ..., 6]]
=>“你好世界”
对于目标字段,我使用的是Field(eos_token="<eos>", is_target=True)
,在批处理时确实正确地给了我一个带有填充的张量,在这种情况下:
但是,该src
字段的填充方式与它不同sequential
,但没有词汇表 ( Field(use_vocab=False)
)。
当我src
从BucketIterator
, 批量大小 > 1 中读取时,我得到:
回溯(最近一次通话最后):
文件“train.py”,第 50 行,在火车中
文件“/torchtext/data/iterator.py”,第 156 行,在iter
文件“/torchtext/data/batch.py”,第 34 行,在init
文件“/torchtext/data/field.py”,第 237 行,正在处理中
文件“/torchtext/data/field.py”,第 359 行,在数字化中
ValueError:在昏暗 2 处预期长度为 258 的序列(得到 5)
我想要得到的是一个张量:
我想我可能有但不知道如何确认的是:
pytorch - 如何使用 txt 文件在 pytorch 中构建数据集和 build_vocab?
例如,我有用于训练和验证的 txt 文件,其中包含字母
文件_1:
hg jk lo ju jk lk
文件 2:
sd sg gt gh qe
所以我想用这些文件构建一个数据集,(我有 5 个标签)所以我构建了一个 Dataset 类
当我打印数据集的第一项时,我得到:
我的问题是我想对每个文件进行标记和索引,因为这些文件里面有很少的单词,所以我做了这个:
接着 :
我得到
使用完整的句子而不是每个单词,应该让我得到类似的东西:
ij : 1
雅:2
python - 使用 torchtext.data.TabularDataset 将存储在 G 盘中的 csv 数据加载到 torchtext 格式时出现“没有这样的文件”,
我在 G 盘中存储了一个 csv 文件,并尝试将其加载到 torchtext data.TabularDataset。错误消息是“FileNotFoundError: [Errno 2] No such file or directory: 'https://.....'”
是否无法将g盘中的csv文件直接加载到torchtext TabularDataset?
这是代码。我还制作了一个公开的colab 笔记本,其中包含公开可用的数据。
python - AttributeError:使用来自 torchtext 的 build_vocab() 构建词汇时,“示例”对象没有属性“侮辱”
我尝试使用colab 中的torchtext中的.build_vocab()来构建词汇表。它返回错误消息:AttributeError: 'Example' object has no attribute 'Insult'
我的问题类似于@szymix12 的问题。他的回答是确保传递的字段顺序与 csv 标头相同。我确认我分配的订单是正确的。csv 数据有两列:“侮辱”(标签)和“评论”(文本)。“侮辱”是二进制标签指示符(0 或 1)。
代码如下,我也做了一个colab notebook。随意奔跑。
python - 在torchtext中使用spacy词向量
spacy 提供了德语词向量spacy model de,所以我想将它们与 pytorch 和 torchtext 一起使用。
但是,当我尝试构建时,TEXT.build_vocab
我收到以下错误消息:
所以我查看 Vector
了 torchtext 文档torchtext 向量,看来我需要先加载它们。有没有一种解决方案,我不必先将空词向量保存到文件中?如果没有,那么保存稍后我可以加载的空词向量的正确方法是什么?
nlp - 使用带 Torchtext 的 annoy 进行最近邻搜索
我将 Torchtext 用于一些 NLP 任务,特别是使用内置嵌入。
我希望能够进行逆向量搜索:生成噪声向量,找到最接近它的向量,然后取回最接近噪声向量的单词。
从torchtext docs,这里是如何将嵌入附加到内置数据集:
然后我们可以建立烦恼指数:
然后说我想使用嘈杂的向量检索一个单词:
我的问题来自上面的最后两行: Theann_index
是使用对象构建enumerate
的embedding
,它是一个 Torch 张量。
该[vocab][2]
对象有自己的itos
列表,给定索引返回一个单词。
我的问题是:我可以确定单词出现在 itos 列表中的顺序与 in 中的顺序相同TEXT.vocab.vectors
吗?如何将一个索引映射到另一个索引?
python - 从 pytorch 的 torchtext 库中保存词汇对象
使用 pytorch 的 torchtext 构建文本分类模型。词汇对象在 data.field 中:
训练后,在生产中为模型提供服务时,我如何持有 TEXT 对象?在预测时我需要它来索引单词标记
我是否遗漏了某些东西并且没有必要持有该对象?除了模型重量,我还需要其他文件吗?