问题标签 [torchtext]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
151 浏览

python - Pytorch 将操作应用于某些行但不是全部

我正在尝试在张量的某些行上应用 softmax 函数,但问题是我的某些行具有所有 -inf 值。因此,这些行上的 softmax 会输出 NaN,这会导致模型后期出现问题。

因此,我想创建一个将 softmax 应用于一行的函数,除非 in 全部为 -inf。在这种情况下,它输出一个零向量。有什么简单的方法可以做到这一点?

0 投票
0 回答
79 浏览

python - 尝试在测试集上进行预测时,获取“字段”对象没有属性“词汇”错误

我已经成功地使用我的训练数据训练模型,但现在在预测我的测试数据时遇到了一些麻烦。所以我通过测试数据加载

并使用以下函数进行预测

但是,当我尝试运行

我收到错误“字段”对象没有属性“词汇”。我已经为 TEXT 建立了一个词汇,所以这不应该是问题。我应该为ID建立一个词汇吗?还是我做错了什么

0 投票
1 回答
71 浏览

pytorch - Pytorch 构建 seq2seq MT 模型,但是如何从输出张量中得到翻译结果呢?

我正在尝试实现自己的 MT 引擎,我正在按照https://github.com/bentrevett/pytorch-seq2seq/blob/master/1%20-%20Sequence%20to%20Sequence%20Learning%20with%20Neural中的步骤进行操作%20Networks.ipynb

训练模型后,该链接仅共享一种批量评估的方法,但我想尝试单个字符串并获得翻译结果。例如,我希望我的模型翻译输入“男孩”并获得德语翻译。

所以我的问题是通过以下方式获得翻译结果是正确的:
首先:将字符串转换为张量

第二:将张量发送到模型。由于模型有一个 TRG 参数。我必须给出张量,我不能给出 TRG 张量吗?

第三:通过return tensor,我用argmax得到翻译结果?这样对吗?

或者我怎样才能得到正确的翻译结果?

0 投票
0 回答
527 浏览

python - Colab 上的 Torchtext:无法导入名称“dtype_to_attr”

在 Google Colab 上导入 torchtext.data 或 .datasets 时遇到以下错误。根据某些帖子,尝试 1/ 将 torch 升级到 1.7、2/ 将 torchtext 升级到 0.4 或 0.5 或最新版本。但似乎没有任何帮助。想知道你在这里有什么见解吗?尝试导入以嵌入/标记单词序列。


ImportError Traceback (most recent call last) in () 1 # 用于数据加载。----> 2 从torchtext导入数据、数据集

2帧/usr/local/lib/python3.6/dist-packages/torchtext/data/field.py in () 8 from .dataset import Dataset 9 from .pipeline import Pipeline ---> 10 from .utils import get_tokenizer, dtype_to_attr, is_tokenizer_serializable 11 from ..vocab import Vocab, SubwordVocab 12

ImportError:无法导入名称“dtype_to_attr”

0 投票
4 回答
9970 浏览

python - colab中的torchtext ImportError

我正在尝试在 colab中运行本教程。

但是,当我尝试导入一堆模块时:

它给了我和的extract_archive错误build_vocab_from_iterator

请帮我解决这个问题。

0 投票
1 回答
367 浏览

python - Torchtext TabularDataset() 读取数据字段不正确

目标:我想根据我的自定义数据集创建一个文本分类器,类似(和以下)这个(现已删除)来自 mlexplained 的教程。

发生了什么 我成功地格式化了我的数据,创建了一个训练、验证和测试数据集,并对其进行了格式化,使其等于他们正在使用的“有毒推文”数据集(每个标签都有一个列,1/0 表示真/假)。大多数其他部分也按预期工作,但是在迭代时出现错误。

Traceback 指示的行:

尝试解决已经提出的问题,我认为是 Reson:

我知道这个问题发生在其他人身上,这里甚至有 2 个问题,机器人都有跳过数据集中的列或行的问题(我检查了空行/Cokumns,但没有发现)。另一个解决方案是给定模型的参数必须与 .csv 文件中的参数具有相同的顺序(没有缺失)。

但是,相关代码(tst、trn 和 vld 集的加载和创建)def createTestTrain():

Has 使用相同的列表和顺序,就像我的 csv 一样。tv_datafields 的结构与文件完全相同。此外,由于 Datafield 对象只是带有数据点的字典,因此我读出了字典的键,就像本教程一样,通过:

应该发生的事情: 示例的行为是这样的

我的结果:

虽然 trn[0] 不包含任何内容,但它从 3 到 15 分布,通常应该存在的列数应该比这更多。

现在我很茫然,至于我哪里出错了。数据适合,该函数显然有效,但 TabularDataset() 似乎在我的列中以错误的方式读取(如果有的话)。我分类了吗

错误的方法?至少我的 Debuggin 似乎表明了这一点。

由于 Torchtext 上的文档很少,我很难找到它,但是当我查看数据字段的定义时,我看不出它有什么问题。

谢谢您的帮助。

0 投票
0 回答
445 浏览

python - 为什么我在 imac 上找不到 libc++.1.dylib?

我想使用 pytorch torchtext 但失败了。Mac 系统 说道:

未加载库:@rpath/libc++.1.dylib

我喜欢很多关于这个问题的解决方案,它们告诉我我需要将 libc++ 文件复制到我的虚拟环境中。但是突然我发现我在usr/lib中没有这个文件,除此之外,与我原来的mac相比,我没有很多文件。

我安装了 xcode 和 llvm 但仍然找不到该文件。

我应该安装哪个软件才能使文件 libc++.1.dylib 存在?

0 投票
1 回答
434 浏览

torch - 没有名为“torchtext._torchtext”的模块

我在使用 torctext 时出错:

我试图将“torchtext”目录放在 jupiter notebook 的文件夹中,但再次出现错误

0 投票
0 回答
54 浏览

torch - TorchText 不会在测试集中将看不见的单词替换为 UNKNOWN

为什么 torch text 从训练和验证数据集中构建词汇表,但是当尝试准备测试数据时,未见过的单词应该被分配为 UNKNOWN。但是 API 会为这个词抛出 KeyError。TorchText TabularDataset 和 BucketIterator 应该将看不见的单词转换为 UNKNOWN 单词。有人遇到过这个问题吗?

0 投票
1 回答
62 浏览

torchtext - torchtext TabularDataset 返回 ValueError:要解包的值太多(预期

我刚刚导出了一个数据集

我检查了表格的单元格中根本没有逗号。但是,当我尝试使用

我得到:

ValueError:要解包的值太多(预期为 2)

数据如下所示:

值得注意的是,单元格包含\'s.