问题标签 [torchtext]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 扩展部署词汇
在进行训练时,我使用为训练集词汇中的单词挑选的预训练嵌入来初始化我的嵌入矩阵。
在我的模型中,我将 contexts.vocab 作为参数传递并初始化嵌入:
我训练我的模型,并在训练期间通过torch.save(model, f)
.
然后我想在单独的文件中为模型测试/创建演示以进行评估。我通过加载模型torch.load
。如何扩展嵌入矩阵以包含测试词汇?我试图替换嵌入矩阵
但结果很糟糕(几乎为 0 准确度)。模型在训练期间表现良好。这样做的“正确方法”是什么?
python - 如何直接从列表或字典创建 torchtext.data.TabularDataset
torchtext.data.TabularDataset
可以从 TSV/JSON/CSV 文件创建,然后可用于从 Glove、FastText 或任何其他嵌入构建词汇表。但我的要求是torchtext.data.TabularDataset
直接从 alist
或 a创建一个dict
。
当前通过读取 TSV 文件实现的代码
这是从文件中读取数据的当前工作代码。因此,为了直接从 List/Dict 创建数据集,我尝试了像 Example.fromList 这样的内置函数Examples.fromDict
,但是在进入最后一个 for 循环时,它会抛出一个错误AttributeError: 'BucketIterator' object has no attribute 'q1'
pytorch - AttributeError:“字段”对象没有属性“词汇”
BucketIterator 的返回迭代器给出错误。
train_data 的值看起来也不错。
堆栈跟踪:
我可以知道我们在这里缺少什么吗?
python - 如何保存torchtext数据集?
我正在处理文本并使用torchtext.data.Dataset
. 创建数据集需要大量时间。对于仅运行程序,这仍然是可以接受的。但我想调试神经网络的火炬代码。如果 python 在调试模式下启动,数据集创建大约需要 20 分钟 (!!)。这只是为了获得一个工作环境,我可以在其中调试神经网络代码。
我想保存数据集,例如用泡菜。此示例代码取自此处,但我删除了此示例不需要的所有内容:
要运行代码,您需要 aclImdb 数据集,可以从此处下载。将其解压缩data/
到此代码片段旁边的文件夹中。代码在最后一行产生错误,其中使用了 pickle:
fastai 的样品经常用莳萝代替泡菜。但这对我也不起作用。
python - Tokenizer 在torchtext 中无法正常工作
我在 torchtext 中遇到了问题,并且为此苦苦挣扎了很长时间。我试图使用 torchtext 和 spacy 对文本进行标记和数字化。我将我的标记器定义为:
效果很好:
然后我将这个标记器传递给torchtext:
并建立了词汇:
然后我尝试了
我以为我应该得到一个有 4 个数字(单词级别)的张量,但是,我得到的是 char 级别:
那有什么问题?有什么我可以解决的吗?谢谢!
dataset - 向 torchtext 数据集添加一个字段,例如 pandas 数据框中的“应用”函数
在 pandas 数据帧中,可以使用“应用”函数来处理数据帧并将输出作为额外的列附加到数据帧。torchtext 是否具有类似的“应用”功能以将列插入表格数据集?谢谢。
nlp - 如何使用 torchtext 添加功能?
torchtext
能够读取包含一些列的文件,每列对应一个字段。如果我想创建一个新列(我将用作功能)怎么办?例如,假设文件有两列,文本和目标,我想从文本中提取一些信息并生成一个新特征(例如,如果它包含某些单词),我可以直接torchtext
这样做还是需要这样做它在文件之前?
谢谢!
python - torchtext BucketIterator 中的 batch_size 不匹配
我设置batch_size
了 equals 64
,但是当我打印出 train_batch 和 val_batch 时,大小不等于 64。
首先,我定义TEXT
和LABEL
字段。
然后我继续尝试遵循教程,并在下面写了一些东西:
但是当我想知道 iter 是否正常时,我会发现以下奇怪的事情:
并且训练过程输出错误ValueError: Expected input batch_size (15) to match target batch_size (64).
:
任何人都可以给我一个提示将不胜感激。谢谢!
pytorch - 如何将.txt文件(语料库)读入pytorch中的torchtext?
如何将.txt文件(语料库)读入pytorrch中的torchtext?
我只看到用于示例数据集的 data.Dataset 和用于 csv、json 和 tsv 的 data.TabularData。
https://github.com/pytorch/text#data
https://torchtext.readthedocs.io/en/latest/data.html#dataset
如果我使用这样的表格数据集读取它,它仍然有效:
test_file = data.TabularDataset(path=input_filepath, format='csv', fields=[('text', data.Field())])
但是我的数据集不是表格的,所以我想看看是否有更好的选择。
neural-network - Torchtext AttributeError:“示例”对象没有属性“text_content”
我正在使用 RNN 并使用 Pytorch 和 Torchtext。我在我的 RNN 中构建词汇时遇到了问题。我的代码如下:
当我想构建词汇时,我遇到了这个烦人的错误:
我敢肯定,没有丢失的text_content
attr。我做了 try-catch 来显示这个特定的案例:
令人惊讶的是,我没有收到任何错误,并且这个特定的打印命令显示:
所以它表明存在 text_content
attr。当我在较小的数据集上执行此操作时,它就像一个魅力。当我想使用正确的数据时会出现此问题。我没有主意了。也许有人有类似的情况,可以解释一下。
我的完整追溯: