问题标签 [huggingface-tokenizers]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
561 浏览

python-3.x - Translating using pre-trained hugging face transformers not working

I have a situation where I am trying to using the pre-trained hugging-face models to translate a pandas column of text from Dutch to English. My input is simple:

I am using the below code to translate the above column and I want to store my result into a new column ENG_Text. So the output will look like this:

The code that I am using is as follows:

Any help would be appreciated!

0 投票
1 回答
320 浏览

python-3.x - 将变压器模型应用于熊猫列中的每一行

我有一种情况,我想将翻译模型应用于数据框列中的每一行。

我正在使用的翻译代码:

我想将此模型应用于以下列并在此之后创建一个新的翻译列:

英文文本列将包含来自上述模型的翻译文本,因此我想将该模型应用于 German_text 列中的每一行,以在 English_Text 列中创建相应的翻译

0 投票
1 回答
2937 浏览

google-colaboratory - XLNetTokenizer 需要 SentencePiece 库,但在您的环境中未找到

我正在尝试在 Google Collaboratory 上实现 XLNET。但我得到以下问题。

我也尝试了以下步骤:

提前谢谢你的帮助。

0 投票
1 回答
779 浏览

nlp - 如何使用转换器模型获取词汇表外单词的词嵌入?

当我尝试使用 bio_clinical bert 获取句子的词嵌入时,对于 8 个单词的句子,我得到 11 个标记 id(+start 和 end),因为“embeddings”是词汇表外的单词/标记,它被拆分为em, bed, ding, s.

我想知道除了对这些向量进行平均之外,是否有任何可用的聚合策略有意义。

输出: torch.Size([1, 13])

输出:

0 投票
0 回答
1299 浏览

python - 如何将线程用于拥抱面变压器

我正在尝试在线程上运行一个拥抱脸模型,模式正是“cardiffnlp/twitter-roberta-base-sentiment”。但与此同时,我只想要它的一个实例,因为它在时间方面确实很昂贵。

换句话说,我有多个 CSV 文件(几千个),每个文件都有大约 20k-30k 行,我希望所有这些文件中的每一行都由 huggingface 模型执行,正如您可能已经想象的那样我不想为每个线程实例化模型的原因(每个线程仅用于读取一行并将其写入数据库)。我的方法的问题是,当我运行代码时,Huggingface 模型会给我一个错误。

RuntimeError: 已经借用

你们中的任何人都可以帮助我了解如何解决它吗?

拥抱脸模型:

我生成数据库的代码:

0 投票
2 回答
146 浏览

python - ImportError 由工作目录中的同名文件和导入包中的文件引起

我在尝试运行 python 脚本时遇到了一个问题,为了简单起见,我们称之为它my_tokenizer.py,它的内容只是导入拥抱脸的变形金刚。不幸的是,尝试从工作目录运行它会导致 ImportError ,这似乎是由于工作目录中的文件名引起的,并且与transformer包在其内部某处使用的文件具有相同的名称。

在工作目录中有 2 个文件:

  • /project/my_tokenizer.py(仅包含导入“导入变压器”的行)
  • /project/tokenizers.py(空的文件)

并运行python my_tokenizer.py导致以下 ImportError:

虽然我可以将我的文件重命名project/tokenizers.py为其他名称,但我想知道它为什么会发生。

0 投票
2 回答
3538 浏览

google-colaboratory - Colab 的 Huggingface AlBert 标记器 NoneType 错误

我只是尝试了拥抱脸网站的示例代码:https ://huggingface.co/albert-base-v2

然后我在标记器步骤出现以下错误:----> 5 encoded_input = tokenizer(text, return_tensors='pt')

TypeError:“NoneType”对象不可调用

我在本地机器上尝试了相同的代码,它没有问题。问题似乎在 Colab 内部。但是,我确实需要帮助才能在 colab GPU 上运行这个模型。

我在 colab 上的 python 版本是 Python 3.6.9

0 投票
0 回答
552 浏览

pytorch - 有没有办法使用 GPU 而不是 CPU 进行 BERT 标记化?

我在大型句子数据集(230 万行,65.3 亿字)上使用 BERT 标记器:

照原样,它在 CPU 上运行,并且仅在 1 个核心上运行。我尝试并行化,但这只会将我的 16 核 CPU 的处理速度提高 16 倍,如果我想标记整个数据集,它仍然可以运行很长时间。

有没有办法让它在 GPU 上运行或以其他方式加速它?

编辑:我也尝试过使用快速标记器:

然后将输出传递给我的 batch_encode_plus:

但是 batch_encode_plus 返回以下错误:

TypeError:batch_text_or_text_pairs 必须是一个列表(得到 <class 'numpy.ndarray'>)

0 投票
1 回答
4283 浏览

python - HuggingFace Bert 情绪分析

我收到以下错误:

AssertionError: text input must of type str (single example), List[str] (batch or single pretokenized example) or List[List[str]] (batch of pretokenized examples).,当我跑步时classifier(encoded)。我的文本类型是str所以我不确定我做错了什么。非常感谢任何帮助。

0 投票
0 回答
73 浏览

pytorch - 为什么使用 GPT2Tokenizer 将阿拉伯字符转换为符号?

我正在尝试将GPT2用于阿拉伯语文本分类任务,如下所示:

但是,当我使用标记器时,它会将阿拉伯字符转换为像这样的符号 'ĠÙĥتÙĬر'