问题标签 [huggingface-tokenizers]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

242 问题

0 投票

1 回答

561 浏览

python-3.x - Translating using pre-trained hugging face transformers not working

I have a situation where I am trying to using the pre-trained hugging-face models to translate a pandas column of text from Dutch to English. My input is simple:

I am using the below code to translate the above column and I want to store my result into a new column ENG_Text. So the output will look like this:

The code that I am using is as follows:

Any help would be appreciated!

2020-12-28T21:05:27.687

0 投票

1 回答

320 浏览

python-3.x - 将变压器模型应用于熊猫列中的每一行

我有一种情况，我想将翻译模型应用于数据框列中的每一行。

我正在使用的翻译代码：

我想将此模型应用于以下列并在此之后创建一个新的翻译列：

英文文本列将包含来自上述模型的翻译文本，因此我想将该模型应用于 German_text 列中的每一行，以在 English_Text 列中创建相应的翻译

python-3.x pandas loops huggingface-transformers huggingface-tokenizers

2020-12-29T22:47:37.660

0 投票

1 回答

2937 浏览

google-colaboratory - XLNetTokenizer 需要 SentencePiece 库，但在您的环境中未找到

我正在尝试在 Google Collaboratory 上实现 XLNET。但我得到以下问题。

我也尝试了以下步骤：

提前谢谢你的帮助。

google-colaboratory huggingface-transformers transformer huggingface-tokenizers

2021-01-04T05:09:48.330

0 投票

1 回答

779 浏览

nlp - 如何使用转换器模型获取词汇表外单词的词嵌入？

当我尝试使用 bio_clinical bert 获取句子的词嵌入时，对于 8 个单词的句子，我得到 11 个标记 id（+start 和 end），因为“embeddings”是词汇表外的单词/标记，它被拆分为em, bed, ding, s.

我想知道除了对这些向量进行平均之外，是否有任何可用的聚合策略有意义。

输出： torch.Size([1, 13])

输出：

nlp huggingface-transformers transformer huggingface-tokenizers

2021-01-13T06:51:24.090

0 投票

0 回答

1299 浏览

python - 如何将线程用于拥抱面变压器

我正在尝试在线程上运行一个拥抱脸模型，模式正是“cardiffnlp/twitter-roberta-base-sentiment”。但与此同时，我只想要它的一个实例，因为它在时间方面确实很昂贵。

换句话说，我有多个 CSV 文件（几千个），每个文件都有大约 20k-30k 行，我希望所有这些文件中的每一行都由 huggingface 模型执行，正如您可能已经想象的那样我不想为每个线程实例化模型的原因（每个线程仅用于读取一行并将其写入数据库）。我的方法的问题是，当我运行代码时，Huggingface 模型会给我一个错误。

RuntimeError: 已经借用

你们中的任何人都可以帮助我了解如何解决它吗？

拥抱脸模型：

我生成数据库的代码：

python multithreading threadpool huggingface-transformers huggingface-tokenizers

2021-01-15T22:38:11.537

0 投票

2 回答

146 浏览

python - ImportError 由工作目录中的同名文件和导入包中的文件引起

我在尝试运行 python 脚本时遇到了一个问题，为了简单起见，我们称之为它my_tokenizer.py，它的内容只是导入拥抱脸的变形金刚。不幸的是，尝试从工作目录运行它会导致 ImportError ，这似乎是由于工作目录中的文件名引起的，并且与transformer包在其内部某处使用的文件具有相同的名称。

在工作目录中有 2 个文件：

/project/my_tokenizer.py（仅包含导入“导入变压器”的行）
/project/tokenizers.py（空的文件）

并运行python my_tokenizer.py导致以下 ImportError：

虽然我可以将我的文件重命名project/tokenizers.py为其他名称，但我想知道它为什么会发生。

python python-3.x huggingface-transformers huggingface-tokenizers

2021-01-18T18:05:48.867

0 投票

2 回答

3538 浏览

google-colaboratory - Colab 的 Huggingface AlBert 标记器 NoneType 错误

我只是尝试了拥抱脸网站的示例代码：https ://huggingface.co/albert-base-v2

然后我在标记器步骤出现以下错误：----> 5 encoded_input = tokenizer(text, return_tensors='pt')

TypeError：“NoneType”对象不可调用

我在本地机器上尝试了相同的代码，它没有问题。问题似乎在 Colab 内部。但是，我确实需要帮助才能在 colab GPU 上运行这个模型。

我在 colab 上的 python 版本是 Python 3.6.9

google-colaboratory huggingface-transformers huggingface-tokenizers

2021-01-23T01:00:27.093

0 投票

0 回答

552 浏览

pytorch - 有没有办法使用 GPU 而不是 CPU 进行 BERT 标记化？

我在大型句子数据集（230 万行，65.3 亿字）上使用 BERT 标记器：

照原样，它在 CPU 上运行，并且仅在 1 个核心上运行。我尝试并行化，但这只会将我的 16 核 CPU 的处理速度提高 16 倍，如果我想标记整个数据集，它仍然可以运行很长时间。

有没有办法让它在 GPU 上运行或以其他方式加速它？

编辑：我也尝试过使用快速标记器：

然后将输出传递给我的 batch_encode_plus：

但是 batch_encode_plus 返回以下错误：

TypeError：batch_text_or_text_pairs 必须是一个列表（得到 <class 'numpy.ndarray'>）

pytorch bert-language-model huggingface-transformers huggingface-tokenizers

2021-01-23T09:43:16.683

0 投票

1 回答

4283 浏览

python - HuggingFace Bert 情绪分析

我收到以下错误：

AssertionError: text input must of type str (single example), List[str] (batch or single pretokenized example) or List[List[str]] (batch of pretokenized examples).，当我跑步时classifier(encoded)。我的文本类型是str所以我不确定我做错了什么。非常感谢任何帮助。

python bert-language-model huggingface-transformers huggingface-tokenizers

2021-01-25T09:13:28.363

0 投票

0 回答

73 浏览

pytorch - 为什么使用 GPT2Tokenizer 将阿拉伯字符转换为符号？

我正在尝试将GPT2用于阿拉伯语文本分类任务，如下所示：

但是，当我使用标记器时，它会将阿拉伯字符转换为像这样的符号 'ĠÙĥØªÙĬØ±'

pytorch tokenize huggingface-transformers huggingface-tokenizers gpt-2

2021-01-26T08:16:49.167

1 2 3 4 5 6 7 8 9 10

问题标签 [huggingface-tokenizers]

Reference