问题标签 [huggingface-tokenizers]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - Translating using pre-trained hugging face transformers not working
I have a situation where I am trying to using the pre-trained hugging-face models to translate a pandas column of text from Dutch to English. My input is simple:
I am using the below code to translate the above column and I want to store my result into a new column ENG_Text. So the output will look like this:
The code that I am using is as follows:
Any help would be appreciated!
python-3.x - 将变压器模型应用于熊猫列中的每一行
我有一种情况,我想将翻译模型应用于数据框列中的每一行。
我正在使用的翻译代码:
我想将此模型应用于以下列并在此之后创建一个新的翻译列:
英文文本列将包含来自上述模型的翻译文本,因此我想将该模型应用于 German_text 列中的每一行,以在 English_Text 列中创建相应的翻译
google-colaboratory - XLNetTokenizer 需要 SentencePiece 库,但在您的环境中未找到
我正在尝试在 Google Collaboratory 上实现 XLNET。但我得到以下问题。
我也尝试了以下步骤:
提前谢谢你的帮助。
nlp - 如何使用转换器模型获取词汇表外单词的词嵌入?
当我尝试使用 bio_clinical bert 获取句子的词嵌入时,对于 8 个单词的句子,我得到 11 个标记 id(+start 和 end),因为“embeddings”是词汇表外的单词/标记,它被拆分为em
, bed
, ding
, s
.
我想知道除了对这些向量进行平均之外,是否有任何可用的聚合策略有意义。
输出:
torch.Size([1, 13])
输出:
python - 如何将线程用于拥抱面变压器
我正在尝试在线程上运行一个拥抱脸模型,模式正是“cardiffnlp/twitter-roberta-base-sentiment”。但与此同时,我只想要它的一个实例,因为它在时间方面确实很昂贵。
换句话说,我有多个 CSV 文件(几千个),每个文件都有大约 20k-30k 行,我希望所有这些文件中的每一行都由 huggingface 模型执行,正如您可能已经想象的那样我不想为每个线程实例化模型的原因(每个线程仅用于读取一行并将其写入数据库)。我的方法的问题是,当我运行代码时,Huggingface 模型会给我一个错误。
RuntimeError: 已经借用
你们中的任何人都可以帮助我了解如何解决它吗?
拥抱脸模型:
我生成数据库的代码:
python - ImportError 由工作目录中的同名文件和导入包中的文件引起
我在尝试运行 python 脚本时遇到了一个问题,为了简单起见,我们称之为它my_tokenizer.py
,它的内容只是导入拥抱脸的变形金刚。不幸的是,尝试从工作目录运行它会导致 ImportError ,这似乎是由于工作目录中的文件名引起的,并且与transformer
包在其内部某处使用的文件具有相同的名称。
在工作目录中有 2 个文件:
/project/my_tokenizer.py
(仅包含导入“导入变压器”的行)/project/tokenizers.py
(空的文件)
并运行python my_tokenizer.py
导致以下 ImportError:
虽然我可以将我的文件重命名project/tokenizers.py
为其他名称,但我想知道它为什么会发生。
google-colaboratory - Colab 的 Huggingface AlBert 标记器 NoneType 错误
我只是尝试了拥抱脸网站的示例代码:https ://huggingface.co/albert-base-v2
然后我在标记器步骤出现以下错误:----> 5 encoded_input = tokenizer(text, return_tensors='pt')
TypeError:“NoneType”对象不可调用
我在本地机器上尝试了相同的代码,它没有问题。问题似乎在 Colab 内部。但是,我确实需要帮助才能在 colab GPU 上运行这个模型。
我在 colab 上的 python 版本是 Python 3.6.9
pytorch - 有没有办法使用 GPU 而不是 CPU 进行 BERT 标记化?
我在大型句子数据集(230 万行,65.3 亿字)上使用 BERT 标记器:
照原样,它在 CPU 上运行,并且仅在 1 个核心上运行。我尝试并行化,但这只会将我的 16 核 CPU 的处理速度提高 16 倍,如果我想标记整个数据集,它仍然可以运行很长时间。
有没有办法让它在 GPU 上运行或以其他方式加速它?
编辑:我也尝试过使用快速标记器:
然后将输出传递给我的 batch_encode_plus:
但是 batch_encode_plus 返回以下错误:
TypeError:batch_text_or_text_pairs 必须是一个列表(得到 <class 'numpy.ndarray'>)
python - HuggingFace Bert 情绪分析
我收到以下错误:
AssertionError: text input must of type str (single example), List[str] (batch or single pretokenized example) or List[List[str]] (batch of pretokenized examples).
,当我跑步时classifier(encoded)
。我的文本类型是str
所以我不确定我做错了什么。非常感谢任何帮助。
pytorch - 为什么使用 GPT2Tokenizer 将阿拉伯字符转换为符号?
我正在尝试将GPT2用于阿拉伯语文本分类任务,如下所示:
但是,当我使用标记器时,它会将阿拉伯字符转换为像这样的符号
'ĠÙĥتÙĬر'