问题标签 [distilbert]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
255 浏览

nlp - TextEncodeInput 在尝试标记时必须是 Union[TextInputSequence, Tuple[InputSequence, InputSequence]]

尝试使用 distilBert 进行标记时遇到一些问题。我使用 Jupyter 笔记本。

这是我的完整代码

据说问题出在这行代码:

idx = [tokenizer.encode(seq.split(" ")) for seq in txt_seq]

我收到以下错误:

TypeError: TextEncodeInput must be Union[TextInputSequence, Tuple[InputSequence, InputSequence]]

有人可以帮我吗?谢谢!

0 投票
0 回答
88 浏览

python - ValueError: Failed to convert a NumPy array to a Tensor (Unsupported object type list) (我先创建了一个eclipse)

当我在 .predict 函数中传递 freq_representation 时,它给了我错误 ValueError: Failed to convert a NumPy array to a Tensor (Unsupported object type list)。如何解决?(查看代码的下半部分)。我附上了完整的代码,以便人们更好地解释。

0 投票
0 回答
28 浏览

keyword - BER主题;主题表征

我试图在 BERTopic 中找到合适的主题表征方式。现在通过keyword_list = topic_model.get_topic(31)[:10] 完成。这样做的一个缺点是像“hotel”和“hotels”这样的词是独立的关键词,显然不是这样的

一个“技巧”是在聚类完成后将原始文本更改为引理。

我可以通过将keyword_list 做得很长,对这100 个或更多的关键字进行词形还原,然后将前10 个作为主题的关键字。通过修改 BERTopic 调用的 CountVectorizer 似乎是可能的,但我不知道该怎么做

任何人的建议,线索?

谢谢,

安德烈亚斯

0 投票
0 回答
31 浏览

python - 如何保存经过微调的 DistilBert 模型?

我微调了 HuggingFace 的 DistilBert 模型以进行序列分类(Claim vs. Premise vs. Non-Arg.)。

我正在尝试使用 save_pretrained 函数保存模型,但出现此错误:

型号代码如下

有没有人有同样的问题或想法我该如何解决?

0 投票
0 回答
79 浏览

python - 如何用 distilbert tokenizer 解决这个问题?

Sentences 是一个包含列表的列表

我收到这个错误

它适用于句子片段

例如

编译得很好,但如果我做句子[:77]有一个错误

0 投票
0 回答
17 浏览

tensorflow - 训练 distilbert-base-uncased 模型时出错

我在处理 distilbert-base-uncased 分类器时遇到以下错误。

  • 'NoneType' 和 'int' 的实例之间不支持 '>' 这里是代码 -