问题标签 [distilbert]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - TextEncodeInput 在尝试标记时必须是 Union[TextInputSequence, Tuple[InputSequence, InputSequence]]
尝试使用 distilBert 进行标记时遇到一些问题。我使用 Jupyter 笔记本。
这是我的完整代码
据说问题出在这行代码:
idx = [tokenizer.encode(seq.split(" ")) for seq in txt_seq]
我收到以下错误:
TypeError: TextEncodeInput must be Union[TextInputSequence, Tuple[InputSequence, InputSequence]]
有人可以帮我吗?谢谢!
python - ValueError: Failed to convert a NumPy array to a Tensor (Unsupported object type list) (我先创建了一个eclipse)
当我在 .predict 函数中传递 freq_representation 时,它给了我错误 ValueError: Failed to convert a NumPy array to a Tensor (Unsupported object type list)。如何解决?(查看代码的下半部分)。我附上了完整的代码,以便人们更好地解释。
keyword - BER主题;主题表征
我试图在 BERTopic 中找到合适的主题表征方式。现在通过keyword_list = topic_model.get_topic(31)[:10] 完成。这样做的一个缺点是像“hotel”和“hotels”这样的词是独立的关键词,显然不是这样的
一个“技巧”是在聚类完成后将原始文本更改为引理。
我可以通过将keyword_list 做得很长,对这100 个或更多的关键字进行词形还原,然后将前10 个作为主题的关键字。通过修改 BERTopic 调用的 CountVectorizer 似乎是可能的,但我不知道该怎么做
任何人的建议,线索?
谢谢,
安德烈亚斯
python - 如何保存经过微调的 DistilBert 模型?
我微调了 HuggingFace 的 DistilBert 模型以进行序列分类(Claim vs. Premise vs. Non-Arg.)。
我正在尝试使用 save_pretrained 函数保存模型,但出现此错误:
型号代码如下
有没有人有同样的问题或想法我该如何解决?
python - 如何用 distilbert tokenizer 解决这个问题?
Sentences 是一个包含列表的列表
我收到这个错误
它适用于句子片段
例如
编译得很好,但如果我做句子[:77]有一个错误
tensorflow - 训练 distilbert-base-uncased 模型时出错
我在处理 distilbert-base-uncased 分类器时遇到以下错误。
'NoneType' 和 'int' 的实例之间不支持 '>' 这里是代码 -