deep-learning - 使用 BERT 检测给定单词的语言

Question

我有希伯来语单词。其中一部分最初是英文，一部分是“希伯来语英语”，意思是那些最初来自英语但用希伯来语单词写成的单词。例如：希伯来语中的“胰岛素”是“אינסולין”（同音）。

我有一个简单的二进制数据集。X：单词（用希伯来字符书写） y：如果单词最初是英文并且用希伯来字符书写，则标记 1，否则为 0

我试过使用分类器，但它的输入是全文，而我的输入只是单词。

我不希望任何 MASKING 发生，我只想要简单的分类。

是否可以将 BERT 用于此任务？谢谢

score 4 · Accepted Answer

BERT 旨在处理上下文中的单词。在没有上下文的情况下，类似 BERT 的模型相当于简单的 word2vec 查找（有花哨的标记化，但我不知道它如何与希伯来语一起使用——可能效率不高）。因此，如果您真的想在分类器中使用分布特征，您可以采用预训练的 word2vec 模型——它比 BERT 更简单，而且功能同样强大。

但我不确定它是否会起作用。Word2vec 及其等价物（如没有上下文的 BERT）对单词的内部结构知之甚少 - 仅了解它所使用的上下文。但是，在您的问题中，单词结构比可能的上下文更重要。例如，单词 בלוטת（腺体）或 דם（血液）或 סוכר（糖）经常出现在与胰岛素相同的上下文中，但 בלוטת 和 דם 是希伯来语，而 סוכר 是英语（好吧，最初是阿拉伯语，但我们可能不感兴趣在太古老的起源）。您只是无法仅从上下文中预测它。

那么为什么不从一些简单的模型（例如逻辑回归甚至朴素贝叶斯）开始而不是简单的特征（例如字符 n-gram）呢？也可以添加分布特征（我的意思是 w2v），因为它们讲述了主题，并且主题可能是信息丰富的（例如，在医学和一般技术中，英语单词可能比其他领域更多）。

deep-learning - 使用 BERT 检测给定单词的语言

1 回答 1

Related

Reference