我有希伯来语单词。其中一部分最初是英文,一部分是“希伯来语英语”,意思是那些最初来自英语但用希伯来语单词写成的单词。例如:希伯来语中的“胰岛素”是“אינסולין”(同音)。
我有一个简单的二进制数据集。X:单词(用希伯来字符书写) y:如果单词最初是英文并且用希伯来字符书写,则标记 1,否则为 0
我试过使用分类器,但它的输入是全文,而我的输入只是单词。
我不希望任何 MASKING 发生,我只想要简单的分类。
是否可以将 BERT 用于此任务?谢谢
我有希伯来语单词。其中一部分最初是英文,一部分是“希伯来语英语”,意思是那些最初来自英语但用希伯来语单词写成的单词。例如:希伯来语中的“胰岛素”是“אינסולין”(同音)。
我有一个简单的二进制数据集。X:单词(用希伯来字符书写) y:如果单词最初是英文并且用希伯来字符书写,则标记 1,否则为 0
我试过使用分类器,但它的输入是全文,而我的输入只是单词。
我不希望任何 MASKING 发生,我只想要简单的分类。
是否可以将 BERT 用于此任务?谢谢
BERT 旨在处理上下文中的单词。在没有上下文的情况下,类似 BERT 的模型相当于简单的 word2vec 查找(有花哨的标记化,但我不知道它如何与希伯来语一起使用——可能效率不高)。因此,如果您真的想在分类器中使用分布特征,您可以采用预训练的 word2vec 模型——它比 BERT 更简单,而且功能同样强大。
但我不确定它是否会起作用。Word2vec 及其等价物(如没有上下文的 BERT)对单词的内部结构知之甚少 - 仅了解它所使用的上下文。但是,在您的问题中,单词结构比可能的上下文更重要。例如,单词 בלוטת(腺体)或 דם(血液)或 סוכר(糖)经常出现在与胰岛素相同的上下文中,但 בלוטת 和 דם 是希伯来语,而 סוכר 是英语(好吧,最初是阿拉伯语,但我们可能不感兴趣在太古老的起源)。您只是无法仅从上下文中预测它。
那么为什么不从一些简单的模型(例如逻辑回归甚至朴素贝叶斯)开始而不是简单的特征(例如字符 n-gram)呢?也可以添加分布特征(我的意思是 w2v),因为它们讲述了主题,并且主题可能是信息丰富的(例如,在医学和一般技术中,英语单词可能比其他领域更多)。