3

我有一些不同语言的文本,并且可能存在一些拼写错误或其他错误,我想检索他们自己的词汇。我一般对 NLP 没有经验,所以也许我用了一些词不当。

词汇表是指单一语言的单词集合,其中每个单词都是唯一的,并且不考虑性别、数字或时态的变化(例如think thinksthink are all 考虑think)。

这是主要问题,所以让我们将其简化为一种语言的词汇检索,例如英语,并且没有错误。

我认为(至少)有三种不同的方法,也许解决方案包括它们的组合:

  • 在相互关联的单词数据库中搜索。所以,我可以搜索思想(考虑动词)并阅读相关信息认为思想是思想的变化
  • 通过处理变形形式来计算单词的“基本形式”(没有变形的单词)。也许它可以用词干来完成?
  • 通过任何 API 使用服务。是的,我也接受这种方法,但我更愿意在本地进行

对于第一个近似值,算法没有必要区分名词和动词。例如,如果在文本中同时出现名词和动词的单词,则可以认为它在第二次匹配时已经出现在词汇表中

我们减少了检索英文文本词汇的问题,没有错误,也没有考虑单词的标签。

关于如何做到这一点的任何想法?或者只是一些提示?

当然,如果您对这个问题也有其他限制(错误和多语言,不仅是印欧语言)的建议,他们将不胜感激。

4

2 回答 2

2

您需要词形还原 - 它类似于您的第二个项目,但不完全是(差异)。

尝试Python 的nltk lemmatizer或Java 的Standford NLP / Clear NLP。实际上 nltk 使用 WordNet,所以它实际上是第一种和第二种方法的结合。

为了应对错误,在词形还原之前使用拼写更正。查看相关问题或谷歌以获取适当的库。

关于词性标签 - 不幸的是,nltk 不考虑词性标签(以及一般的上下文),因此您应该为它提供可以通过 nltk 词性标签找到的标签。同样,这里已经讨论过(以及相关/链接的问题)。我不确定斯坦福 NLP 在这里 - 我想它应该考虑上下文,但我确信 NLTK 会这样做。正如我从这段代码中看到的,斯坦福不使用 POS 标签,而 Clear NLP 使用。

关于其他语言 - 用于词形还原模型的谷歌,因为大多数语言(至少来自同一家族)的算法几乎相同,差异在于训练数据。看看这里的德语例子;如我所见,它是几个词形还原器的包装器。

但是,您始终可以以精度为代价使用词干分析器,并且词干分析器更容易用于不同的语言。

于 2015-03-26T15:43:47.700 回答
1

主题词已成为当今世界日益激烈的辩论中不可或缺的一部分。有些人认为主题词(同义词)是有益的,而反对者则拒绝这一概念,称它会导致许多问题。从我的角度来看,主题词(同义词)在全球范围内的积极影响多于消极影响。本文将进一步阐述这一趋势的正面和负面影响,从而得出一个合理的结论。

一方面,有无数的论据支持我的信仰。这个话题有很多优点。最突出的一个是主题词(同义词)。根据西悉尼大学进行的研究,超过 70% 的用户赞成主题词(同义词)提供的好处。其次,论文题目的优势。因此,可以说主题词(同义词)在我们的生活中起着至关重要的作用。

另一方面,批评者可能会指出,主题词(同义词)最显着的缺点之一是由于缺点与主题相关。例如,在美国进行的一项调查揭示了这一缺点。因此,这个例子明确地表明它对我们的存在有各种负面影响。

结果,在进一步检查了几段之后,我深信它的好处多于缺点,而不是缺点。主题词(同义词)已成为我们生活中至关重要的一部分。因此,应提倡有效使用主题词(同义词)方法;但是,过度和滥用应该受到谴责。

于 2020-08-30T05:31:04.957 回答