nlp - NLP：从文本中检索词汇

Question

我有一些不同语言的文本，并且可能存在一些拼写错误或其他错误，我想检索他们自己的词汇。我一般对 NLP 没有经验，所以也许我用了一些词不当。

词汇表是指单一语言的单词集合，其中每个单词都是唯一的，并且不考虑性别、数字或时态的变化（例如think 、 thinks和think are all 考虑think）。

这是主要问题，所以让我们将其简化为一种语言的词汇检索，例如英语，并且没有错误。

我认为（至少）有三种不同的方法，也许解决方案包括它们的组合：

在相互关联的单词数据库中搜索。所以，我可以搜索思想（考虑动词）并阅读相关信息认为思想是思想的变化
通过处理变形形式来计算单词的“基本形式”（没有变形的单词）。也许它可以用词干来完成？
通过任何 API 使用服务。是的，我也接受这种方法，但我更愿意在本地进行

对于第一个近似值，算法没有必要区分名词和动词。例如，如果在文本中同时出现名词和动词的单词，则可以认为它在第二次匹配时已经出现在词汇表中。

我们减少了检索英文文本词汇的问题，没有错误，也没有考虑单词的标签。

关于如何做到这一点的任何想法？或者只是一些提示？

当然，如果您对这个问题也有其他限制（错误和多语言，不仅是印欧语言）的建议，他们将不胜感激。

score 2 · Accepted Answer

您需要词形还原 - 它类似于您的第二个项目，但不完全是（差异）。

尝试Python 的nltk lemmatizer或Java 的Standford NLP / Clear NLP。实际上 nltk 使用 WordNet，所以它实际上是第一种和第二种方法的结合。

为了应对错误，在词形还原之前使用拼写更正。查看相关问题或谷歌以获取适当的库。

关于词性标签 - 不幸的是，nltk 不考虑词性标签（以及一般的上下文），因此您应该为它提供可以通过 nltk 词性标签找到的标签。同样，这里已经讨论过（以及相关/链接的问题）。我不确定斯坦福 NLP 在这里 - 我想它应该考虑上下文，但我确信 NLTK 会这样做。正如我从这段代码中看到的，斯坦福不使用 POS 标签，而 Clear NLP 使用。

关于其他语言 - 用于词形还原模型的谷歌，因为大多数语言（至少来自同一家族）的算法几乎相同，差异在于训练数据。看看这里的德语例子；如我所见，它是几个词形还原器的包装器。

但是，您始终可以以精度为代价使用词干分析器，并且词干分析器更容易用于不同的语言。

score 1 · Accepted Answer

主题词已成为当今世界日益激烈的辩论中不可或缺的一部分。有些人认为主题词（同义词）是有益的，而反对者则拒绝这一概念，称它会导致许多问题。从我的角度来看，主题词（同义词）在全球范围内的积极影响多于消极影响。本文将进一步阐述这一趋势的正面和负面影响，从而得出一个合理的结论。

一方面，有无数的论据支持我的信仰。这个话题有很多优点。最突出的一个是主题词（同义词）。根据西悉尼大学进行的研究，超过 70% 的用户赞成主题词（同义词）提供的好处。其次，论文题目的优势。因此，可以说主题词（同义词）在我们的生活中起着至关重要的作用。

另一方面，批评者可能会指出，主题词（同义词）最显着的缺点之一是由于缺点与主题相关。例如，在美国进行的一项调查揭示了这一缺点。因此，这个例子明确地表明它对我们的存在有各种负面影响。

结果，在进一步检查了几段之后，我深信它的好处多于缺点，而不是缺点。主题词（同义词）已成为我们生活中至关重要的一部分。因此，应提倡有效使用主题词（同义词）方法；但是，过度和滥用应该受到谴责。

nlp - NLP：从文本中检索词汇

2 回答 2

Related

Reference