3

重写:

我有一个计算机科学相关文档的语料库。我想提取特定领域的关键字。例如 JAVA、C#、HTML、OOP、UML、Unity 等。我一直在寻找类似于牛津词典的计算资源,但是它们的 API 尚未启动并运行。我还尝试过 Webopedia 的计算机科学术语,但它的包容性和更新性不高(例如,它不包括我的文档中的某些单词,例如 F#),或者在 Wikipedia 的情况下,所有术语都没有一起列出。是否有更包容的来源或适当的方法来提取这些关键字?我正在将 Python 与 NLTK 一起使用。例如,tf-idf 没有帮助,因为某些领域特定的词几乎在所有文档中都很常见,因此这些词没有得到很高的评价。我认为如果我可以使用 POS 标记会很有帮助,但我不确定哪个选项最适合我的应用程序。以下面的字符串为例:

“JavaScript、JSON 和 AJAX 方面的专家级能力,以及对 JQuery 等 JavaScript 框架的深入了解” 这里我想提取这些词:['JavaScript', 'JSON', 'AJAX', 'Frameworks', 'JQuery '] 但是当我使用 NLTK 的 POS 标记搜索名词时,我也会得到“水平”、“能力”、“知识”……。谢谢你的帮助。

4

1 回答 1

7

为什么不下载 StackOverflow 数据转储并编写一个程序来过滤标签?

它们刚刚在archive.org上发布,见这里

当然,它不会包括所有术语,并且会有一些误报,但我认为这与您将得到的一样接近。

于 2014-01-27T01:06:57.163 回答