问题标签 [nltk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何使这个 Python2.6 函数与 Unicode 一起使用?
我有这个功能,我从在线 NLTK 书籍第 1 章中的材料修改。它对我非常有用,但是,尽管阅读了关于 Unicode 的章节,我还是像以前一样迷失了方向。
前几天我在 Also Sprach Zarathustra 上尝试它时,它在 o 和 u 上用 umlat 拼写单词。我相信你们中的一些人会知道为什么会这样。我也确信它很容易修复。我知道它只是与调用一个将标记重新编码为 unicode 字符串的函数有关。如果是这样,在我看来它可能根本不会发生在该函数定义中,但在这里,我准备写入文件:
我听说我必须做的是在从文件中读取字符串后将其编码为 unicode。我尝试像这样修改函数:
但这带来了这个错误,当我在匈牙利语上使用它时。当我在德语上使用它时,我没有错误。
我修复了像这样归档数据的函数:
但是,当我尝试提交德语时,这带来了这个错误:
...这是您尝试写入 u'\n'.join'ed 数据时得到的结果。
nlp - 使用 NLTK 中的自定义文件/代码改进实体命名
在最近的一个项目中,我们一直在使用 NLTK 库,我们主要对命名实体部分感兴趣。
一般来说,使用 NEChunkParser 类我们会得到很好的结果。然而,我们试图找到一种方法来向解析器提供我们自己的术语,但没有成功。
例如,我们有一个测试文档,其中我的名字 (Shay) 出现在多个位置。图书馆发现我是 GPE,而我希望它发现我是 PERSON……
有没有办法提供某种自定义文件/代码,以便解析器能够按照我的意愿解释命名实体?
谢谢!
python - 如何用Python检查一个单词是否是英文单词?
如果一个单词在英语词典中,我想检查一个 Python 程序。
我相信 nltk wordnet 接口可能是要走的路,但我不知道如何将它用于如此简单的任务。
将来,我可能想检查一个单词的单数形式是否在字典中(例如,属性-> 属性-> 英文单词)。我将如何实现这一目标?
python - 如何更快地计算 nltk 纯文本语料库中的单词?
我有一组文档,我想返回一个元组列表,其中每个元组都有给定文档的日期以及给定搜索词在该文档中出现的次数。我的代码(如下)可以工作,但速度很慢,而且我是 n00b。有没有明显的方法可以加快速度?任何帮助将不胜感激,主要是为了让我可以学习更好的编码,同时也让我可以更快地完成这个项目!
python - nltk 自定义标记器和标记器
这是我的要求。我想以允许我实现以下内容的方式标记和标记段落。
- 应该在段落中识别日期和时间并将它们标记为日期和时间
- 应该识别段落中的已知短语并将它们标记为 CUSTOM
- 其余内容应该被标记化应该被默认的nltk的word_tokenize和pos_tag函数标记化?
例如,下面的句子
如果自定义短语是“我不感兴趣”,则应按如下方式标记和标记。
任何建议都会很有用。
python - Nltk 安装
想要设置python的nltk
库,包括wordnet
这样一种方式,它可以很容易地从开发系统复制到生产服务器,而不需要wordnet
单独下载。
任何建议都会有所帮助...
nlp - 我可以使用命名实体识别来识别 Intranet 页面内容吗?
我是自然语言处理的新手,我想通过创建一个简单的项目来了解更多信息。NLTK被建议在 NLP 中流行,所以我将在我的项目中使用它。
这是我想做的事情:
- 我要扫描我们公司的内网页面;大约 3K 页
- 我想根据某些标准解析和分类这些页面的内容,例如:人力资源、工程、公司页面等...
从我目前阅读的内容来看,我可以使用命名实体识别来做到这一点。我可以为每个页面类别描述实体,训练 NLTK 解决方案并运行每个页面以确定类别。
这是正确的方法吗?我很欣赏任何方向和想法......
谢谢
python - 在 NLTK 解析器中使用整数/日期作为终端
我正在尝试使用 NLTK 中的 Earley 解析器来解析句子,例如:
如果日期在 2010 年 12 月 21 日之前,则序列号 = 10
为此,我正在尝试编写 CFG,但问题是我需要将日期和整数的通用格式作为终端,而不是特定值。有没有办法将生产规则的右侧指定为正则表达式,这将允许这种处理?
就像是:
它将处理所有整数。
python - 在python nltk中为给定单词提取不同的POS词
python nltk中是否有任何包可以为给定单词生成所有不同的词性单词。例如,如果我给出加法(动词),那么它必须产生加法(名词),加法(adj)等等。谁能告诉我?