问题标签 [nltk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 每次重新加载python模块时如何避免计算
我有一个使用巨大字典全局变量的 python 模块,目前我将计算代码放在顶部,每次第一次导入或重新加载模块需要超过一分钟,这是完全不可接受的。如何将计算结果保存在某处,以便下次导入/重新加载不必计算它?我尝试了 cPickle,但从文件(1.3M)加载字典变量的时间与计算时间大致相同。
要提供有关我的问题的更多信息,
python - NLTK 使用的实际例子
我正在使用自然语言工具包(NLTK)。
它的文档(Book和HOWTO)非常庞大,并且示例有时稍微高级一些。
NLTK 的使用/应用有什么好的但基本的例子吗?我正在考虑诸如Stream Hacker博客上的NTLK 文章之类的事情。
python - Python:用prefixStringSuffix替换字符串保持原始大小写,但在搜索匹配时忽略大小写
所以我想要做的是用
"<b>keyword</b>"
一个更大的字符串替换一个字符串“关键字”。
例子:
myString = "你好。你应该提高那个人的职位。你好,你好。"
关键字=“嗨”
我想要的结果是:
result = "<b>HI</b> there. You should higher that person for the job.
<b>Hi</b> <b>hi</b>."
在用户键入关键字之前,我不会知道关键字是什么,并且在运行查询之前不会知道语料库(myString)。
我找到了一个大部分时间都有效的解决方案,但有一些误报,
namely it would return "<b>hi<b/>gher"
这不是我想要的。另请注意,我试图保留原始文本的大小写,并且无论大小写如何都应该进行匹配。所以如果关键字是“hi”它应该替换
HI with <b>HI</b> and hi with <b>hi</b>.
我最接近的是使用这个稍微派生的版本: http ://code.activestate.com/recipes/576715/ 但我仍然无法弄清楚如何对字符串进行第二次传递以修复所有错误上面提到的积极因素。
或者使用 NLTK 的 WordPunctTokenizer(它简化了标点符号之类的一些事情),但我不确定如何将句子重新组合在一起,因为它没有反向功能并且我想保留 myString 的原始标点符号。本质上,连接所有标记不会返回原始字符串。例如,如果原始文本具有“7-7”,则在将标记重新组合为其原始文本时,我不想将“7-7”替换为“7-7”。
希望这已经足够清楚了。似乎是一个简单的问题,但结果却比我想象的要困难一些。
python - 从 Python 的 NLTK 中的自定义文本生成随机句子?
我在使用 Python 下的 NLTK 时遇到问题,特别是 .generate() 方法。
生成(自我,长度=100)
打印使用三元语言模型生成的随机文本。
参数:
这是我正在尝试的简化版本。
这将始终生成
与从单词中构建随机短语相反。
这是我的输出
再次从相同的文本开始,然后改变它。我也尝试过使用 Orwell 1984 年的第一章。同样,它总是从前3 个标记(在这种情况下其中一个是空格)开始,然后继续随机生成文本。
我在这里做错了什么?
linguistics - 我应该在 nltk 中使用哪个词干分析器?
我的目标是分析一些语料库(目前是 Twitter)的情感内容。就在今天,我意识到搜索词干比拥有详尽的情感词干列表更有意义。所以我一直在探索 nltk.stem 才意识到有 4 种不同的词干分析器。我想问问 stackoverflow 语言学家 LancasterStemmer、PorterStemmer、RegexpStemmer、RSLPStemmer 或 WordNetStemmer 是否最好有一些理由。
python - 在 Google App Engine 上使用 Python NLTK (2.0b5)
我一直在尝试使 NLTK(自然语言工具包)在 Google App Engine 上运行。我遵循的步骤是:
- 下载安装程序并运行它(一个 .dmg 文件,因为我使用的是 Mac)。
- 将 nltk 文件夹从 python 站点包目录中复制出来,并将其作为子文件夹放在我的项目文件夹中。
- 在包含 nltk 子文件夹的文件夹中创建一个 python 模块并添加以下行:
from nltk.tokenize import *
不幸的是,在启动它之后,我收到了这个错误(请注意,这个错误是在 NLTK 中引发的,我在我的系统安装 python 时看到它,而不是在 GAE 项目的子文件夹中的那个):
注意:这是上传到 GAE 时错误在日志中的显示方式。如果我在本地运行它,我会得到同样的错误(除了它似乎起源于我的 NLTK 站点包实例中......所以没有区别)。“xxxx”表示项目名称。
总而言之:
- 我想要做的甚至可能吗?NLTK 甚至会在 App Engine 上运行吗?
- 有什么我错过的吗?那就是:将“nltk”复制到GAE项目还不够?
编辑:修复错字并删除不必要的步骤
python - 德语词性标注
我正在使用 NLTK 从以以下命令开头的文本字符串中提取名词:
它在英语中运行良好。有没有一种简单的方法让它也适用于德语?
(我没有自然语言编程的经验,但我设法使用了迄今为止很棒的 python nltk 库。)
python - nltk 的标记器错误
我对 Python 很陌生,正在尝试结合使用 nltk 来学习。
我一直在关注一些示例并进行测试,但由于 python 返回的错误,我的能力似乎非常有限。
我知道 nltk 已安装并且导入正常,因为此代码有效
但是,'from nltk.tokenizer import *' 返回
使用任何类型的“TOKEN=”或我猜测任何东西的标记化时,我都会遇到类似的错误。在过去的几天里,我已经多次安装了 python,希望不同的版本或更好的安装可能会有所帮助。
我在使用 activePython2.6 的 windows7 上遇到了这个错误,尽管我在 python 3.1 activePython3.1 和 Python 2.6 上遇到了类似的错误。以及带有 Python 2.5 的 Mac OSx 10.5。
mac 使用“导入错误:没有名为 tokenizer 的模块。
我只是在网上尝试一些 nltk 的介绍性演示,甚至还没有尝试编写自己的代码,而且我得到的错误多于成功。