问题标签 [nltk-trainer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 使用机器学习算法进行词分类
我是机器学习的新手。我目前想要的是对某些单词是否属于某个类别进行分类..
让我更具体地说,在输入一些单词时,我需要检查这些单词是否属于称为“马拉雅拉姆语”的语言。
示例:enthayi ninakk sugamanno?
这些是一些用英语表达的马拉雅拉姆语单词。在给出这样的输入时,它需要检查经过训练的数据,如果任何输入词属于“马拉雅拉姆语”类别,那么它需要显示它是马拉雅拉姆语。
我试图做的..
我尝试使用 NaiveBayesClassifier 对其进行分类,但它始终显示所有输入数据的积极响应。
但是打印语句给出了输出“马拉雅拉姆语”
python - 是否可以只修改和运行 Python 程序的一部分,而不必一次又一次地运行所有程序?
我已经编写了一个 Python 代码来训练来自 NLTK 库的 Brill Tagger 大约 8000 个英语句子并标记大约 2000 个句子。
Brill Tagger 需要很多很多小时来训练,最后当它完成训练时,程序的最后一条语句有一些微小的语法错误,因此代码没有返回输出。
是否可以在纠正错误并使程序运行的同时将标注器保持在训练状态,而无需等待几个小时让标注器接受相同数据的训练?
machine-learning - 词汇量大小和嵌入维度之间的首选比率是多少?
当使用例如gensim、word2vec或类似的方法来训练您的嵌入向量时,我想知道什么是好的比率,或者嵌入维度与词汇大小之间是否存在首选比率?此外,随着更多数据的出现,这种情况会如何变化?
由于我仍在讨论这个话题,在训练嵌入向量时如何选择一个好的窗口大小?
我问这个是因为我不是用现实生活中的语言词典来训练我的网络,而是这些句子将描述进程和文件以及其他进程之间的关系等等。例如,我的文本语料库中的句子如下所示:
smss.exe irp_mj_create systemdrive windows system32 ntdll dll DesiredAccess: Execute/Traverse, Synchronize, Disposition: Open, Options: , Attributes: n/a, ShareMode: Read, AllocationSize: n/a, OpenResult: Opened"
正如您可能想象的那样,变化很多,但问题仍然是我如何以最佳方式微调这些超参数,以便嵌入空间不会过度拟合,而且每个单词都有足够的有意义的特征。
谢谢,
加布里埃尔
python - 如何为文件中的所有单词添加标签?
我有一个包含单词的文件,我想读取这个文件并在所有单词前面添加一个标签。标签应加在单词的右侧。例如。book - "O"
, Berlin - "O"
. 如何在python中做到这一点?我已经尝试过这段代码,但没有给出我的答案。
python - NLTK 保存经过训练的 Brill 模型
我正在使用py-crfsuite
NLTK 中提供的方法训练 Brill 的 POS 标记器。但是,当我尝试保存经过训练的模型时,出现以下错误:
pycrfsuite._pycrfsuite.Tagger 中的文件“stringsource”,第 2 行。reduce_cython 类型错误 :self.c_tagger 无法转换为 Python 对象进行酸洗
我尝试过使用,pickle
但是错误似乎仍然存在。有没有办法解决这个问题。这是因为使用 CRF 标记器作为基线吗?谢谢你。dill
yaml
python - NLTK 自定义分类语料库不读取文件
我创建了自己的语料库,类似于 nltk 中的 movie_reviews 语料库(按 neg|pos 分类。)
在 neg 和 pos 文件夹中是 txt 文件。
代码:
当我尝试阅读这些文件或与其中一个文件进行交互时,我无法做到。
例如len(mr.categories())
运行,但不返回任何内容:
我已经阅读了有关自定义分类语料库的多个文档和问题,但我仍然无法使用它们。
完整代码:
我最终希望能够对我的数据执行朴素贝叶斯算法,但我无法读取内容。
路径:
C:\mycorpus\pos
pos 文件中包含一个“cv.txt”,而 neg 包含一个“example.txt”
python-3.x - Windows Anaconda 中的 nltk pos_tag 错误
虽然我希望使用 pos_tag 函数收集 POS 标签,但发生以下错误。我包含了 nltk 所需的所有包。nltk 版本为 3.3 并在 conda 环境中运行。python版本是3.6。每个 nltk 包都是使用 nltk 下载函数下载的,但是每次我运行 pos_tag 函数时都会引发以下错误。
python-3.x - 如何将情感分析脚本与聊天机器人集成以在同一控制台屏幕中分析用户的回复?
我想制作一个聊天机器人,它使用情绪分析器脚本来了解我已完成聊天机器人制作的用户回复的情绪。
现在我唯一想做的就是使用这个脚本来分析用户使用我制作的聊天机器人的回复。
我应该如何将这个Sentiment_analysis.py脚本与chatbot.py文件集成来分析用户的情绪 ?
更新:
整体表现会是这样的:
聊天机器人:你今天过得怎么样?
用户:这是一个很棒的一天。我今天感到非常高兴和有动力。
用户回复:正面
情绪分数=(一些随机值)
提前谢谢你。
python - 如何批量训练 NLTK PunktSentenceTokenizer?
我正在尝试将财务文件拆分为句子。我有大约 50.000 个包含纯英文文本的文档。总文件大小约为 2.6 GB。
我正在使用PunktSentenceTokenizer
带有标准英语泡菜文件的 NLTK。我还通过提供额外的缩写对其进行了调整,但结果仍然不够准确。
由于 NLTK PunktSentenceTokenizer 基于 Kiss & Struk (2006) 的无监督算法,我正在尝试根据我的文档训练句子标记器,基于nltk punkt 的训练数据格式。
不幸的是,在运行代码时,我收到了一个错误,即内存不足。(主要是因为我首先将所有文件连接到一个大文件中。)
现在我的问题是:
- 如何批量训练算法,这会降低内存消耗吗?
- 我可以使用标准的英语泡菜文件并使用已经训练过的对象进行进一步的训练吗?
我在 Core I7 2600K 和 16GB RAM 机器上的 Windows 10 上使用 Python 3.6 (Anaconda 5.2)。
python - 在heroku上安装nltk包时出错
我正在尝试使用 nltk.txt 文件在 heroku 中安装 nltk 包。在我的 nltk.txt 文件中只写入了 punkt。在 requirements.txt 文件中写入了 nltk。但是当推动它时,它会显示错误。请帮助解决我的问题