问题标签 [textblob]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Pickle 可以处理大于我机器上安装的 RAM 的文件吗?
我正在使用 pickle 将使用 TextBlob 库构建的 NLP 分类器保存在磁盘上。
经过与此问题相关的大量搜索后,我正在使用 pickle 。目前我在本地工作,使用 i7 和 16gb RAM 机器加载 pickle 文件(1.5Gb)没有问题。但我的想法是,我的程序将来必须在我的服务器上运行,它只安装了 512Mb RAM。
泡菜可以处理这么大的文件还是我会面临内存问题?
在我的服务器上,我安装了 Python 3.5,它是一个 Linux 服务器(不确定是哪个发行版)。
我问是因为目前我无法访问我的服务器,所以我不能只是尝试找出发生了什么,但同时我怀疑我是否可以保持这种方法或者我必须找到其他方法解决方案。
machine-learning - 使用 TextBlob 进行文本分类
我是机器学习、NLP、数据分析方面的新手,但我非常有动力去更好地理解它。我正在阅读几本关于 NLTK、scikit-learn 等的书籍。我发现了一个 Python 模块“TextBlob”,并发现它非常容易上手。因此,我创建了一个示例演示 python 脚本,托管在:https ://gist.github.com/dpnishant/367cef57a8033138eb0a 。我正在尝试找出最适合情绪分析和文本分类的算法。我的问题如下:
为什么即使在这么小的训练集上,NaiveBayesClassifier 中的情感分析也很慢?这个时间是恒定的还是会随着更多的训练数据而增加更多?并且情绪分析也不正确(参考脚本输出,它对输入文本“三明治很好”表示“否定”)。我究竟做错了什么?
我在 TextBlob 的文档中读到 NaiveBayesClassifier 是在 movie_review 语料库上训练的。是否有任何 api 我可以将其更改为其他内容,也许是 nps_chat?我不太清楚的是语料库的作用是什么?我的意思是,我们正在使用我们自己的样本训练数据训练分类器,那么更具体的语料库(例如 nps_chat、product_reviews、moview_review 等)将如何提供帮助?
我知道我需要训练一个分类器才能处理未标记的数据。但是,如果训练数据变得庞大,那么处理它的最佳方法是什么?程序应该每次都从训练数据中构建模型,还是有办法将模型保存到文件(比如pickle)并从那里读取?TextBlob 是否有可能,并且这种方法是否会提高性能?
在我的脚本中,在最后一个块中,我试图通过 NLTKClassifier 模块评估 SklearnClassifier,但我没有运气。它会抛出一些神秘的错误消息。你能帮我解决它吗?如果可能的话,我还可以请求您展示一些有关使用 TextBlob 文档网站上的 nltk.classify 包中可用的算法/分类器的示例,例如 Megam、LogisticRegression、SVM、BernoulliNB、GaussianNB 等。了解每种算法的适用性将消除像我这样的初学者的很多疑问。
python - textblob.sentiments 只给出积极的情绪
我开始使用 textblob (0.11) 和 python (2.7) 进行情绪分析程序。我正在从 twitter 获取推文并解码 json 以从推文中提取文本,然后将此文本输入到情绪分析代码中。该代码运行良好,但每次都将情绪输出为“pos”。对于许多明显负面的文本,程序将情绪显示为“Pos”
请帮助
python - 为 textblob 设置代理
我已经安装了 textblob,我想执行简单的翻译。
问题是,我不知道在哪里指定代理身份验证。你能告诉我在哪里指定用户名、密码和代理地址,以便我可以让它工作吗?
python - 机器学习与非英语单词的朴素贝叶斯
我使用 python 的文本 blob 库和文本 blob 的朴素贝叶斯分类器。我了解到它使用 nltk 朴素贝叶斯分类器。这是问题:我的输入句子是非英语的(土耳其语)。有可能吗?我不知道它是如何工作的。但我尝试了 10 个训练数据,似乎奏效了。我想知道它是如何工作的,这个 nltk 的天真的宝贝分类器,在非英语数据上。有什么缺点?
python - 使用目录作为带有 python `textblob` 的 tf-idf 的输入
我正在尝试调整此代码(在此处找到源代码)以遍历文件目录,而不是对输入进行硬编码。
我想在目录中使用一个输入 txt 文件,而不是每个硬编码的document
.
例如,假设我有一个目录foo
,其中包含三个文件file1
, file2
, file3
.
文件1包含包含的内容document1
,即
文件1:
文件2包含包含的内容document2
,即
文件3包含包含的内容document3
,即
我不得不使用它glob
来实现我想要的结果,并且我提出了以下代码适配,它可以正确识别文件,但不会像原始代码那样单独处理它们:
如何使用 维护每个单独文件的分数glob
?
使用目录中的文件作为输入后的预期结果将与原始代码相同[结果被截断到前 3 位以获得空间]:
这里有一个类似的问题并没有完全解决问题。我想知道如何调用文件来计算idf
但单独维护它们以计算完整tf-idf
?
python - 为什么 Python 只在循环的第一次迭代时执行操作
我在牛津词典中运行了一个小循环,查找并打印出定义中包含其中一个单词的任何单词search_list
但是当我使用例如列表运行它时: `['hello', 'next', 'from'] 它只在第一次运行循环。有谁知道为什么会这样?
python - 如何更正 Pandas DataFrame 中的拼写
使用TextBlob库,可以通过首先将字符串定义为 TextBlob 对象然后使用该correct
方法来改进字符串的拼写。
例子:
是否可以对 Pandas DataFrame 系列中的字符串执行此操作,例如:
要返回这个:
使用 TextBlob 或其他方法。
python - Python textblob 翻译 API 错误
我textblob
在 Windows 上使用 Python 2.7.10 已经有一段时间了,出乎意料的是,它停止了工作。使用两个独立的虚拟机以及在 OS X 上进行测试会产生相同的错误。
测试文档中的一个简单片段:
产生错误:
如何调试此错误?
python - 对 csv 文件的 Textblob 情绪分析
我有一个包含大约 50 行句子的 csv 文件。我正在使用 textblob 情绪分析工具。为了测试一个句子的极性,这个例子展示了你写了一个句子,并显示了极性和主观性。但是,它只适用于一个句子,我希望它适用于我拥有的 csv 文件,因为我不能放入每一行并单独测试它们,因为它会花费太长时间。我该怎么做呢?
TextBlob 显示这个例子,当我输入一个句子时,极性显示,你不能一次输入两个句子,它不让你。我如何将我的 csv 文件输入到下面的示例中,以便为我提供所有行的极性?
编辑了 chishaku 解决方案,它对我有用。解决方案: