问题标签 [nltk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
516 浏览

python - 在文本中搜索地名

如果我需要在文本中标记地名,我必须学习和使用大型包 nltk 的哪一部分?

0 投票
5 回答
28134 浏览

python - 从文本内容生成标签

我很好奇是否存在通过使用一些权重计算、出现率或其他工具从给定文本生成关键字/标签的算法/方法。

此外,如果您为此指出任何基于 Python 的解决方案/库,我将不胜感激。

谢谢

0 投票
2 回答
4476 浏览

twitter - 从小文本内容(如推文)生成标签

我之前已经问过一个类似的问题,但我注意到我有很大的限制:我正在处理诸如用户推文之类的小型文本集以生成标签(关键字)。

似乎已接受的建议(逐点互信息算法)旨在处理更大的文档。

有了这个约束(处理少量文本),我如何生成标签?

问候

0 投票
6 回答
17645 浏览

php - 使用 PHP 进行文本挖掘

我正在为我正在上的大学课程做一个项目。

我正在使用 PHP 构建一个简单的 Web 应用程序,该应用程序根据一组字典将推文分类为“积极”(或快乐)和“消极”(或悲伤)。我现在想到的算法是朴素贝叶斯分类器或决策树。

但是,我找不到任何 PHP 库可以帮助我进行一些严肃的语言处理。Python 有 NLTK ( http://www.nltk.org )。PHP有类似的东西吗?

我打算使用 WEKA 作为 Web 应用程序的后端(通过在 PHP 中的命令行中调用 Weka),但它似乎效率不高。

你知道我应该为这个项目使用什么吗?还是我应该切换到 Python?

谢谢

0 投票
2 回答
1064 浏览

python - 无法在 NetBeans 中导入 nltk

我正在尝试导入NLTK我的 python 代码,但出现此错误:

我正在使用NetBeans: 6.7.1, Python 2.6 NLTK。我的 NLTK 模块已安装/usr/local/lib/python2.6/dist-packages/nltk/,我已将其添加PythonNetbeans.

我在这里想念什么?
提前致谢。

0 投票
2 回答
16737 浏览

nlp - 使用示例数据或 Web 服务使用 NLTK python 对句子进行情感分析?

我正在着手进行情绪分析的 NLP 项目。

我已经成功地为 python 安装了 NLTK(这似乎是一个很棒的软件)。但是,我无法理解如何使用它来完成我的任务。

这是我的任务:

  1. 我从一个很长的数据开始(让我们从他们的网络服务中说数百条关于英国大选主题的推文)
  2. 我想把它分解成句子(或信息不超过 100 个左右的字符)(我想我可以在 python 中做到这一点??)
  3. 然后在所有句子中搜索该句子中的特定实例,例如“David Cameron”
  4. 然后我想检查每个句子中的正面/负面情绪并相应地计算它们

注意:我不太担心准确性,因为我的数据集很大,也不太担心讽刺。

以下是我遇到的麻烦:

  1. 我能找到的所有数据集,例如 NLTK 附带的语料库电影评论数据,都不是 web 服务格式。看起来这已经完成了一些处理。据我所知,处理(由斯坦福大学)是用 WEKA 完成的。NLTK 不可能自己做这一切吗?这里所有的数据集已经被组织成正/负,例如极性数据集http://www.cs.cornell.edu/People/pabo/movie-review-data/这是怎么做的?(按情感来组织句子,肯定是WEKA吗?还是别的什么?)

  2. 我不确定我是否理解为什么 WEKA 和 NLTK 会一起使用。似乎他们做的事情大致相同。如果我首先使用 WEKA 处理数据以查找情绪,为什么我需要 NLTK?是否有可能解释为什么这可能是必要的?

我发现了一些与此任务有些接近的脚本,但它们都使用相同的预处理数据。是否可以自己处理这些数据以查找句子中的情绪,而不是使用链接中给出的数据样本?

非常感谢任何帮助,这将为我节省很多头发!

干杯柯

0 投票
1 回答
1289 浏览

python - Python NLTK 中的形容词名词化

有没有办法使用 NLTK 获得 Wordnet 形容词名词化?例如,对于happy所需的输出将是happiness.

我试图四处寻找,但什么也找不到。

0 投票
4 回答
332 浏览

java - Java 或 Python 分布式计算工作(学生预算)?

我有一个大型数据集(c. 40G),我想在实验室的几台计算机上用于一些 NLP(很大程度上是令人尴尬的并行),我没有root 访问权限,只有 1G 的用户空间。我用hadoop进行了实验,但当然这已经死了——数据存储在外部USB硬盘上,由于1G用户空间上限,我无法将其加载到dfs。我一直在研究几个基于 python 的选项(如果可以的话,我宁愿使用 NLTK 而不是 Java 的 lingpipe),分布式计算选项看起来像:

  • 蟒蛇
  • 迪斯科

在我的 hadoop 经验之后,我试图确保我尝试做出明智的选择——任何可能更合适的帮助将不胜感激。

亚马逊的 EC2 等并不是一个真正的选择,因为我几乎没有预算。

0 投票
3 回答
1814 浏览

artificial-intelligence - 如何识别给定文本中的想法和概念

我目前正在开展一个项目,能够检测何时在正文中提到某个主题/想法将非常有用。例如,如果文本包含:

也许如果你告诉我更多关于琼斯先生是谁,那会有所帮助。如果我能描述一下他的外表,或者更好的是一张照片,那也很有用?

如果能够检测到此人要求提供琼斯先生的照片,那就太好了。我可以采取一种非常天真的方法,只寻找“照片”或“照片”这个词,但如果他们写了这样的东西,这显然是不好的:

请永远不要给我发琼斯先生的照片。

有谁知道从哪里开始?甚至可能吗?

我已经研究过 nltk 之类的东西,但我还没有找到一个人做类似事情的例子,我仍然不完全确定这种分析被称为什么。任何能让我离开地面的帮助都会很棒。

谢谢!

0 投票
1 回答
1111 浏览

python - 文本挖掘:何时使用解析器、标记器、NER 工具?

我正在做一个关于挖掘博客内容的项目,我需要帮助区分使用哪种工具。什么时候使用解析器,什么时候使用标注器,什么时候需要使用 NER 工具?

例如,我想找出几个博客之间谈论最多的话题/主题;我是否使用词性标注器来抓取名词并进行频率计数?这可能是不够的,因为可以弹出非常通用的术语,对吗?或者我有可以匹配的类别列表和这些同义词吗?

顺便说一句,我正在使用 nltk,但我正在查看 stanford 标记器或解析器,因为有几个家伙说它很好。