问题标签 [nltk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在文本中搜索地名
如果我需要在文本中标记地名,我必须学习和使用大型包 nltk 的哪一部分?
python - 从文本内容生成标签
我很好奇是否存在通过使用一些权重计算、出现率或其他工具从给定文本生成关键字/标签的算法/方法。
此外,如果您为此指出任何基于 Python 的解决方案/库,我将不胜感激。
谢谢
twitter - 从小文本内容(如推文)生成标签
我之前已经问过一个类似的问题,但我注意到我有很大的限制:我正在处理诸如用户推文之类的小型文本集以生成标签(关键字)。
似乎已接受的建议(逐点互信息算法)旨在处理更大的文档。
有了这个约束(处理少量文本),我如何生成标签?
问候
php - 使用 PHP 进行文本挖掘
我正在为我正在上的大学课程做一个项目。
我正在使用 PHP 构建一个简单的 Web 应用程序,该应用程序根据一组字典将推文分类为“积极”(或快乐)和“消极”(或悲伤)。我现在想到的算法是朴素贝叶斯分类器或决策树。
但是,我找不到任何 PHP 库可以帮助我进行一些严肃的语言处理。Python 有 NLTK ( http://www.nltk.org )。PHP有类似的东西吗?
我打算使用 WEKA 作为 Web 应用程序的后端(通过在 PHP 中的命令行中调用 Weka),但它似乎效率不高。
你知道我应该为这个项目使用什么吗?还是我应该切换到 Python?
谢谢
python - 无法在 NetBeans 中导入 nltk
我正在尝试导入NLTK
我的 python 代码,但出现此错误:
我正在使用NetBeans: 6.7.1
, Python 2.6 NLTK
。我的 NLTK 模块已安装/usr/local/lib/python2.6/dist-packages/nltk/
,我已将其添加Python
到Netbeans
.
我在这里想念什么?
提前致谢。
nlp - 使用示例数据或 Web 服务使用 NLTK python 对句子进行情感分析?
我正在着手进行情绪分析的 NLP 项目。
我已经成功地为 python 安装了 NLTK(这似乎是一个很棒的软件)。但是,我无法理解如何使用它来完成我的任务。
这是我的任务:
- 我从一个很长的数据开始(让我们从他们的网络服务中说数百条关于英国大选主题的推文)
- 我想把它分解成句子(或信息不超过 100 个左右的字符)(我想我可以在 python 中做到这一点??)
- 然后在所有句子中搜索该句子中的特定实例,例如“David Cameron”
- 然后我想检查每个句子中的正面/负面情绪并相应地计算它们
注意:我不太担心准确性,因为我的数据集很大,也不太担心讽刺。
以下是我遇到的麻烦:
我能找到的所有数据集,例如 NLTK 附带的语料库电影评论数据,都不是 web 服务格式。看起来这已经完成了一些处理。据我所知,处理(由斯坦福大学)是用 WEKA 完成的。NLTK 不可能自己做这一切吗?这里所有的数据集已经被组织成正/负,例如极性数据集http://www.cs.cornell.edu/People/pabo/movie-review-data/这是怎么做的?(按情感来组织句子,肯定是WEKA吗?还是别的什么?)
我不确定我是否理解为什么 WEKA 和 NLTK 会一起使用。似乎他们做的事情大致相同。如果我首先使用 WEKA 处理数据以查找情绪,为什么我需要 NLTK?是否有可能解释为什么这可能是必要的?
我发现了一些与此任务有些接近的脚本,但它们都使用相同的预处理数据。是否可以自己处理这些数据以查找句子中的情绪,而不是使用链接中给出的数据样本?
非常感谢任何帮助,这将为我节省很多头发!
干杯柯
python - Python NLTK 中的形容词名词化
有没有办法使用 NLTK 获得 Wordnet 形容词名词化?例如,对于happy
所需的输出将是happiness
.
我试图四处寻找,但什么也找不到。
java - Java 或 Python 分布式计算工作(学生预算)?
我有一个大型数据集(c. 40G),我想在实验室的几台计算机上用于一些 NLP(很大程度上是令人尴尬的并行),我没有root 访问权限,只有 1G 的用户空间。我用hadoop进行了实验,但当然这已经死了——数据存储在外部USB硬盘上,由于1G用户空间上限,我无法将其加载到dfs。我一直在研究几个基于 python 的选项(如果可以的话,我宁愿使用 NLTK 而不是 Java 的 lingpipe),分布式计算选项看起来像:
- 蟒蛇
- 迪斯科
在我的 hadoop 经验之后,我试图确保我尝试做出明智的选择——任何可能更合适的帮助将不胜感激。
亚马逊的 EC2 等并不是一个真正的选择,因为我几乎没有预算。
artificial-intelligence - 如何识别给定文本中的想法和概念
我目前正在开展一个项目,能够检测何时在正文中提到某个主题/想法将非常有用。例如,如果文本包含:
也许如果你告诉我更多关于琼斯先生是谁,那会有所帮助。如果我能描述一下他的外表,或者更好的是一张照片,那也很有用?
如果能够检测到此人要求提供琼斯先生的照片,那就太好了。我可以采取一种非常天真的方法,只寻找“照片”或“照片”这个词,但如果他们写了这样的东西,这显然是不好的:
请永远不要给我发琼斯先生的照片。
有谁知道从哪里开始?甚至可能吗?
我已经研究过 nltk 之类的东西,但我还没有找到一个人做类似事情的例子,我仍然不完全确定这种分析被称为什么。任何能让我离开地面的帮助都会很棒。
谢谢!
python - 文本挖掘:何时使用解析器、标记器、NER 工具?
我正在做一个关于挖掘博客内容的项目,我需要帮助区分使用哪种工具。什么时候使用解析器,什么时候使用标注器,什么时候需要使用 NER 工具?
例如,我想找出几个博客之间谈论最多的话题/主题;我是否使用词性标注器来抓取名词并进行频率计数?这可能是不够的,因为可以弹出非常通用的术语,对吗?或者我有可以匹配的类别列表和这些同义词吗?
顺便说一句,我正在使用 nltk,但我正在查看 stanford 标记器或解析器,因为有几个家伙说它很好。