问题标签 [lingpipe]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 LingPipe 使用朴素贝叶斯对数据进行分类
我想根据其内容将某些数据分类为不同的类。我使用朴素贝叶斯分类器完成了它,我得到了一个输出作为它所属的最佳类别。但是现在我想将训练集中的新闻以外的新闻分类到“其他”类中。我不能手动将训练数据以外的每个/每个数据添加到某个类中,因为它有大量其他类别。那么有什么方法可以对其他数据进行分类吗?
lucene - DBPedia-Spotlight..中的lucene索引文件有什么用?
我正在尝试在给定文本中查找命名实体。为此,我尝试使用 DBPedia 聚光灯服务。
我能够从中得到回应。但是,DBPedia 数据集是有限的,所以我尝试用我自己的字典替换他们的 spotter.dict 文件。我的字典每行包含实体:
Sachin Tendulkar###PERSON
巴拉克奥巴马###PERSON
.... ETC
然后我解析这个文件并构建一个
ExactDictionaryChunker
对象。现在我可以获取实体及其类型(修改 dbpedia 代码后)。
我的问题是:DBPedia 聚光灯正在使用 Lucene 索引文件。我真的不明白他们使用这些文件的目的是什么?
我们可以在不使用索引文件的情况下做到这一点吗?索引文件的意义是什么?
java - 在 Lingpipe 中使用 Bernoulli 分类器进行分类
我想通过lingpipe中的伯努利分类器对我的数据进行分类如果有人有它的工作方法,请分享
nlp - 使用 NLP 进行实体识别和情感分析
所以,这个问题可能有点幼稚,但我认为问 Stackoverflow 的友好人士不会有什么坏处。
我现在的公司一段时间以来一直在使用第三方 API 进行 NLP。我们基本上是对一个字符串进行 URL 编码并将其发送过来,它们会为我们提取某些实体(我们有一个我们正在寻找的实体列表)并返回一个实体的 json 映射:sentiment。我们最近决定将这个项目引入内部。
在过去的两天里,我一直在研究 NLTK、Stanford NLP 和 lingpipe,但不知道我是否基本上是在重新发明轮子来做这个项目。
我们已经有包含原始非结构化文本的大量表格和另一个包含从该文本中提取的实体及其情绪的表格。实体是单个单词。例如:
非结构化文本:现在是床。这不是最好的。
实体:床
情绪:负面
我相信这意味着我们有训练数据(非结构化文本)以及实体和情感。现在,我如何在其中一个 NLP 框架上使用这些训练数据并获得我们想要的东西?没有线索。我有一些步骤,但不确定:
- 标记句子
- 分词
- 找出句子中的名词(词性标注)
- 找出那句话的情绪。
但这对于我上面提到的情况应该失败,因为它用两个不同的句子谈论床?
所以问题是 - 有没有人知道完成上述任务的最佳框架是什么,以及相同的任何教程(注意:我不是在寻求解决方案)。如果你以前做过这些事情,这个任务是否太大而无法承担?我查找了一些商业 API,但它们的使用成本高得离谱(我们是一家小型初创公司)。
感谢堆栈溢出!
java - 从给定文本中识别所有名称
我想识别任何文本中写的所有名称,目前我正在使用 IMDB 电影评论。
我正在使用 stanford POS 标记器,并分析所有专有名词(因为专有名词是人名、事物、地点的名称),但这很慢。
首先,我标记所有输入行,然后我检查所有带有 NNP 的单词,这是一个缓慢的过程。
是否有任何有效的替代品来完成这项任务?任何库(最好在 JAVA 中)。谢谢。
java - 我如何使用 LingPipe 工具提取阿拉伯语命名实体
我正在尝试使用 Lingpipe 工具从阿拉伯文本中提取命名实体识别(人名)。我阅读了有关此工具的教程 http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html
我如何将结果保存在文件中。谢谢
java - 如何在 lingpipe 分类器中添加特征?
现在我只是在数据集上训练 DynamicLMClassifier 并将我的文本分类。如何添加一个特征,以便分类器赋予某些词更多的权重,例如,如果这句话包含“专业”,它很可能属于 A 类?或者如何根据段落而不是 ngram 进行分类?
我注意到有一个特征提取器,但它似乎没有接受参数。
java - 使用 naiva bayes 对 mongodb 中的数据进行分类
我想mongodb
使用朴素贝叶斯将数据库中的新闻分类到某些特定类别。
我的训练数据包含体育、艺术、娱乐等领域的不同新闻。我必须训练这些数据并建立模型,然后应用测试数据来检查其准确性。我已经完成了显示良好准确性但问题是现在我必须在数据库中训练数据……我为此使用了 lingpipe工具……
现在我想要的是我mongodb
的数据库根据每个类别有不同的数据集......我怎样才能在数据库中训练数据......这可能吗???
nlp - 使用潜在语义分析来衡量段落相似度
我目前正在开发一个程序来根据其语义(含义)比较两段文本。我知道有诸如 lingpipe 之类的库提供了比较字符串距离的有用方法,但是我听说 LSA 是测量文本相似度的最佳方法。
我只是对使用 LSA 来测量文本相似性感到困惑。我知道这个过程是,使用 LSA,
我只是想知道...
A. 在 SVD 中,矩阵被缩减为 3 个更小的矩阵。那么这些较小的矩阵中的哪一个用于余弦距离测量?
B. 余弦距离通常应用于向量。因此,在将它们应用于矩阵的情况下,我假设迭代矩阵并在每 2 个向量之间测量余弦距离。然后假设所有这些距离的平均值是这两个矩阵之间的最终余弦距离?
我知道这是一个非常小众的话题,但我希望对这两个问题有所了解。谢谢