问题标签 [nlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2800 浏览

machine-learning - 自然语言处理中的二值化

二值化是将实体的彩色特征转换为数字向量(通常是二进制向量)的行为,以便为分类器算法提供良好的示例。

如果我们在哪里对句子“The cat ate the dog”进行二值化,我们可以首先为每个单词分配一个 ID(例如 cat-1、ate-2、the-3、dog-4),然后简单地将单词替换为它的 ID 给出了向量 <3,1,2,3,4>。

给定这些 ID,我们还可以通过为每个单词提供四个可能的槽位并将与特定单词对应的槽位设置为 1 来创建二进制向量,从而使向量 <0,0,1,0,1,0,0,0 ,0,1,0,0,0,0,0,1>。据我所知,后一种方法通常被称为词袋法。

现在我的问题是,在描述自然语言处理的一般特征,特别是基于转换的依赖解析(使用 Nivres 算法)时,最好的二值化方法是什么?

在这种情况下,我们不想对整个句子进行编码,而是要对解析的当前状态进行编码,例如堆栈上的顶部单词和输入队列中的第一个单词。由于顺序是高度相关的,这排除了词袋方法。

best,我指的是使数据对分类器最易理解的方法,而不会占用不必要的内存。例如,我不希望一个单词 bigram 对 20000 个唯一单词使用 4 亿个特征,如果实际上只有 2% 的 bigrams 存在的话。

由于答案也取决于特定的分类器,我最感兴趣的是最大熵模型(liblinear)、支持向量机(libsvm)和感知器,但也欢迎适用于其他模型的答案。

0 投票
4 回答
8075 浏览

algorithm - Stemming - 代码示例或开源项目?

词干是标记系统中需要的东西。我用delicious,我没有时间管理和修剪我的标签。我对我的博客更加小心,但它并不完美。我为嵌入式系统编写软件,如果它们包含词干提取功能,它们将更加实用(对用户有帮助)。

例如:
Parse
Parser
解析

对于我将它们放入的任何系统,都应该具有相同的含义。

理想情况下,某处有一个 BSD 许可的词干分析器,但如果没有,我在哪里可以学习常用的算法和技术?

除了 BSD 词干分析器,还有哪些其他开源许可词干分析器?

-亚当

0 投票
1 回答
1751 浏览

ruby-on-rails - ruby/rails 的自然语言日期解析器

有人知道Ruby中类似于Date.js的东西吗?能够从以下内容返回日期对象的东西:“从今天起两周”。记住牛奶网络应用程序将此功能整合到他们的系统中,并且非常易于使用。

我会使用 Date.js 库本身,但因为它位于客户端,所以它有其局限性。如果用户没有启用 javascript,则该功能将丢失。这将影响手机用户,理想情况下,他们会通过短信 (sms) 使用我们的系统。

我很想使用已经存在的解决方案,但如果不是,将这段代码移植到 Ruby 中会有多难?我真的不太了解自然语言解释,但似乎需要一些时间。

谢谢。

0 投票
8 回答
7282 浏览

nlp - 在 NLP 中识别专有名词的策略

我有兴趣了解有关自然语言处理(NLP) 的更多信息,并且很好奇目前是否有任何策略可以识别文本中不基于字典识别的专有名词?另外,任何人都可以解释或链接到解释当前基于字典的方法的资源吗?谁是 NLP 的权威专家,或者该主题的权威资源是什么?

0 投票
2 回答
5397 浏览

nlp - 查找与特定单词相关的单词(特别是物理对象)

我正在尝试查找与单个单词相关的单词(特别是物理对象)。例如:

网球:网球拍、网球、网球鞋

斯诺克:斯诺克球杆、斯诺克球、粉笔

国际象棋:棋盘、棋子

书柜:书

我曾尝试使用 WordNet,特别是 meronym 语义关系;但是,这种方法并不一致,如下结果所示:

网球:发球、截击、脚误、设定点、回球、优势

斯诺克没什么

国际象棋:国际象棋移动,棋盘(其自身的meronym关系显示“正方形”和“对角线”)

书柜:搁板

最终将需要对术语进行加权,但现在这并不是一个真正的问题。

有人对如何做到这一点有任何建议吗?


只是更新:最终混合使用了 Jeff 和 StompChicken 的答案。

从 Wikipedia 检索到的信息质量非常好,特别是如何(不出所料)有这么多相关信息(与一些不存在诸如“博客”和“ipod”之类的术语的语料库相比)。

维基百科的结果范围是最好的部分。该软件能够匹配以下术语(为简洁起见,列表被删减):

  • 高尔夫:[球、铁、发球台、球包、球杆]
  • 摄影:[相机,胶卷,照片,艺术,图像]
  • 钓鱼:[鱼,网,钩,陷阱,诱饵,诱饵,竿]

最大的问题是将某些词归类为物理人工制品;默认 WordNet 不是可靠的资源,因为其中不存在许多术语(例如“ipod”,甚至“蹦床”)。

0 投票
4 回答
2187 浏览

java - 单词类的在线(最好)查找API

我有一个单词列表,我想对其进行过滤,以便我只有该单词列表中的名词(使用 Java)。为此,我正在寻找一种简单的方法来查询单词数据库的类型。

我的问题是,有没有人知道一个免费的、简单的单词查找 API,它可以让我找到一个单词的类别,而不一定是它的语义定义。

谢谢!

本。

编辑:我的意思是“词性”这个词的类,谢谢你澄清这个

0 投票
3 回答
1212 浏览

nlp - NLP 的 WordNet 代码

是否有任何代码可用于演示使用 Wordnet 进行自然语言处理?我的问题陈述是“开发一个查询回答系统。它将查询字符串作为输入。从用户正在阅读的文档中搜索令人兴奋的答案。它是一个桌面应用程序,文档已经保存。期望的输出是显示材料.

我是最后一年的学生。在 2009 年 3 月 15 日之前等待您的回复。问候, Farheena Jawed

0 投票
4 回答
3477 浏览

java - 自然语言解析,实例

我希望将自然语言解析库用于简单的聊天机器人。我可以得到词性标签,但我总是想知道。你用 POS 做什么。如果我知道演讲的部分,那又如何?

我想这将有助于回应。但是我可以使用什么数据结构和架构。

0 投票
4 回答
1204 浏览

internationalization - 为什么有些国家用点作为小数分隔符而有些国家用逗号?

为什么在某些国家/地区有逗号分隔符而在某些点中?你知道这是什么原因吗?每次检查是否应该使用这个或这个非常烦人。

0 投票
1 回答
538 浏览

nlp - NLP:形态学操作

我正在尝试为一项作业构建一个 NLP 系统,我可以为此使用外部库。
我正在使用解析树将句子分解为名词、动词等的组成部分。
我正在寻找一个库或软件,它可以让我识别单词的词汇形式,并可能将其翻译成其他形式为了我。
基本上,我需要具有 isPlural、singularize、getInfinitive 等功能的东西。
我考虑过 Ruby Linguistics 包和一个简单的 Porter Stemmer(用于不定式),但两者都不是很好。
这似乎不是一个很难的问题,只是非常乏味。
有谁知道可以做这样的事情的好包/库/软件?