问题标签 [nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
language-agnostic - String.Format 中的适当文章 (a/an)
我正在寻找一种文化敏感的方式来在使用适当的文章 (a/an) 时将名词正确插入句子中。它可以使用 String.Format,或者如果在其他地方存在适当的方法来执行此操作,则可能使用其他方法。
例如:
基本句子:“您正在查看一个/一个 {0}”
这应该格式化为:“你在看胡萝卜”或“你在看鸡蛋”。
我目前正在通过手动检查要插入的单词的第一个字符然后手动插入“a”或“an”来执行此操作。但我担心当应用程序本地化为其他语言时,这可能会限制我。
是否有解决此问题的最佳实践?
解决方案:问题似乎很复杂,以至于不存在以我最初所说的方式解决此问题的实用程序或框架。似乎最好的解决方案(在我的情况下)是将文章与名词一起存储在数据库中,以便翻译人员可以拥有他们需要的控制级别。感谢所有的建议!
java - 分析单词文本的算法
我想要一种算法,可以在文本块中创建所有可能的短语。例如,在文本中:
它将创建以下组合:
你明白了。基本上,重点是从句子中获得所有可能的“短语”组合。关于如何最好地实现这一点的任何想法?
ruby - 如何将一段文本解析成句子?(最好在 Ruby 中)
考虑到 Mr. and Dr. 和 USA 等案例,您如何将段落或大量文本分解成句子(最好使用 Ruby)?(假设您只是将句子放入数组数组中)
更新:我想到的一种可能的解决方案是使用词性标注器(POST)和分类器来确定句子的结尾:
从琼斯先生那里得到数据,当他走到意大利避暑别墅的阳台上时,他感觉到温暖的阳光照在他的脸上。他很高兴能活着。
分类器 Mr./PERSON Jones/PERSON 感觉/O 温暖/O 太阳/O 上/O 他/O 脸/O 作为/O 他/O 踩/O 出/O 上/O/O 阳台/O的/O 他的/O 夏天/O 家/O 在/O 意大利/LOCATION ./O 他/O 是/O 快乐/O 到/O 是/O 活着/O./O
POST Mr./NNP Jones/NNP 毡/VBD/DT 暖/JJ sun/NN on/IN his/PRP$ face/NN as/IN he/PRP step/VBD out/RP on/IN/DT 阳台/ NN 的/IN 他的/PRP$ 夏天/NN 家/NN 在/IN 意大利。/NNP 他/PRP 是/VBD 高兴/JJ 到/TO 是/VB 活着。/IN
我们可以假设,由于意大利是一个地点,句号是句子的有效结尾吗?自从以“先生”结束 没有其他词性,我们可以假设这不是一个有效的句末期吗?这是对我的问题的最佳答案吗?
想法?
java - 有没有好的自然语言处理库
我需要在我当前的模块中实现一些 NLP。我正在寻找一些可以在这里帮助我的好图书馆。我遇到了“LingPipe”,但无法完全了解如何使用它。
基本上,我们需要实现一个功能,应用程序可以破译以简单英语输入的客户指令(交付指令)。例如:
- 明天中午12:00接机
- 要求在 6 月 10 日之后交货
- 请不要在星期三之前发送
- 向订单中再添加 10 个单位的 XYZ
compiler-construction - 自然编程语言……你想看什么?
我正在考虑编写一个编译器,在我以“C”风格完成某些内容后,我正在考虑将其适应其他模型。您希望在“自然”编程语言中看到哪些句法结构?
这个编译器的目标平台是 CLR,我目前正在使用 Oslo+MGrammar 作为词法分析器/解析器(你可能会说这只是一个玩的借口)
我的项目的目标之一是让编程感觉更像是一种对话,而不是结构化的语法和需求。
我想我应该把这个扩展一点。我正在使用的一个想法是让类声明读起来像一个段落。
...也会翻译...
sql - 堆栈溢出相关问题算法
输入标题后出现的相关问题,以及在查看问题时出现在右侧栏中的问题,似乎都提出了非常贴切的问题。
Spolsky 在一次演讲中说,Stack Overflow 只对其进行 SQL 搜索,不使用特殊算法。
在这种情况下,存在哪些算法可以给出好的答案。在这种情况下如何进行数据库搜索?使标题可搜索并搜索关键字或搜索标签和那些在顶部有很多投票的问题?
java - 在 JAVA 中使用哪个 NLP 工具包?
我正在开展一个项目,该项目由一个连接到 NCBI(国家生物技术信息中心)并在那里搜索文章的网站组成。问题是我必须对所有结果进行一些文本挖掘。我正在使用 JAVA 语言进行文本挖掘,并使用带有 ICEFACES 的 AJAX 来开发网站。我有什么:从搜索返回的文章列表。每篇文章都有一个 ID 和一个摘要。这个想法是从每个抽象文本中获取关键字。然后比较所有摘要中的所有关键词,找出重复次数最多的关键词。然后在网站上显示搜索的相关词。有任何想法吗 ?我在网上搜索了很多,我知道有命名实体识别,词性标记,基因和蛋白质上有 NER 的 GENIA 词库,我已经尝试过词干... 停用词列表等...我只需要知道解决此问题的最佳方法。非常感谢。
algorithm - 是否可以根据文本结构猜测用户的心情?
我假设需要使用自然语言处理器来解析文本本身,但是对于基于用户编写的文本检测用户情绪的算法,您有什么建议?我怀疑它会非常准确,但我仍然感兴趣。
编辑:我绝不是语言学或自然语言处理方面的专家,所以如果这个问题过于笼统或愚蠢,我深表歉意。
nlp - STTS 标签集的英文翻译
德语最常见的词性标签集是STTS 标签集。我需要每个标签的解释的英文翻译。不是语言学家,我对自己翻译这个感到不舒服(更不用说有资格了)。
谷歌一无所获,所以任何帮助表示赞赏。
algorithm - 从全文搜索结果中提取小的相关位文本(如 Google 所做的那样)
我已经在讨论论坛数据库中实现了全文搜索,我想以 Google 的方式显示搜索结果。即使对于很长的 html 页面,搜索结果列表中也只会显示两三行文本。通常这些是包含搜索词的行。
如何根据文本本身和搜索词提取几行文本的好算法是什么。我可以想到一些简单的方法,比如在文本中出现搜索词之前使用一行文本,然后再使用一行——但这似乎太简单了,无法工作。
想得到一些方向,想法和见解。
谢谢你。