问题标签 [nlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
10 回答
1038 浏览

javascript - 如何确保用户只提交英文文本

我正在构建一个涉及自然语言处理的项目,因为 nlp 模块目前只处理英文文本,所以我必须确保用户提交的内容(不长,只有几个单词)是英文的。是否有既定的方法来实现这一目标?首选 Python 或 Javascript 方式。

0 投票
51 回答
16440 浏览

nlp - 有人类可读的编程语言吗?

我的意思是,是否有一种具有人类风格编码的编码语言?例如:

我知道它不是那么有用,但是创建这样的语法会很有趣。

0 投票
5 回答
15576 浏览

parsing - 如何使用 NLP 解析配方成分?

我需要将配方成分解析为适用于该行的数量、尺寸、项目和描述,例如 1 杯面粉、2 个柠檬皮和 1 杯包装好的红糖等。这样做的最佳方法是什么?我有兴趣在项目中使用 python,所以我假设使用 nltk 是最好的选择,但我对其他语言持开放态度。

0 投票
10 回答
8362 浏览

nlp - 对于对自然语言处理感兴趣的人来说,什么是好的起点?

问题

因此,我最近提出了一些新的可能项目,这些项目必须处理从用户提交和生成的文本中获取“意义”。

自然语言处理是处理这类问题的领域,经过一些初步研究,我发现了OpenNLP Hub和大学的合作,比如尝试项目。而stackoverflow有这个

如果有人可以将我链接到一些好的资源,从研究论文和介绍性文本到 api,我会比一个 6 岁的孩子打开他的圣诞礼物更快乐!

更新

通过您的一项建议,我发现了 opencyc“世界上最大、最完整的通用知识库和常识推理引擎”)。更令人惊奇的是,有一个项目是 opencyc 的精炼版本,名为UMBEL。它具有 rdf/owl/skos n3 语法中的语义数据。

我还偶然发现了antlr,这是一个解析器生成器,用于“从语法描述中构建识别器、解释器、编译器和翻译器”

我在这里提出了一个问题,列出了大量免费和开放的数据

感谢stackoverflow社区!

0 投票
7 回答
10612 浏览

algorithm - 用于文本分析的算法或库,特别是:主要词、跨文本的短语和文本集合

我正在做一个项目,我需要分析一页文本和一组文本来确定主导词。我想知道是否有一个库(首选 c# 或 java)可以为我处理繁重的工作。如果没有,是否有一种或多种算法可以实现我的以下目标。

我想做的类似于从您在网络上找到的 url 或 rss 提要构建的词云,除了我不想要可视化。它们一直用于分析总统候选人的演讲,以了解主题或最常用的词是什么。

复杂之处在于我需要对数千个短文档执行此操作,然后是这些文档的集合或类别。

我最初的计划是解析文档,然后过滤常用词 - of、the、he、she 等。然后计算剩余词在文本中出现的次数(以及整个集合/类别)。

问题是将来我想处理词干、复数形式等。我也想看看有没有办法识别重要的短语。(而不是一个单词的计数,一个短语的计数是2-3个单词一起)

任何有关策略、库或算法的指导都将受到赞赏。

0 投票
2 回答
3096 浏览

algorithm - tf-idf 和以前看不见的术语

TF-IDF(词频-逆文档频率)是信息检索的主要内容。不过,这不是一个合适的模型,当新术语被引入语料库时,它似乎会崩溃。当查询或新文档有新术语时,人们如何处理它,特别是如果它们是高频率的。在传统的余弦匹配下,这些对总匹配没有影响。

0 投票
3 回答
1030 浏览

nlp - 自然语言/文本挖掘和 Reddit/社会新闻网站

我认为有大量与 reddit、digg 或 news.google.com 等网站相关的自然语言数据。

我对文本挖掘进行了一些研究,但找不到如何使用这些工具来解析 reddit 之类的东西。

你能想出什么样的应用程序?

0 投票
3 回答
589 浏览

algorithm - Google 的 In Quotes 是如何工作的?

我发现 Google 的In Quotes是一个非常漂亮的应用程序,作为一名 CS 人员,我必须了解它是如何工作的。你认为它如何将新闻文章转化为特定人的引用列表?当然,有一些错误,但他们的算法似乎比简单的启发式或多个正则表达式更聪明。例如,即使在最后一段中只提到了他/她的名字,也可以将引用归因于某人。

有任何想法吗?关于这个主题的任何已知论文?

0 投票
6 回答
10113 浏览

c# - 使用正则表达式将字符串拆分为句子

我需要将像“一、二、三、四、五、六、七、八、九、十、十一”这样的字符串匹配成四个句子的组。我需要一个正则表达式在每四个句点后将字符串分成一个组。就像是:

不起作用,因为它将替换句点之前的文本,而不仅仅是句点本身。如何仅计算句点并用句点和换行符替换它们?

0 投票
2 回答
2680 浏览

shell - 查找二元组的 Shell 脚本

我正在制作一个 shell 脚本来查找二元组,这在某种程度上是可行的。

唯一的问题是它将前一句的结尾和开头的单词配对。

例如对于两个句子“你好世界”。和“富吧”。我会与 'world. 富'。是否有可能用 grep 或其他东西过滤掉这些?

我知道我可以找到所有包含 grep [.] 句号的二元组,但这也能找到合法的二元组。