问题标签 [nlp]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
9 回答
3992 浏览

algorithm - 识别网页物理地址的算法

识别 HTML 页面上的结构化数据的最佳算法是什么?

例如,Google 会识别电子邮件中的家庭/公司地址,并提供该地址的地图。

0 投票
2 回答
956 浏览

php - PHP中的自然语言单位转换?

我正在寻找一个可以从字符串中提取重量/高度数据的库(最好是 PHP)。

我希望我的用户输入诸如“我重 80 k,我身高 1.8m”甚至“220 lb”和“6' 1”之类的内容,并将其传递给可以提取数量和单位的函数。

有谁知道那里有类似的东西吗?

0 投票
8 回答
16652 浏览

c - 计算文本文件中单词的出现次数

我怎样才能跟踪一个单词在文本文件中出现的次数?我想对每个单词都这样做。

例如,如果输入是这样的:

“那个男人跟那个男孩打招呼。”

每个“man said hi to boy”都会出现 1 次。

"the" 的出现次数为 2。

我正在考虑保留带有单词/出现对的字典,但我不确定如何在 C 中实现这一点。与解决方案的任何类似或相关问题的链接都会很棒。


编辑:为了避免推出我自己的哈希表,我决定学习如何使用 glib。一路上,我发现了一个很好的教程,它解决了类似的问题。http://bo.majewski.name/bluear/gnu/GLib/ch03s03.html

我对不同方法的数量感到震惊,尤其是 Ruby 实现的简单性和优雅性。

0 投票
10 回答
554 浏览

string - 是否有可用的开源软件来分析字符串并猜测作者的性别?

除了闭源 Web 应用程序之外,我找不到任何东西。有没有活跃的项目?我有兴趣在我正在开发和参与的事情中使用该软件。

0 投票
5 回答
3385 浏览

text - 关于“自动文本摘要器(基于语言)”

我将“自动文本摘要(语言方法)”作为我最后一年的项目。我已经收集了足够多的研究论文并浏览了它们。我仍然不太清楚“如何去做”的事情。基本上我找到了“AUTOMATIC TEXT SummariZER (statistical based)”,发现它比我的项目要容易得多。我的项目指南告诉我不要选择这个(基于统计的)并选择基于语言的。

任何曾经从事过甚至听说过此类项目的人都会知道,总结任何文档仅意味着对每个句子进行评分(通过某种涉及某些特定算法的方法),然后选择得分超过阈值分数的句子。现在这个项目最困难的部分是选择合适的算法进行评分,然后再实施。

我有中等的编程技能,并且想用 JAVA 编写代码(因为在那里我会得到很多 API,从而减少开销)。现在我想知道对于我的项目,我应该使用什么方法和算法。还有如何实现它们。

0 投票
17 回答
74780 浏览

nlp - 检测单词中的音节

我需要找到一种相当有效的方法来检测单词中的音节。例如,

隐形 -> in-vi-sib-le

有一些可以使用的音节规则:

V CV VC CVC CCV CCCV CVCC

*其中 V 是元音,C 是辅音。例如,

发音(5 Pro-nun-ci-a-tion;CV-CVC-CV-V-CVC)

我尝试了几种方法,其中使用正则表达式(仅在您想计算音节时才有帮助)或硬编码规则定义(证明非常低效的蛮力方法),最后使用有限状态自动机(确实没有任何有用的结果)。

我的应用程序的目的是创建给定语言的所有音节的字典。该词典稍后将用于拼写检查应用程序(使用贝叶斯分类器)和文本到语音合成。

除了我以前的方法之外,如果有人能给我关于解决此问题的替代方法的提示,我将不胜感激。

我在 Java 中工作,但 C/C++、C#、Python、Perl 中的任何技巧都对我有用。

0 投票
2 回答
2082 浏览

artificial-intelligence - 衡量分类算法的性能

我手头有一个分类问题,我想用机器学习算法来解决(贝叶斯或马尔科夫可能,这个问题独立于要使用的分类器)。给定一些训练实例,我正在寻找一种方法来衡量已实施分类器的性能,同时考虑数据过度拟合问题。

也就是说:给定 N[1..100] 个训练样本,如果我对每个样本运行训练算法,并使用这些相同的样本来测量适应度,它可能会陷入数据过度拟合问题——分类器会知道训练实例的确切答案,没有太多的预测能力,使得适应度结果毫无用处。

一个明显的解决方案是将手工标记的样本分成训练样本和测试样本;我想了解选择具有统计意义的样本进行训练的方法。

非常感谢白皮书、书籍指南和 PDF!

0 投票
2 回答
222 浏览

seo - 在大量内容中自动创建上下文链接的工具或方法?

这是基本场景 - 我有一个包含 100,000 篇类似报纸的文章的语料库。至少,它们都将具有明确定义的标题和一定数量的正文内容。

我想做的是在文章中找到应该链接到其他文章的文本运行。

因此,如果文章 Foo 有一系列文本,例如“鼓励 8 年级的学生阅读约翰-保罗·萨特的作品”,而文章栏的标题(以及关于)“约翰-保罗·萨特的重要著作”,我'我想在 Foo 的文本中自动创建从 Foo 到 Bar 的 HTML 链接。

0 投票
6 回答
5656 浏览

nlp - 自然英语单词

我需要我能找到的最详尽的英语单词列表,用于几种类型的语言处理操作,但我在互联网上找不到任何质量足够好的东西。

英语中有 1,000,000 个单词,包括外来词和/或技术词。

您能否建议这样一个可以从互联网上下载的可能有点分类的来源(或接近 50 万字)?您的语言处理应用程序使用什么输入?

0 投票
6 回答
970 浏览

.net - 日期的自然语言解析器(.NET)?

我希望能够让用户使用自然语言(例如“下周五”、“每个工作日”)输入日期(包括重复日期)。很像http://todoist.com/Help/timeInsert上的示例

我找到了这篇文章,但它有点旧,并且只提供了一个我并不完全满意的解决方案。我想我会重新提出这个问题,看看:是否还有其他 .NET 库可以进行这种日期解析?