问题标签 [nlp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 在java中修剪日文字符串的问题
我有以下字符串(日语)“ yuーザー名”,第一个字符是“like”空格,但它在 unicode 中的数字是 12288,所以如果我这样做 “ yuーザー名”.trim() 我得到相同的字符串(trim 没有不工作)。如果我在 C++ 中进行修剪,它可以正常工作。有谁知道如何在java中解决这个问题?unicode有特殊的修剪方法吗?
java - 查找句子边界的 Java 库
有谁知道处理查找句子边界的 Java 库?我认为这将是一个智能 StringTokenizer 实现,它知道语言可以使用的所有句子终止符。
这是我使用 BreakIterator 的经验:
在这里使用示例:我有以下日语:
在 ascii 中,它看起来像这样:
这是我更改的示例的一部分: static void sentenceExamples() {
当我查看边界索引时,我看到了:
但是这些索引不对应于任何句子终止符。
programming-languages - 哪种编程语言最像自然语言?
我从许多我不明白这个人在说什么以及其他人不理解我的情况下得到了这个问题的想法。
所以,一个“聪明”的解决方案是说一种计算机语言。:)
我很感兴趣编程语言可以走多远接近(英语)自然语言。当我说近时,我的意思不仅仅是使用单词和句子,而是能够“做”自然语言可以“做”的事情,“做”是指它可以被使用(以非常有限的方式)作为自然语言的替代品。
我知道这是不可能的(是吗?),但我认为这可能很有趣。
algorithm - 将无意义文本与有意义文本分离的算法
我为我的一些程序提供了反馈功能。不幸的是,我忘记了包含某种垃圾邮件保护功能——因此用户可以将任何他们想要的东西发送到我的服务器——每个反馈都存储在一个巨大的数据库中。
一开始我会定期检查这些反馈——我过滤掉了可用的内容并删除了垃圾。问题是:我每天收到 900 条反馈。只有 4-5 条真正有用,其他消息大多是 2 种胡言乱语:
- 废话:jfvgasdjkfahs kdlfjhasdf(人们在键盘上砸脑袋)
- 我不懂的语言
到目前为止我做了什么:
我安装了一个过滤器来删除任何包含“asdf”、“qwer”等的反馈...->每天只有 700 个
我安装了一个单词过滤器来删除任何包含不良语言的内容 -> 每天 600 个(不要问 - 但那里有很多奇怪的人)
- 我过滤掉任何包含未以我的语言使用的字母的消息 -> 每天 400 条
但是每天400仍然太多了。所以我想知道是否有人以前处理过这样的问题并且知道某种算法来过滤掉无意义的消息。
任何帮助将不胜感激!
python - NLTK 使用的实际例子
我正在使用自然语言工具包(NLTK)。
它的文档(Book和HOWTO)非常庞大,并且示例有时稍微高级一些。
NLTK 的使用/应用有什么好的但基本的例子吗?我正在考虑诸如Stream Hacker博客上的NTLK 文章之类的事情。
nlp - NLP 将句子/段落分类为有趣
有没有办法将特定的句子/段落分类为有趣。很少有关于人们应该在这方面更进一步的指示。
java - 寻找 Java 拼写检查器库
我正在寻找一个开源 Java 拼写检查库,其中包含至少以下语言的词典:法语、德语、西班牙语和捷克语。有什么建议吗?
algorithm - 构建或查找“相关术语”建议功能
给定几个单词的输入,我想要一个实用程序,它可以返回一组不同的相关术语、短语或概念。需要注意的是,它需要有一个大的术语图,否则该功能不会很有用。
例如,提交“棒球”将返回
Google Sets是我能找到的此类功能的最佳示例,但我无法使用它,因为它们没有公共 API(而且我不会违反他们的 TOS)。此外,单个单词输入不会获得非常多样化的结果。我正在寻找一个切线的解决方案。
我尝试过的最接近的方法是使用WikiPedia 的 API来搜索类别和反向链接,但没有办法直接按"相关性"或"流行度"对这些结果进行排序。没有它,建议列表就会很庞大,而且到处都是,这不是立即有用的,而且很难减少。
使用 A Thesaurus 也可以最低限度地工作,但这会遗漏任何专有名词或切线相关的术语(如上面列出的任何结果)。
我很乐意重用一个开放服务,如果存在的话,但我还没有找到足够的东西。
我正在寻找一种方法来实现这一点,要么在内部使用大量的起始集,要么重用提供此功能的免费服务。
有解决办法吗? 提前谢谢!
更新: 感谢您提供令人难以置信的密集和信息丰富的答案。我将在 6 到 12 个月内选择一个成功的答案,届时我希望能理解你们所有人的建议 =)
math - 如何开始信息提取?
您能否推荐一条培训路径来开始并在信息提取方面变得非常出色。我开始阅读它来做我的一个爱好项目,并很快意识到我必须擅长数学(代数、统计、概率)。我已经阅读了一些关于不同数学主题的介绍性书籍(非常有趣)。寻求一些指导。请帮忙。
更新:只是为了回答其中一条评论。我对文本信息提取更感兴趣。
python - Python 中 Twitter 的情感分析
我正在寻找文本情感分析(http://en.wikipedia.org/wiki/Sentiment_analysis)的开源实现,最好是在python中。有人熟悉我可以使用的这种开源实现吗?
我正在编写一个应用程序,它在 twitter 上搜索一些搜索词,比如“youtube”,并计算“快乐”推文与“悲伤”推文。我正在使用 Google 的 appengine,所以它在 python 中。我希望能够对来自 twitter 的返回搜索结果进行分类,并且我想在 python 中做到这一点。到目前为止,我还没有找到这样的情绪分析器,特别是在 python 中。你熟悉我可以使用的这种开源实现吗?最好这已经在python中,但如果没有,希望我可以将它翻译成python。
请注意,我正在分析的文本非常短,它们是推文。因此,理想情况下,该分类器针对此类短文本进行了优化。
顺便说一句,twitter 确实支持搜索中的 ":)" 和 ":(" 运算符,它们的目的就是为了做到这一点,但不幸的是,它们提供的分类并不是那么好,所以我想我可以自己尝试一下.
谢谢!