问题标签 [linguistics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 将字符串缩短为产品名称
我需要帮助。我正在尝试缩短亚马逊的完整产品名称。例如:
三星 Galaxy S II Epic Touch 4G 安卓手机(Sprint)
银河 S II
我想以编程方式执行此操作。有任何想法吗?
python - 根据句子上下文检测单词you是主语还是宾语代词。
理想情况下,在 python 中使用正则表达式。我正在制作一个简单的聊天机器人,它目前在正确响应“我爱你”之类的短语时遇到问题(它会从语法处理程序中返回“你爱我”,而它应该回馈“你爱我” ”)。
另外,如果你能想到好的短语来投入这个语法处理程序,我会很高兴,那就太好了。我想要一些测试数据。
如果那里有一个很好的及物动词列表(比如“使用前 100 个”),那么使用它和特殊情况下的“及物动词 + 你”模式可能是可以接受的。
python - 用整个元组替换嵌套元组中的值
好的,
我正在研究语言证明器,并且我有一系列表示语句或表达式的元组。有时,我最终得到一个嵌入的“和”语句,我试图将它“冒泡”到表面。我想要一个看起来像这样的元组:
或者,举个更简单的例子:
我想将 ands 分成两个语句,以便最上面的语句产生:
和底部的一个:
我尝试了很多东西,但结果总是很丑陋的代码。如果有更多嵌套元组,我会遇到问题,例如:
我想导致
所以基本上,问题是试图用整个元组的值替换一个嵌套的元组,但是嵌套的元组被修改了。这是非常丑陋的。:(
我不是超级流利的python,所以它变得非常复杂,有很多我知道不应该存在的for循环。:( 任何帮助深表感谢!
c++ - 单词到音节转换器
我正在用 C++ 编写一段代码,其中我需要一个单词到音节的转换器,是否有任何可用的开源标准算法或任何其他可以帮助我构建一个的链接。
理想情况下,它甚至应该能够解析像“隐形”这样的复杂单词。
我已经在 perl 和 python 中找到了算法的链接,但我想知道 C++ 中是否有任何库可用
非常感谢。
dataset - 常用词构建基本句子的数据集
所以我正在制作一个“冰箱磁铁”互动,我试图找出一个有效的数据集,让用户可以拖动单词。
我正在使用这个数据集.. 但它不是那么好
http://en.wikipedia.org/wiki/Most_common_words_in_English
以及在哪里可以找到一组更有效的单词的想法
parsing - 如何解析文本对于形式语法来说太可变但对于 NLP 来说太受限制了?
我正在处理非正式编写的文本语料库,但通常按照惯例符合非常标准的格式(想想像Froyo Frozen Yogurt,Smucker's Peanut Butter 之类的东西),并且偶尔需要递归(Froyo Frozen Yogurt with Smucker's Peanut Butter)。
使用正则表达式,复杂性很快就会失控( Froyo 的 Frozen Yogurt ,Smucker's 的Froyo Froyo Frozen Yogurt with Peanut Butter等)。
我很难找到资源来帮助我为此编写 EBNF,而且 NLP 方法太复杂(加上我的“词性”并不真正对应于普通英语)。是否有针对半正式文本的中间方法?
python - 错误:无效模式 ('r') - 无法在 Python 2.7 中使用 LingPy 进行同源分析
我正在使用适用于 Python 2.7 的 LingPy 1.0.1 库,尝试对我创建的单个制表符分隔的西班牙语-英语单词列表进行同源分析。该列表名为 SE.lxs,如下所示:
我认为这是此处定义的适当格式:http: //lingulist.de/lingpy/docu/lingpy.lexstat.LexStat.html
但是,当我运行命令时:
我收到以下错误:
可以在这里找到问题的图片:http: //i.imgur.com/XdLig.png
python - 创建一个频率表,用于捕获特定长度字符串中的流行子字符串 - Python
我正在尝试对正在编译的斯瓦希里语语料库进行频率分析。目前,这就是我所拥有的:
所以这个程序将遍历给定路径中的所有文件,读入每个文件的文本,并显示 1000 个最常用的单词。问题是:斯瓦希里语是一种粘着性语言,这意味着在单词中添加中缀、后缀和前缀以传达诸如时态、因果关系、虚拟语气、介词等内容。
所以像“-fanya”这样的动词词根意思是“做”可能是 nitakufanya -“我要做你”。结果,该频率列表偏向于连接不使用所述中缀的单词,例如“for”、“in”、“out”。
有没有一种简单的方法来查看像“nitakufanya”或“tunafanya”这样的词,并将“fanya”这个词包括在总数中?
一些潜在的事情要看:
- 动词词根将在单词的末尾
- 单词开头的主题标记可以是以下之一:'ni'(我),'u'(你),'a'(他/她),'wa'(他们),'tu'(我们),'m'(你们所有人)
- 主语标记后面是时态标记,它们是:“na”(现在)、“li”(过去)、“ta”(未来)、“ji”(反身)、“nge”(条件式)
谢谢
python - 特里?在python中匹配带有尾随字符的单词
这与 stackoverflow 上的大多数 trie 问题有点不同(是的,我已经花时间搜索和阅读),所以请多多包涵。
我有文件 A,其中包含以下词:allow*、apolog* 等。总共有数万个这样的条目。我的文件 B 包含一段文本,最多有数千个单词。我希望能够将文件 B 中的文本中的单词与文件 A 中的单词匹配。
例子:
文件 B 的“道歉”将匹配文件 A 的“道歉*”
文件 B 的 "a" 既不匹配 "allow*" 也不匹配 "apolog*"
文件 B 的“apologizetomenoworelseiwillkillyou”也将匹配文件 A 的“道歉*”
任何人都可以建议一种算法/数据结构(最好在 python 中可行)可以帮助我实现这一目标吗?我研究过的尝试似乎更多是关于将前缀与整个单词匹配,但在这里,我将整个单词与前缀匹配。词干算法是不可能的,因为它们有固定的规则,而在这种情况下,我的后缀可以是任何东西。我不想遍历文件 A 中的整个列表,因为那会花费太多时间。
如果这令人困惑,我很乐意澄清。谢谢。
algorithm - 英文拼写错误更正序列
我正在做一些搜索引擎。其中一个功能是尝试在没有找到任何东西的情况下更正拼写。我替换了以下语音序列:ph<->f, ee <-> i, oo<->u, ou<->o (color<->color)。我在哪里可以找到类似英语的完整列表?谢谢你。