问题标签 [linguistics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
statistics - 单词使用数据库?
有没有免费的数据库/地方有英语单词的共性/使用比率?(英式或美式英语,没关系)
我不关心确切的数字,只关心彼此之间的关系。就像是:
的| 0.2
车| 0.08
色度 | 0.005
超差 | 0.0000007
编辑:
我找到了http://en.wiktionary.org/wiki/Wiktionary%3aFrequency_lists我可以抓取数据。但是,我更喜欢更容易使用的 sql 格式。
haskell - 实现读取类型类,其中解析字符串包括“$”
我已经和 Haskell 一起玩了大约一个月。对于我的第一个“真正的”Haskell 项目,我正在编写一个词性标注器。作为这个项目的一部分,我有一个称为Tag
词性标签的类型,实现如下:
以上是我故意截断的标准化词性标签的长列表。但是,在这组标准标签中,有两个以美元符号 ($) 结尾:PRP$ 和 NNP$。因为我不能有名称中带有 $ 的类型构造函数,所以我选择将它们重命名为 PRPS 和 NNPS。
这一切都很好,但我想从词典中的字符串中读取标签并将它们转换为我的Tag
类型。尝试这个失败:
Haskell 词法分析器在 $ 上窒息。任何想法如何解决这个问题?
实施 Show 相当简单。如果 Read 有类似的策略,那就太好了。
python - 将形容词和副词转换为名词形式
我正在为我的项目尝试使用 wordnet 进行词义消歧。作为项目的一部分,我想将派生的形容词或副词形式转换为它的根名词形式。
例如
美丽 ==> 美丽美妙 ==> 奇迹
我怎样才能做到这一点?除了 wordnet 之外,还有其他 dict 提供这种转换吗?
如果我能将形容词的确切含义映射到具有精确含义的名词形式,那对我来说将是一个额外的好处。那可能吗?
谢谢
php - 从域中提取单词
我有一堆域,我想将它们分解成单词。我从 wordlist.sourceforge.net 下载了 wordlist 并开始编写暴力类型的脚本来通过字典列表运行每个域。
问题是我不能让它产生足够好的结果。我做的简单脚本如下所示:
$words 是字典数组,domains 只是一个域名数组。
结果如下所示:
从技术上讲,它可以工作,但我不知道如何编码的技巧是让脚本理解如果你匹配'ahead',你就没有'head'或'heads'了。它还应该理解选择“软件”而不是“软件”和“软件”。是的,我知道,语言计算的世界是纯粹的痛苦;)
ruby - 如何以编程方式生成类似 Heroku 的子域名?
我们都看到了当您通过简单的“heroku create”将应用程序部署到 Heroku 时自动分配的有趣子域。
一些例子:blazing-mist-4652、electric-night-4641、morning-frost-5543、radiant-river-7322,等等。
似乎它们都遵循形容词-名词-4digitnumber 模式(大部分)。他们是否只是简单地打出一些形容词和名词的字典,然后在你推送应用时随机选择组合?是否有一个 Ruby gem 可以做到这一点,也许提供一个可以通过词性搜索的字典,或者这是手动完成的事情?
ruby - 用于在 Ruby 中查找句子中的名词和最近的形容词意义的 API
我正在寻找可以做两件事的 API 或 Ruby Gem。首先是查找每个单词,看看它是否是名词。我想做的第二件事是查找形容词(也许还有名词)并找到与其最相似的单词。做这个的最好方式是什么?
python - 通过语法检查(Python)从一组可能性中选择最流畅的文本
一些背景
我是佛罗里达新学院的一名文学专业学生,目前正在从事一个雄心勃勃的创意项目。该项目面向诗歌的算法生成。它是用 Python 编写的。我的 Python 知识和自然语言处理知识仅来自通过互联网自学。我已经用这些东西工作了大约一年,所以我并不无助,但在不同的点上,我在这个项目中前进时遇到了麻烦。目前,我正在进入开发的最后阶段,并且遇到了一些障碍。
我需要实现某种形式的语法规范化,这样输出就不会像未共轭/变形的穴居人说话那样出现。大约一个月前,SO 上的一些友好人士给了我一些建议,告诉我如何通过使用ngram 语言建模器来解决这个问题,基本上——但我正在寻找其他解决方案,因为似乎 NLTK 的 NgramModeler 不适合我的需要。(还提到了 POS 标记的可能性,但考虑到我的业余爱好,我的文字可能过于零碎和奇怪,无法轻松实现。)
也许我需要像 AtD 这样的东西,但希望不那么复杂
我认为需要像After the Deadline或Queequeg这样的东西,但这些似乎都不完全正确。Queequeg 可能不太适合——它是在 2003 年为 Unix 编写的,我一生都无法让它在 Windows 上工作(已经尝试了一切)。但我喜欢它只检查正确的动词变位和数字一致性。
另一方面,AtD 更加严格,提供了比我需要的更多的功能。但我似乎无法让它工作的python 绑定。(我从 AtD 服务器收到 502 错误,我确信这很容易修复,但我的应用程序将在线,我宁愿避免依赖另一台服务器。我负担不起运行 AtD 服务器的费用我自己,因为我的应用程序将需要我的网络主机的“服务”数量已经威胁到在廉价地托管这个应用程序方面造成问题。)
我想避免的事情
自己构建 Ngram 语言模型似乎不适合这项任务。我的应用程序抛出了很多未知的词汇,扭曲了所有的结果。(除非我使用的语料库太大,以至于它对我的应用程序来说运行速度太慢——应用程序需要非常敏捷。)
严格检查语法既不适合这项任务。语法不需要完美,句子不需要比你可以使用 ngrams 生成的类似英语的胡言乱语更明智。即使它是胡言乱语,我只需要强制执行动词变位,数字一致,并做一些事情,比如删除多余的文章。
事实上,我什至不需要任何更正的建议。我认为我所需要的只是计算一组可能的句子中每个句子中似乎出现了多少错误,这样我就可以按他们的分数排序并选择语法问题最少的那个。
一个简单的解决方案?通过检测明显的错误来评分流畅度
如果存在处理所有这些的脚本,我会非常高兴(我还没有找到)。当然,我可以为我找不到的东西编写代码;我正在寻找有关如何优化我的方法的建议。
假设我们已经布置了一小部分文本:
existing_text = "The old river"
现在假设我的脚本需要确定下一个动词“to bear”的变形。我愿意接受有关此例程的建议。但我主要需要步骤 #2 的帮助,通过计算语法错误来评估流畅度:
- 使用NodeBox Linguistics中的动词变位方法来提出这个动词的所有变位;
['bear', 'bears', 'bearing', 'bore', 'borne']
. - 迭代可能性,(浅浅地)检查由
existing_text + " " + possibility
(“The old river bear”、“The old river bears”等)产生的字符串的语法。计算每个构造的错误计数。在这种情况下,唯一出现错误的结构似乎是“老河熊”。 - 总结起来应该很容易......在错误计数最低的可能性中,随机选择。
iphone - 如何识别 NSString 中单词的词性?
我目前正在开发的应用程序要求我确定NSString
.
所以基本上是否有一个库/数据库/类,您可以在 Objective C 中访问它允许检查单个单词(以 a 的形式NSString
)是名词、形容词、副词还是动词?
类似于以下内容:
在类似但稍微不相关的注释上,是否可以检查两个NSString
包含相同词干但不同时态(ask、asking、asked等)的动词是否具有相同的词干?这也将非常有用。
python - 查找可以最快说出的单词和单词组合
我非常喜欢发现可以很快被说唱的句子。例如,“要读一点维基百科”或“不想带着一瓶麦芽在阴沟里倒下”。(乔治·沃茨基)
我想用 Python 编写一个程序,它可以让我找到可以发音的单词(或单词组合),这样发音时听起来非常快。
我最初认为音节与字母比率高的单词会是最好的,但在编写 Python 程序来查找这些单词时,我只检索到听起来并不快的非常简单的单词(例如“iowa”)。
所以我不知道是什么让单词听起来很快。是词素与字母的比例吗?它是交替的元音 - 辅音对的数量吗?
你们将如何设计一个python程序来解决这个问题?
javascript - 在浏览器中渲染语言语法树
输入是:
(1) 带有标记内部节点的树的括号表示,例如:
输出:
(线条是否为虚线以及是否存在标题并不重要。)
或者输入可以是:
(2) 对没有标签的单词进行括号括起来,例如:
输出与上面相同(这次没有内部标签,只有树结构)。
输入的另一个组成部分是树是像 (1) 中那样标记还是像 (2) 中那样未标记。
我的问题:用javascript在浏览器中呈现这些树的最佳方式(最快的开发时间)是什么?一切都应该发生在客户端。
我正在想象一个简单的界面,只有一个文本框(和一个单选按钮,指定它是否是一个带标签的树),当它改变时,会触发一个树来呈现(如果输入没有任何语法错误)。