问题标签 [lexicon]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
language-agnostic - 什么是“正交”?
谈到编程语言时,“正交性”是什么意思?
正交性的一些例子是什么?
search - 用于搜索查询更正的英语词典
我正在通过实现“拼写更正作为利用网络用户集体知识的迭代过程”中描述的方法来构建搜索引擎查询的拼写更正器。
高级方法如下:对于给定的查询,提出每个一元和二元的可能校正候选(查询日志中在一定编辑距离内的单词),然后执行修改的维特比搜索以找到最可能的序列给定bigram频率的候选人。重复这个过程,直到序列的概率最大。
对维特比搜索的修改是这样的,如果两个相邻的词都在可信词典中找到,最多可以纠正一个。这对于避免将拼写正确的单个单词查询纠正为频率较高的单词尤其重要。
我的问题是在哪里可以找到这样的词典。它应该是英文的,并且包含可能出现在搜索查询中的专有名词(名字/姓氏、地名、品牌名称等)以及常见和不常见的英语单词。即使朝着正确的方向推动也是有用的。
此外,如果有人正在阅读本文并对本文提供的方法有任何改进建议,我也愿意接受这些建议,因为这是我第一次涉足 NLP。
python - 俄英平行词语料库?
我正在寻找一个简单的俄语到英语单词语料库。它可以像 csv 一样简单,在第一列中列出俄语单词,在第二列中列出等效的英语单词。有什么想法可以找到这样的东西吗?NLTK 工具包有这样的东西吗?
谢谢
bash - 词频统计脚本太慢
背景
创建了一个脚本来计算纯文本文件中单词的频率。该脚本执行以下步骤:
- 计算语料库中单词的频率。
- 保留在字典中找到的语料库中的每个单词。
- 创建一个以逗号分隔的频率文件。
脚本位于: http: //pastebin.com/VAZdeKXs
问题
以下几行不断地在字典中循环以匹配单词:
它可以工作,但速度很慢,因为它正在扫描找到的单词以删除任何不在字典中的单词。代码通过扫描字典中的每个单词来执行此任务。(该-m 1
参数在找到匹配项时停止扫描。)
问题
您将如何优化脚本,以便字典不会从头到尾扫描每个单词?大多数单词不会出现在字典中。
谢谢!
algorithm - 英文文本词典比较
让我们想象一下,我们可以建立一个统计表,每个单词在一些英文文本或书籍中使用了多少。我们可以收集图书馆中每个文本/书籍的统计数据。将这些统计数据相互比较的最简单方法是什么?我们如何找到具有统计上非常相似的词典的文本组/集群?
c++ - 我正在尝试使用 C++ 中的输入文件创建词典
我有一个 file.txt 我想在 C++ 中创建一个函数,该函数可以读取该文件中的单词,并将每个单词以及它们出现的次数打印到 file2.txt
我正在做一些研究,我知道我可以使用解析器和编写器,还有地图类,请问有什么帮助吗?
python - 在 Python 中创建词典和扫描仪
我是编码领域的新手,我没有受到非常热烈的欢迎。我一直在尝试通过在线教程http://learnpythonthehardway.org/book/学习 python 。在练习 48 和 49 之前,我一直在努力读完这本书。这就是他让学生放松并说“你想办法”的地方。但我根本做不到。我知道我需要创建一个可能单词的词典,并且我需要扫描用户输入以查看它是否与词典中的任何内容匹配,但仅此而已!据我所知,我需要创建一个名为 lexicon 的列表:
那正确吗?我不知道下一步该怎么办?我知道列表中的每个项目都称为元组,但这对我来说并没有任何意义。如何获取原始输入并将其分配给元组?你知道我的意思?因此,在练习 49 中,他导入了词典并在 python 内部打印 lexicon.scan("input") 并返回元组列表,例如:
'scan()' 是预定义函数还是他在词典模块中创建了该函数?我知道如果你使用'split()',它会创建一个包含输入中所有单词的列表,但是它如何将'go'分配给元组('verb','go')?
我是不是差远了?我知道我问了很多,但我到处搜索了几个小时,但我无法自己解决这个问题。请帮忙!我会永远爱你!
c++ - C++ 存储、加载和查找词典的最有效方法
我有一本由单词及其音标组成的字典。单词都是小写的,所以不涉及区分大小写的搜索。
词典非常庞大,我需要在我的应用程序启动时快速加载它。我宁愿阅读它而不必单独阅读每个条目。
我想我存储和加载它的方式也会影响我将词典保存在内存中的方式
谢谢你的任何想法。
speech-recognition - 微软语音识别
我正在尝试使用 Microsoft 进程内语音识别引擎编写应用程序。我的应用程序有时使用听写语法,有时使用 SRGS。显然,我在使用 SRGS 时没有任何问题。
即使我使用了最好的麦克风之一(带有 Andrea usb 声卡的 Sennheiser ME3),识别结果仍然无法接受。我的应用程序在特定域中运行,系统用户更可能说出一些单词和短语。我的问题是,有什么方法可以使用听写语法,同时指定应用领域中的重要单词。它是一种对语音识别器语言模型的部分修改,仅针对开发人员提供的单词和短语列表。
corpus - 用英语以外的其他语言为 Brill Tagger 训练语料库
有谁知道在英语以外的其他语言中使用 Brill 词性 (POS) 标记器的任何标记语料库或词典?
谢谢!