问题标签 [linguistics]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - winword中摘要功能的背景
Winword 中有一个自动摘要工具。有人知道背景,即使用了哪些算法,或者我在哪里可以找到有关此功能的其他背景信息?
谢谢
ruby - 如何安装“Ruby Linguistics With Verb Conjugation”?
我下载了“ Ruby Linguistics With Verb Conjugation ”的源代码。
如何安装它以供使用?我需要将它编译成一些宝石吗?
c# - 英语词典 api
是否有一个公共 API 可以让我查找单词的定义?我一直在寻找这个,但它与字典数据结构混淆了。我打算在 ac# 应用程序中使用它。
谢谢
c++ - 机器学习、人工智能和计算语言学
我很想与在机器学习、计算语言学或人工智能方面有经验的人交谈,但通过以下示例:
• 您会申请哪些现有软件来尝试通过统计语言、机器学习构建类似谷歌翻译的可管理的尝试? (不要误会我的意思,我不想只是这样做,只是试图为这个领域最复杂的事情绘制一个概念框架,如果你有机会带领一个团队去实现你会怎么想这样的...)
• 现有哪些数据库?当那些是 TB 的数据时,使用哪种数据库技术来存储结果
• 除C++ 外还有哪些编程语言?
• 阿帕奇猎手?
• 并且,这些软件组件将如何协同工作来为整个工作提供动力?
php - PHP 的词库类或 API [已编辑]
TL;DR 摘要:我需要一个可以用来获取同义词和其他相关词的命令行应用程序。它需要是多语言的并且可以跨平台工作。任何人都可以为我推荐一个合适的程序,或者帮助我找到我已经找到的程序吗?谢谢。
更长的版本:
我的任务是用 PHP 编写一个系统,该系统可以为用户输入的单词提供替代建议。我需要找到一个词库应用程序/API 或类似的东西,我可以用来生成这些建议。
重要的是,它需要多语言(英语、丹麦语、法语和德语)。这排除了我使用谷歌设法找到的大多数软件。它还需要是跨平台的(它需要在 Linux 和 Windows 上工作)。
我的研究让我找到了两个有前途的候选人:WordNet和Stardict。
到目前为止,我一直专注于 WordNet,使用该shell_exec()
函数从 PHP 调用它,并且我已经设法使用它创建了一个非常有前途的原型 PHP 页面,但到目前为止只有英文版。我正在为如何使用多语言而苦苦挣扎。
Wordnet 站点有其他语言的 Wordnet 项目的外部链接(例如丹麦语的DanNet),但是虽然它们通常被称为 Wordnet,但它们似乎使用各种数据库格式和软件,这使得它们不适合我。我需要一个可以从我的 PHP 程序中调用的一致接口。
从这个角度来看,Stardict 看起来更有希望:它们以标准 DB 格式为一个应用程序提供多种语言的字典。
但 Stardict 的缺点是它主要是一个 GUI 应用程序。从命令行调用它会启动 GUI。显然有一个命令行版本(SDCV),但它似乎已经过时(最后更新 2006 年),并且仅适用于 Linux。
任何人都可以帮助我解决这些程序中的任何一个问题吗?或者,任何人都可以建议我可以使用的任何其他替代软件或 API 吗?
非常感谢。
ruby-on-rails - 如何修复 Rails 3.1 和 Ruby 1.9.2 语言库中的错误
在最新版本的 rails 中,我的应用程序有以下几行没有任何问题:
最近我从 Ruby 1.8.7 升级到 Ruby 1.9.2 并且正在使用 Rails 的边缘版本。当我启动服务器时,我现在看到以下内容:
关于如何解决这个问题的任何想法?这是语言学和 Ruby 1.9.2 之间的不兼容吗?
php - 英文单词分类
从字符串+分类中检测英文单词我有一个庞大的 url 数据库,我想从这些数据中提取英文单词,然后对 URL 中包含的单词进行分类
例如 apple.com -> apple:fruit 和 app:computer
还有其他 PHP 脚本可以为每个字符串添加单词,但我需要帮助的是一个开放数据源,用于对英语单词进行分类
例如忍者=武术
PHP 部分只是简单地进行查找。我见过用于对页面内容进行分类的贝叶斯脚本,但这更多的是几个词……而且它可能比需要的更复杂。
提前喝彩,
language-agnostic - 词结构的机器学习
我正在开发一个系统,该系统可以根据各种用户输入(例如音节模板或修改后的 Backus Naur 表格)创建虚构的单词。不过,计划中的一种新模式是机器学习。在这里,用户没有明确定义任何规则,而是粘贴一些文本,系统会学习给定单词的结构并创建相似的单词。
我目前的幼稚方法是创建一个字母邻域概率表(包括一个特殊的词尾“字母”),并通过按字母对扫描输入来填充它(使用空格和标点符号作为单词边界)。创建一个单词意味着查找每个字母跟随当前字母的概率,并根据概率随机选择一个,附加并重复,直到遇到单词结尾。
但我正在寻找更复杂的方法(可能?)提供更好的结果。我对机器学习知之甚少,因此感谢您提供有关主题、技术或算法的指针。
c - 取一个数字并输出其英文单词的算法
我想用 C 语言编写一个程序,要求用户输入一个数字,然后用英文打印该数字。
例如:
等等。它可以使用 switch-case 和 if else 来实现,但它会使代码冗长。对于少数数字这很好,但如果我们必须写到 100,那么它会很长。
有没有一个简短的算法或想法?
dictionary - 我正在寻找字典源文件格式和相关工具
我正在寻找便于在通用文本编辑器(我使用 Emacs)中编辑并且可以在版本控制下存储(并允许轻松合并)的字典源文件格式。
所以我可以与其他人分享我在字典上的工作。
如果没有将 dict 源转换为索引形式以与字典软件文件格式一起使用的支持工具,则无法使用。
作为客户端词典软件,我使用 GoldenDict:http ://goldendict.org/dictionaries.php ,它了解许多索引 dicts 文件格式,但如果您推荐,我会切换到另一种。
以前我使用 TAB 格式(StarDict 的原始文件格式,转换为 .dict.dz/.idx/.ifo)。太丑了!每个单词定义必须保持在单行中,并且单词与 TAB 的定义分开。看:
接下来我尝试使用 Dictd 文件格式。它要好得多:
我也知道http://xdxf.sourceforge.net/。但深看,这是一个死项目。并且有两个明显的遗漏:
- XML 排版噪音很难写文章
- 没有工具可以将源代码转换为可用的字典(您只能转换为其他源格式,然后生成可用的字典......)
我正在寻找更好的解决方案...
为什么?我学习外语,想创建学过的单词词典来修改它们并进一步使用。
我还参与了开源软件项目手册和免费书籍的翻译,并希望维护术语列表,以便可以在翻译人员之间共享创建的字典以保持一致的翻译。