问题标签 [indic]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
internationalization - 拼音、转译等的语言检测?
非拉丁字母语言的真实世界用户生成文本通常不是规范形式,而是translit、shlyokavitsa、arabizi、 pinyin 等。语言检测软件开始巧妙地处理它,但通常它不起作用,即使它在技术上相当微不足道。
是否有一个语言检测系统可以很好地处理这些非正式的拉丁化?(理想情况下是 Python 库,但任何语言或服务都会很有趣。)
Yandex、Microsoft 和顶级 Python lang id 库,如langid,在这方面一无所获。我知道两个中途的工作,都来自谷歌:
- CLD,它是Chrome 的一部分
-谷歌翻译 API
除了只识别一些顶级语言的转译之外,由于各种原因(准确性、性能、价格...)
对于印地语、波斯语、汉语、阿拉伯语和俄语等主要语言以及所有其他不是用拉丁字母书写但通常在线拉丁化(罗马化)的语言来说,这是一个主要问题。
android - 如何在新的 android 项目中使用整个 android 项目
我有indic-keyboard的源代码,我想在我的应用程序中使用这个项目的功能,我尝试将 indic-project 转换为库,但这似乎很难,所以我正在寻找其他一些解决方法。
我可以/有什么尝试/尝试过-
- 我尝试将“应用插件:'com.android.application'' 更改为“应用插件:'com.android.library”,然后同步 gradle 并得到一些错误(检查这个问题),我得到了确认开发者indic-keyboard 很难将其转换为库,因为该项目是一种依赖于系统设置的输入法。
- 所以现在我正在考虑在我的应用程序中使用整个项目,这样它就会在我的应用程序安装后编译,但我不确定从哪里开始,我的意思是我应该从 indic- 的 build.gradle 中删除哪些内容-键盘使其停止生成 apk,如果我能够以某种方式做到这一点,那么它可能不会那么难,我只需要知道我应该如何进行,所以如果你已经处理过这些类型的事情,那么请提供你的宝贵建议.
python - Chunking for Tamil language
I want to use the NLTK chunker for Tamil language (which is an Indic language). However, it says that it doesn't support Unicode because it uses the 'pre' module for regular expressions.
Unresolved Issues
If we use the
re
module for regular expressions, Python's regular expression engine generates "maximum recursion depth exceeded" errors when processing very large texts, even for regular expressions that should not require any recursion. We therefore use thepre
module instead. But note thatpre
does not include Unicode support, so this module will not work with unicode strings.
Any suggestion for a work around or another way to accomplish it?
dictionary - 从 Android 键盘词典中提取预测词
我使用了一个键盘应用程序,它建议大多数孟加拉语单词的正确拼写。有没有办法将此字典文件提取为某种文本文件,以便我可以在 Windows 上使用它进行孟加拉语拼写检查?
python - 使用 python 分离 indic/abugida 脚本中的元音和辅音
我正在尝试构建一个程序来帮助我将 unicode abugida 脚本转换为元音和辅音列表。我已经使用从Playing around with Devanagari characters中获取的以下脚本实现了语音的分离
但是,我的意图是更进一步,将所有元音和辅音分开。
这与印地语变成 h+i+n+d+i 相同,只是在印度语脚本中,每个音素都被视为一个字符
我该怎么做?
python - 我想将十进制数从西阿拉伯 (0,1,2,3,4,5,6) 转换为东阿拉伯 (٠, ١, ٢, ٣))
python中有什么方法可以将十进制数(99.3)转换为(٩٩.٣)
我可以将简单的整数转换为东部阿拉伯语,但问题在于十进制。
javascript - 计算印度语中的字符数(印地语、泰米尔语支持所有印度语)
是否有任何最佳方法来实现印地语泰米尔语等印度语言的字符计数例如,如果我们在英语中使用“母亲”这个词,它是一个 6 个字母的词。但是如果你在印地语中输入相同的单词(माता),它是一个两个字母的单词(मा + ता)但是字符的长度变成了 4。有没有办法计算真实字符的数量?
对此的任何帮助将不胜感激......
android - 马拉地语 - Android 上的语音转文本
Google Speech-to-Text API 根据他们的文档支持马拉地语。但是,我无法让它在我的 Android 手机上运行。我已经为我的 Android 设备(Moto G6,运行 android 7.1.1)添加了语言中的“马拉地语”。但是,我还不能得到一个从语音到文本的简单短信。马拉地语打字工作正常。
我需要修改任何其他设置吗?还需要什么?对此的任何指示将不胜感激。
fonts - Chanakya 字体 - 少数字符未呈现
我有一个使用 Chanakya 字体的 MS Word 文档,在安装 Chanakya 字体后,而不是半 ka क् 示例क्या,我得到€(EURO) symbol
. 以下是一些示例屏幕截图:
这些文件来源未知,我们无法确定是否使用了早期版本的 Chanakya 字体。我可以想到以下几点:
- 是否有可能识别源 doc 文件中使用的字体版本?
- 任何替代方法来解决这个问题?
我尝试从下载 Chanakya 字体的 PFB 文件,https://sites.google.com/site/technicalhindi/about/_draft_post
然后使用在线 PFB 到 TTF 转换器将其转换为 TTF,但没有成功。
示例 MS Word 文档链接供参考: https ://www.dropbox.com/s/oioblxos9twb3q2/sample%20chanakya%20doc.doc?dl=0
php - PHP ImageMagick - 使用字体文件而不是系统字体绘制印度文本
我正在尝试使用 PHP ImageMagick 在图像上绘制梵文文本。如果我使用系统中可用的字体,ImageMagick 会正确呈现文本,但在从文件加载字体时不会。例如,如果使用
$imagick->setFont('Lohit Marathi');// installed font
工作正常,但如果我使用
$imagick->setFont("fonts/lohit_mr.ttf");//load from file
字体不加载,它使用默认字体呈现。
我正在尝试的代码如下
有人可以指出我遗漏的任何东西吗?