问题标签 [transliteration]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 使用javascript函数将西里尔文音译为拉丁文
我做了这个功能:
现在它应该将西里尔文字音译为拉丁文并让拉丁文简单地通过。但它只能在稍后音译第一个,如果是拉丁语,它会给出未定义的答案。谁能给我一个想法,我做错了什么?
java - 如何使用 Java 在印地语和拉丁语字符之间音译印地语文本?
如何使用 Java 将用英文字母书写的印地语意思转换为印地语?
例如。
输入文本为:anil NE lath marke apko Ganga me hi Fenk diya。
在印地语
输出文本为:अनिल ने लात मार्के आपको गंगा में ही फेंक दिया
如何使用 Java 或任何 Java API 进行转换?
我喜欢谷歌以外的一个名为 Jitter 的 API,但出现错误
源代码是
java - 不使用 Google Api 的 Java Unicode 音译?
有没有从英文 unicode 到古吉拉特语 unicode 的解决方案?假设 a = \u0061 的 unicode 那么它将翻译 અ = u0095
unicode - 如何检测手机是否支持 J2ME 中特定语言的 unicode
我正在 J2me 中设计一个应用程序,我只需要提供特定语言的界面,比如乌尔都语。我正在做的是使用 Unicode 字符打印标签,例如“欢迎”到我的语言中,并以正确的方式显示。由于该应用程序应该在不同的移动模型上运行,我只想知道是否可以通过编程方式检查运行我的应用程序的特定移动设备是否支持我的语言的 unicode?因为如果没有,那么它将以默认英语显示标签。除了将英文字母转换为我的语言字符之外,我还没有编码,我只是想知道,如果可能的话,找到一种方法来执行这个检查。提前致谢 :)
icu - 为什么从乌尔都语到拉丁语的音译在 icu4c 中不能正常工作?
我正在尝试将这行乌尔都语转换为拉丁语,然后将拉丁字符转换为 ASCII(通过删除重音等),但它似乎缺少一些字符。
为什么还有非拉丁字符(“ہ”、“ے”等)?
为什么音译Any-ASCII
不转换为 ASCII?
c++ - 将 CJK 音译为拉丁语——最好用 C++
我正在尝试编写一个可以将 CJK 音译为拉丁语(即拼音、罗马字等)的程序。例如,您提供中文、日文或韩文文档作为输入,然后将音译版本转换为拉丁文作为输出。
我是这个领域的新手,所以请多多包涵。
显然,首先我需要检测语言的类型(中文、日文或韩文),然后再进一步。然后,据我所知,为了进行音译,我需要将文本分成单词,因为在这些语言中,单词之间没有空格。这称为分词。最后在找出我需要将它们音译成拉丁语的单词之后。
所以这是我的问题:
- 有很多(当然不是!最好说一些)库可以完成音译工作,因为我正在寻找 C/C++ 中的开源库,所以我找到了 Adson(仅适用于中文)和 ICU4C。从 Adson 克隆的 Git 存储库没有编译。而且我找不到简单、直接的 ICU4C 教程。如何找到有关 ICU4C 使用的教程?你知道任何其他将 CJK 音译为拉丁语的图书馆吗?如果准确率更高(~90%),我可以忘记它是用 C++ 编写的。
c++ - 使用 ICU 进行分词
我正在使用 ICU4C 音译 CJK。我想知道是否可以在 ICU 中进行分词,将中文文本拆分为根据某些分词标准定义的单词序列。
例如,当我尝试音译时:
使用
我得到以下输出:
检查在线拼音工具似乎非常好,但我的问题是ICU的字符一个一个音译。不过,我正在寻找的更像是下面的文字(我不懂任何中文,所以下面的文字可能没有任何意义,但它应该展示我感兴趣的输出类型) :
有人告诉我ICU 50 能够进行分词,但我在他们的网页上也找不到任何文档。想知道你们中是否有人在 ICU 中使用过分词或知道如何做,或者您是否有任何关于如何做的好链接。
r - 将重音字符转换为 ascii 字符
从 1600 万个字符串变量的向量中删除德语(或法语)重音的最佳方法是什么。
例如,“干燥综合征”变成“干燥综合征”
将单个字符转换为单个字符比音译更好,例如
ä => ae ö => oe ü => ue.
例如,使用正则表达式将是一种选择,但有更好的方法(R 包)吗?
gsub('ü','u',gsub('ö','o',"Sjögren's syndrome ( über) "))
有针对非 R 平台的 SO 解决方案,但对于 R 来说不是一个好的解决方案。
php - 将任何可转换的 utf8 char 音译成 ascii 等价物
有什么好的解决方案可以很好地进行这种音译吗?
我试过使用iconv()
,但很烦人,而且它的行为不像人们预期的那样。
- 使用
//TRANSLIT
将尝试替换它可以替换的内容,将所有不可转换的内容保留为“?” - 使用
//IGNORE
不会离开“?”E_NOTICE
在文本中,但也不会音译,并且在找到不可转换的 char 时也会引发,因此您必须将 iconv 与@错误抑制器一起使用 - 使用
//IGNORE//TRANSLIT
(正如一些人在 PHP 论坛中建议的那样)实际上与//IGNORE
(在 php 版本 5.3.2 和 5.3.13 上自己尝试过)相同 - 也使用
//TRANSLIT//IGNORE
与//TRANSLIT
它还使用当前的语言环境设置进行音译。
警告 - 大量文本和代码如下!
这里有些例子:
好的,确实转换了 č ć š ä ö ü ß é ĕ ě ė ë ȩ 和 æ,但为什么不转换 đ 和 ø?
让我们尝试//IGNORE
:
使用这个人的解决方案也不能按预期工作:Regular ascii text + YYYYY + aous + eYYYeY + aoY + $ + � + @
即使使用 PECL intl Normalizer类(即使您的 PHP > 5.3.0 也不总是可用的,因为 ICU 包 intl 使用可能对 PHP 不可用,即在某些托管服务器上)会产生错误的结果:
那么有没有其他方法可以做到这一点,或者唯一正确的做法是自己做preg_replace()
或str_replace()
定义音译表?
// 附录:我在 2008 年的 ZF wiki 辩论中发现了有关Zend_Filter_Transliterate 提案的建议,但由于在某些语言中无法转换(即中文),因此该项目被放弃,但对于任何基于拉丁语和西里尔语的语言 IMO 仍然有此选项应该存在。
android - 如何在网站中为不同的移动运营商添加本地语言支持?
在 Internet Explorer 等 Web 浏览器中显示本地语言支持(印地语、孟加拉语、乌尔都语等)已经非常困难。但是我们如何在Opera mini、windows浏览器等移动浏览器中提供支持呢?如果没有可能的方法,那么有什么可能的替代方案?