问题标签 [transliteration]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 韩文罗马字:它并没有把所有的东西都罗马化
我正在研究音译脚本(将韩语音节转换为拉丁字母)。
问题是我的脚本只接受罗马化“갈라”、“갈”或“라”。它不会转换“갈라라”、“라갈”、“갈 라”、“라라”、“갈갈”等。
有没有人有办法解决吗?我会很感激的。
performance - 在 Perl 中拆分非常长的音译的效率
我有这个很长的音译:
我想把它分成几个音译,因为生成的代码更容易维护:
我相信这会减慢速度,但我想确定一下。这个过程在相当繁忙的服务器上每秒运行大约 1000 次。
谢谢。
python - Python pyinstaller 和 translit 模块
我正在使用标准 translit python 库中的模块transliterate.py。
当我编译我的 GUI 应用程序时,它会引发下一个错误。
我的理解是,我必须将该库放在我的应用程序中的某个位置。但是我只编译了一个 .exe 文件,所以不想在我的 exe 中保留一个文件。顺便说一句,应用程序在 Win 7 / 32bit 下运行。谢谢。
java - 在Java中将光学等效的unicode字符串转换为ASCII?
我运行一个社交网络,要求 unicode 用户名是唯一的(如预期的那样)。
一些有创意的用户已经开始使用西里尔文(和其他)unicode 字符来创建视觉上等效(但 unicode 不同)的用户名。
例如,他们将使用西里尔文小写字母“а”,看起来与罗马字母相同。
有谁知道在Java中自动转换这些光学等效字符的方法?如果机制已经存在,我宁愿不必手动创建转换表。
ruby - iconv 将来会被弃用,音译
ruby 1.9.3 对 iconv 弃用发出警告,但我使用 iconv 删除变音符号以从
返回Teziste
。如何使用String.encode获得这个?
regex - 不同书写系统之间的音译
我需要学习如何将文本的音译更改为另一种书写系统。显然最好的方法会以某种方式涉及正则表达式和 perl,可能来自命令行?我之前一直在 Notepad++ 和 TextWrangler 中使用正则表达式,所以我已经了解了一些基础知识。如果有一些非常好的(并且相对容易和可定制的)方法可以在 Ruby 或其他东西中做到这一点,我也可以开始学习。在我的乌拉尔语言学领域中,一直需要音译语言示例文本,其中使用了许多不同的音译系统变体。所以值得投入一些时间。
所以我现在拥有的材料由每行一个句子组成。有些行还有其他数据,例如数字,但这些数据应该保持原样。我想保持标点符号原样,这只是将一组 unicode 字母字符转换为另一组。我搜索了该站点,但很多都是关于从 ascii 转换为 unicode 等等 - 这不是这里的问题。
所以原文是这样的(在广义的 Finno-Ugric Transcription 中):
我需要这样的形式:
这持续了几千行。
使用的字符之间有明确的对应关系,但有时很复杂,首先需要处理一些二合字母和辅音+元音组合等。从示例中可以看出,在某些情况下,拉丁语 i 对应于西里尔字母 и 但在某些位置可以保持原样。不同的文本有不同的解决方案,所以我需要在每种情况下调整规则。我知道我需要以非常特定的顺序运行一长串正则表达式才能使其工作。这个顺序我会自己弄清楚,但我需要知道我在什么样的工具中输入了这些规则以及如何去做。
我也经常遇到这样的情况,我希望原始句子和音译一个由制表符分隔,以便这些行具有如下形式:
当然还有很多问题,但是在学习了这些基础之后,我想我可以独立前进了。学习这个对我有很大帮助。提前致谢!
尼可
c++ - 如何让 ICU 在 C++ 中从任何 Unicode 音译为 Latin1 (ISO-8859-1)
我可以让 ICU 使用“Any-Latin”将其音译为拉丁语,但这仍然包括不在 Latin1 代码页中的字符,例如宏。我可以使用“Any-Latin;Latin-ASCII”将其音译为 ASCII,但随后我丢失了所有有效的 Latin1 字符的重音字符。我需要一些专门用于“Any-ISO_8859_1”的东西
我能看到的唯一方法是建立一组自定义规则。例如,转换为拉丁语,然后删除宏和其他任何非拉丁语1:
但我不确定我还需要删除哪些其他东西,而且这个解决方案看起来很笨拙,可能很慢,我不确定我是否会 100% 确信它是正确的。
如果有更好(更简单/更快)的方法,我不会嫁给 ICU。但我坚持使用 C/C++。
需要明确的是,这与Is there a way to convert from UTF8 to iso-8859-1? 这个问题只是在已知内容仅为 iso-8859-1 时在编码之间进行转换。转换一对一地映射字符,并且对于目标编码不支持的任何字符都失败。
我的问题是关于音译。我希望例如像牛这样的汉字被音译为“Niú”。
java - 用Java音译。重新定义字符串中的每个字符
方法的目的是字符串的音译,例如:афиваў => afivaw。问题是:我不能使用charAt
方法重新定义,因为有些字母需要音译为两个符号'ш'=>“sh”。我试试这个:
可能你能推荐我一些东西charAt
吗?
python - 印地语到英语音译
是否有用于将印地语音译成英语的 python 库?
例如“खाया”应转换为“khaya”