我需要将纯文本 UTF8 文档从 R 语言更改为 L 语言到拉丁语。不幸的是,它不像字符-字符音译那么容易。
例如,R 到 L 语言 (ا) 中的“a”可以是“a”或“ә”,具体取决于单词的组成。
在带有 ag、k、e 或 hamza(گ،ك،ە، ء)的单词中,
我需要将所有 a、o、i、u(ا،و،ى،ۇ)更改为拉丁文 ә、ѳ、i、 ü(称为“软”元音)。
例如。سالەم 变成 sәlêm, ءۇي 变成 üy, سوزمەن 变成 sѳzmên
在没有 ag、k、e 或 hamza(گ،ك،ە، ء)
的单词中,a、o、i、u 变为拉丁字符 a、o、i、u(称为“硬”元音)。
例如。الما 变成 alma,ۇل 变成 ul,ورتا 变成 orta。
本质上,
g、k、e 或 hamza 充当阿拉伯语脚本中的发音指南。
在拉丁语中,我需要两组不同的元音,具体取决于阿拉伯语脚本中的原始单词。
我在想我可能需要将“软”元音词作为第一步,然后对文档的其余部分进行单独的查找和替换。但是,我如何使用 perl 或 python 进行这样的查找和替换?
这是一个 unicode 示例: \U+0633\U+0627\U+0644\U+06D5\U+0645 \U+0648\U+0631\U+062A\U+0627 \U+0674\U+06C7 \U+064A \U+0633\U+0648\U+0632\U+0645\U+06D5\U+0645 \U+0627\U+0644\U+0645\U+0627 \U+06C7\U +0644 \U+0645\U+06D5\U+0646\U+0649\U+06AD \U+0627\U+062A\U+0649\U+0645 \U+0634\U+0627\U+0644 \U+0642\U+0627\U+0631。
它应该看起来像:“sәlêm orta üy sѳzmên alma ul mêning atim xalқar”。(注意:字母 ڭ,即 U+06AD 实际上以两个字母 n+g 结尾,发出“-ng”音)。它不应该看起来像“salêm orta uy sozmên alma ul mêning atim xalқar”,也不应该像“sәlêm ѳrtә üy sѳzmên әlmә ül mêning әtim xәlқәr”。
非常感谢任何帮助。