问题标签 [southeast-asian-languages]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
2350 浏览

python - 分词高棉语的可行解决方案?

我正在研究一种解决方案,将高棉(柬埔寨语)的长行拆分为单个单词(UTF-8 格式)。高棉语不使用单词之间的空格。有一些解决方案,但它们还远远不够(这里这里),而且这些项目已经被搁置了。

这是需要拆分的高棉示例行(它们可能比这更长):



创建一个分割高棉语单词的可行解决方案的目标是双重的:它将鼓励那些使用高棉传统(非 Unicode)字体的人转换为 Unicode(这有很多好处),并且它将允许导入传统高棉字体转换成 Unicode 以便快速与拼写检查器一起使用(而不是手动检查和拆分单词,这对于大型文档可能需要很长时间)。

我不需要 100% 的准确率,但速度很重要(特别是因为需要拆分成高棉语单词的行可能很长)。我愿意接受建议,但目前我有大量正确拆分的高棉语词库(带有不间断空格),并且我创建了一个单词概率字典文件(frequency.csv)用作字典分词器。

我在这里找到了这个使用Viterbi 算法的python 代码,据说它运行得很快。

我还尝试使用此页面作者的源 java 代码:文本分割:基于字典的分词,但运行速度太慢而无法使用(因为我的单词概率字典有超过 100k 的术语......)。

这是 Python 中的另一个选项,来自Detect most possible words from text without spaces / combine words

我是 python 的新手,我对所有真正的编程(网站之外)都很陌生,所以请多多包涵。有没有人有任何他们认为会很好的选择?

0 投票
1 回答
3596 浏览

android - Android 越南语文本转语音?

我正在寻找一种在 Android 中开发一个应用程序的方法,该应用程序可以从文本中讲越南语。据我所知,默认情况下没有安装越南语 TTS。那么那里有适用于Android的越南语TTS引擎吗?还有一件事:我假装我安装了越南语 TTS 引擎,但该方法mTts.setLanguage(Locale)需要合适的语言环境,而越南语语言环境不在建议列表中。这种情况有解决方法吗?

0 投票
3 回答
1977 浏览

java - iText 中的高棉 Unicode

我是 iText 的新手。
现在我想在 iText 中显示高棉 Unicode,但我做不到。有谁知道怎么做?请给我提意见。

问候, LeeJava

0 投票
2 回答
1100 浏览

fpdf - 如何在 FPDF 中为高棉 Unicode 创建字符映射?

我想像其他 Unicode 一样在 FPDF 中为高棉 Unicode 创建字符映射,所以我的高棉 Unicode 将在 FPDF 中得到支持。但我不知道如何。这是我的 Unicode 字符的链接:http: //unicode.org/charts/nameslist/n_1780.html#1780

请帮助我。谢谢。

我希望你不介意我的英语。

0 投票
1 回答
436 浏览

android - Developing InputMethod For Burmese :: Android

I am developing Burmese Input Method for android 4.0. I am following the sample soft keyboard provided in API Demos.

Now My question is

In qwert.xml of sample soft keyboard.I got the following.

In above snippet android:codes="113" 113 is UTF-8 code for character q.

What I did is I replaced the android:codes with UTF-8 code for Burmese Characters. I was expecting that burmese character will be displayed but it displayes blank space for all the characters.

I am stucked up.Googled but nothing found.

Can any one help me?

0 投票
4 回答
2083 浏览

python - 右对齐包含泰语字符的字符串

我想右对齐包含泰语字符的字符串(泰语渲染不能从左到右工作,但也可以上下移动)。

例如,对于字符串 ไป(两个字符,长度为 2)和 ซื้อ(四个字符,长度为 2)我希望得到以下输出(长度为 5):

天真的

但是,分别产生

任何想法如何获得所需的格式?

编辑:给定一串泰语字符 tc,我想确定该字符串使用了多少 [地点/字段/位置/您想称呼它的任何内容]。这与 len(tc); 不同。len(tc) 通常大于使用的位置数。第二个词给出 len(tc) = 4,但长度为 2 / 使用 2 个位置 / 使用 2 个位置。

0 投票
1 回答
225 浏览

php - 未定义的偏移量和变音符号

我正在尝试解析Laotian文本,utf8_ireplace但我得到了

未定义的偏移量通知。

我能看到的一件事是有变音符号。这会导致那个警告吗?或者有人可以告诉我为什么总是老挝语(我正在处理的 6 种语言)?

老挝语和类似语言(如藏语)是否有特殊的处理方式utf8_replace?它是否会引起这些语言中某些字符的注意,这是一个已知问题吗?变音符号是问题还是其他?除了关闭通知报告之外,有谁知道如何不收到通知?

更新:实际上我补充说,在老挝语中,单词之间没有空格,所以你必须分隔字符串,这就是我使用 utf8_replace 的目的,但它在老挝语中失败,即使它似乎适用于泰语。所以我真的试图分解字符串,但由于某种原因,偏移量是未定义的。藏语似乎也有问题,例如“α╜ª”

更新

这里是中心问题:为什么我会收到utf8_replace一些老挝语单词的通知?

(Joomla)

0 投票
1 回答
238 浏览

python - 正则表达式与老挝?

在 Python 中,我想在此 HTML 代码中仅显示老挝字符(仅在“textarea”标签中):

我只想要“textarea”中的值。我应该怎么办?

0 投票
2 回答
2396 浏览

ios - SQLite 中的越南语 Unicode 文本搜索

我打算编写一个使用 SQLite 作为后端的 iOS 应用程序。我的数据库包含越南文字,例如"Hải Sơn"。习惯于谷歌搜索的用户希望输入“hai son”之类的搜索词以找到上面的文字。我尝试了以下查询:

我得到了 0 条记录。我如何使它工作?我知道谷歌和其他搜索引擎处理这种情况,所以可以做到。我也不想让我的用户输入带有完整变音符号的越南文文本,因为并非所有用户都知道如何这样做。

更新

我查看了 sqlite3 文档,看起来只有三个有效的排序规则序列:BINARY、NOCASE 和 RTRIM。我错过了什么吗?

更多信息

我的表是通过以下方式创建的:

到目前为止,我只使用 sqlite3 命令行从 CSV 文件创建数据库、表和导入文本。

我的 sqlite3 版本为 3.7.12

更新 2

Alias给了我一个想法:创建自己的整理序列。如果它有效,我将发布跟进。

0 投票
0 回答
135 浏览

r - 在 R 中渲染缅甸字符

我正在处理缅甸语文本,并尝试在 R 中运行主题模型。R 似乎无法显示和呈现缅甸语字符。当我将数据设置为 data.frame 时,缅甸字符会正确呈现:

但是,当文本不是来自 data.frame 或直接来自 csv 文件时,有几个字符:

其余的是一段文本,其中一些重音符号显示不正确,如本例所示。

我已经检查了使用的编码Encoding(),R 确认在这两种情况下我都使用 UTF-8。

仅供参考,我使用的是运行 R64 的 Mac。我有一位使用 PC 的同事并没有遇到此问题,但我们无法隔离问题。