问题标签 [thai]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
175 浏览

java - 在 ICU 项目中使用 RTGS 将泰语音译为拉丁语

我正在使用 ICU 项目执行一些音译,但在从泰语音译到拉丁语时发现了一些问题。我需要使用 RTGS (https://en.wikipedia.org/wiki/Royal_Thai_General_System_of_Transcription)标准,但它似乎没有在 ICU 项目中实现。我非常感谢有关如何将 RTGS 添加到 ICU 项目或至少任何用 Java 开发的项目的帮助。

提前致谢

0 投票
1 回答
49 浏览

python - urllib2 没有获得与具有相同代理的普通浏览器相同的 html 字符串(编码错误?)

我正在尝试从该站点获取页面http://www.francais-thai.com/dicoweb/fran/00012.htm

但是在python中

(页面中有泰文)

这是我尝试过的代码:(它应该下载页面)

但是我以这种方式获得的页面与我显示源代码时给我的 firefox/chrome/etc 完全不同

这是我使用 chrome 获得的页面:

这是我用我的代码得到的错误页面:

我尝试更改用户代理,最后使用wireshark获得了确切的用户代理,但正在下载相同的“错误”页面,而不是正确的页面

如何获得与普通浏览器使用 python 获得的相同的 html 文本?

我的猜测是编码错误(html上有泰语)但我无法让它工作,我尝试更改编码等。但我无法让它工作

0 投票
1 回答
636 浏览

import - 将泰语字符输入 SAS

我目前有一个包含泰语字符的 xlsx 文件,该文件在 excel 中正确显示。

excel中显示的泰文字符

但是,当我在 SAS EG 4.3(也在 5.1 中尝试过)中导入此文件时,泰语字符显示为“???”

在 SAS 中导入后

这是相同的示例代码

我也尝试了各种编码,我还遇到了一个错误,说不能从 utf-16le 转换为 wlatin1。

有什么办法可以让这个字符显示在 SAS 表中?

0 投票
2 回答
1148 浏览

ios - 如何处理 UILabel 中泰文的高度?

我正在开发一个我们目前正在翻译成泰语的应用程序。当我们在 iOS 7 上测试应用程序时,一切都很顺利,但是在 iOS 8 上,一些重音被UILabels 剪掉了。

我们使用自动布局来布局应用程序的所有元素。

我在 iOS 8 的发行说明中的​​某处读到泰语字符默认字体已增加以增强可读性。然而,自动布局似乎并不关心标签的高度,就好像它正在显示拉丁文本一样,从而导致一些重音被剪裁。

在 iOS 中处理泰语文本的正确方法是什么?

编辑:这是一张显示问题的图片。(OK开启iOS 7CUT开启iOS 8。)

问题如图所示

注意:我尝试设置to的clipToBounds属性,文本确实没有被剪裁。然而,这不是一个好的解决方案!如果我有两个一个在另一个之上的标签,我可能会有重叠的文本......</p> UILabelNO

0 投票
2 回答
715 浏览

oracle - Java 代码中的泰语字符不允许超过 1333 个字符

Java 代码中的泰语字符不允许超过 1333 个字符。除了在 db 中使用 CLOB 数据类型外,还有其他可能的方法吗?我们正在使用 Oracle 11g。

0 投票
1 回答
381 浏览

.net - 获取泰语组合字符的正确图形表示

我正在尝试编写一种可以呈现泰语(以及其他)的位图字体。我有字符集,但很多字符都是“组合字符”代码点。我正在使用 Graphics.DrawString 来获取字符的位图。这适用于拉丁文、西里尔文和越南文。

但是,当我渲染一个单独的组合字符时,Windows .Net 在组合字符下方呈现一个虚线圆圈,如下所示:泰文字符

有没有办法删除这些圈子?(他们并不总是在同一个地方)

这是我现在使用的代码:

0 投票
1 回答
232 浏览

qt - Qt:QString 中的 Unicodes / Utf-8 需要永远(12 分钟)才能显示在控制器上

我正在 Eclipse/Linux 中使用 Qt 做一个多语言应用程序。在泰语中,我的控制器似乎不太支持换行符(我仍然不确定为什么)。无论如何,以下算法会在每个泰语字符之间插入一个零宽度空格 (\u200b)(字符及其重音符号之间除外),因此可能会出现换行符。但是,我的控制器现在需要 12 分钟才能以泰语启动(在显示打开 QString 消息之前 12 分钟)。该函数覆盖 Qt 中的 QTranslator::translate,因此我可以在每个已翻译的 QString 中添加零宽度空格。

我的问题如下:你们能告诉我我是否正确操作 QString 中的 Unicode 和 Utf-8 字符吗?编辑:泰语符号的渲染是 Qt 问题吗?非常感谢!

0 投票
2 回答
759 浏览

fonts - 如何在 libGDX 中正确渲染泰语字体?

我正在制作一个应用程序来帮助我记住我正在学习的一些泰语单词。

但是我无法正确渲染文本。

我用这个例子来创建一个基本场景。这就是我到目前为止所拥有的。

为了测试,我只想显示“ก”字符。上面的代码产生一个“?” 象征。

我直接从libGDX 目录下载了 garuda.tff 字体。

我真的不确定我错过了什么!我什至尝试在运行时生成位图,但产生了一个空白屏幕。

任何建议都会很棒!

编辑:我在 Android Studio 上注意到,当我关闭并重新打开项目时,实际代码从“ก”变为“?”。这可能是一个编码问题,但我不知道如何解决它。

0 投票
0 回答
832 浏览

python - 用其他语言处理 CountVectorizer

我使用 Scikit-learn 的 CountVectorizer 来计算已经标记化的泰语单词的出现次数,然后尝试在 Python 3 中对文本进行矢量化

代码:

输出:

其实应该是[[1 1]]。

在我的观察中(我已经对泰语单词数据集进行了许多测试),我认为泰语元音存在问题,即“ซ้อม”中的“้”(泰语元音),但对于另一种情况,例如“การ”(有没有元音)它不会对使用 CountVectorizer 造成任何问题

您有什么建议可以调整 CountVectorizer 以识别这种情况

0 投票
1 回答
112 浏览

bash - 如何使用 bash 操作包含 unicode(泰语)字符的 CSV?

我有一个包含泰语关键字的 Adwords 转储,我将使用它来连接来自另一个数据库的数据。

理论上,我抓取文件,剪掉顶部和底部无用的行,稍微清理一下,然后将其作为新表上传到 PostgreSQL。

在实践中,即使文件在 Excel 和 OpenOffice 中打开良好,字符也会在途中出现乱码(实际上是从一开始)。以下在我的本地机器(运行 OSX)和服务器(运行 Ubuntu)上都是正确的。

首先,我已经将语言环境设置为 UTF-8:

但是,查看 CLI 上的 CSV(假设它只包含上述字符串)给了我这个:

知道问题出在哪里吗?