问题标签 [thai]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 在 ICU 项目中使用 RTGS 将泰语音译为拉丁语
我正在使用 ICU 项目执行一些音译,但在从泰语音译到拉丁语时发现了一些问题。我需要使用 RTGS (https://en.wikipedia.org/wiki/Royal_Thai_General_System_of_Transcription)标准,但它似乎没有在 ICU 项目中实现。我非常感谢有关如何将 RTGS 添加到 ICU 项目或至少任何用 Java 开发的项目的帮助。
提前致谢
python - urllib2 没有获得与具有相同代理的普通浏览器相同的 html 字符串(编码错误?)
我正在尝试从该站点获取页面http://www.francais-thai.com/dicoweb/fran/00012.htm
但是在python中
(页面中有泰文)
这是我尝试过的代码:(它应该下载页面)
但是我以这种方式获得的页面与我显示源代码时给我的 firefox/chrome/etc 完全不同
这是我使用 chrome 获得的页面:
这是我用我的代码得到的错误页面:
我尝试更改用户代理,最后使用wireshark获得了确切的用户代理,但正在下载相同的“错误”页面,而不是正确的页面
如何获得与普通浏览器使用 python 获得的相同的 html 文本?
我的猜测是编码错误(html上有泰语)但我无法让它工作,我尝试更改编码等。但我无法让它工作
ios - 如何处理 UILabel 中泰文的高度?
我正在开发一个我们目前正在翻译成泰语的应用程序。当我们在 iOS 7 上测试应用程序时,一切都很顺利,但是在 iOS 8 上,一些重音被UILabel
s 剪掉了。
我们使用自动布局来布局应用程序的所有元素。
我在 iOS 8 的发行说明中的某处读到泰语字符默认字体已增加以增强可读性。然而,自动布局似乎并不关心标签的高度,就好像它正在显示拉丁文本一样,从而导致一些重音被剪裁。
在 iOS 中处理泰语文本的正确方法是什么?
编辑:这是一张显示问题的图片。(OK
开启iOS 7
,CUT
开启iOS 8
。)
注意:我尝试设置to的clipToBounds
属性,文本确实没有被剪裁。然而,这不是一个好的解决方案!如果我有两个一个在另一个之上的标签,我可能会有重叠的文本......</p>
UILabel
NO
oracle - Java 代码中的泰语字符不允许超过 1333 个字符
Java 代码中的泰语字符不允许超过 1333 个字符。除了在 db 中使用 CLOB 数据类型外,还有其他可能的方法吗?我们正在使用 Oracle 11g。
qt - Qt:QString 中的 Unicodes / Utf-8 需要永远(12 分钟)才能显示在控制器上
我正在 Eclipse/Linux 中使用 Qt 做一个多语言应用程序。在泰语中,我的控制器似乎不太支持换行符(我仍然不确定为什么)。无论如何,以下算法会在每个泰语字符之间插入一个零宽度空格 (\u200b)(字符及其重音符号之间除外),因此可能会出现换行符。但是,我的控制器现在需要 12 分钟才能以泰语启动(在显示打开 QString 消息之前 12 分钟)。该函数覆盖 Qt 中的 QTranslator::translate,因此我可以在每个已翻译的 QString 中添加零宽度空格。
我的问题如下:你们能告诉我我是否正确操作 QString 中的 Unicode 和 Utf-8 字符吗?编辑:泰语符号的渲染是 Qt 问题吗?非常感谢!
python - 用其他语言处理 CountVectorizer
我使用 Scikit-learn 的 CountVectorizer 来计算已经标记化的泰语单词的出现次数,然后尝试在 Python 3 中对文本进行矢量化
代码:
输出:
其实应该是[[1 1]]。
在我的观察中(我已经对泰语单词数据集进行了许多测试),我认为泰语元音存在问题,即“ซ้อม”中的“้”(泰语元音),但对于另一种情况,例如“การ”(有没有元音)它不会对使用 CountVectorizer 造成任何问题
您有什么建议可以调整 CountVectorizer 以识别这种情况
bash - 如何使用 bash 操作包含 unicode(泰语)字符的 CSV?
我有一个包含泰语关键字的 Adwords 转储,我将使用它来连接来自另一个数据库的数据。
理论上,我抓取文件,剪掉顶部和底部无用的行,稍微清理一下,然后将其作为新表上传到 PostgreSQL。
在实践中,即使文件在 Excel 和 OpenOffice 中打开良好,字符也会在途中出现乱码(实际上是从一开始)。以下在我的本地机器(运行 OSX)和服务器(运行 Ubuntu)上都是正确的。
首先,我已经将语言环境设置为 UTF-8:
但是,查看 CLI 上的 CSV(假设它只包含上述字符串)给了我这个:
知道问题出在哪里吗?