问题标签 [thai]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
42 浏览

sql - SQL 中的外语阅读不正确

我有泰语条目“Yamato-Esulon (Thailand) Co.,Ltd (โรง 1)”的原始文件,但是当我将其放在 SQL 表上时,它更改为“Yamato-Esulon (Thailand) Co.,Ltd (Ó╣ éÓ©úÓ©ç 1)' 。我正在使用数据类型 nvarchar(MAX)。以前有人遇到过这种情况,如何防止这种情况发生?

0 投票
1 回答
7369 浏览

c# - Unicode 字符串中的泰语字符问题

我有一个泰语字符很少的字符串。此字符串使用 unicode 字符。但是我在 IDE 中看不到泰文字符,即使我在文本文件中写入字符串也是如此。如果我想正确看到泰语字符,我必须编写以下代码

应用上述逻辑后,我可以正确看到带有泰文字符的字符串。这是输出

// notice the thai character เดี่ยว in the string M_M-150 150CC. เดี่ยว (2 For 18 Save 2)

我不确定为什么我需要应用上述逻辑来查看泰语字符,即使字符串是 Unicode?Encoding.Default 在这种情况下到底在做什么?

0 投票
1 回答
113 浏览

javascript - 这是“à¹,ค้à¸1.5ลิตร(M)” UTF 字符串还是 Ansi 字符串

我不确定“à¹,ค้à¸1.5ลิตร(M)”是UTF字符串还是Ansi字符串。什么是可靠的检测它。此字符串应正确显示泰文字符。

除非我了解它当前的编码,否则我无法应用转换来正确显示泰文字符。

0 投票
0 回答
47 浏览

c++ - mbsrtowcs 成功,但是如何按字符打印字符

我在 Mac OS X 上,使用 clang++ 6.0。

我可以在控制台上打印一个 std::string 泰语字符。我可以使用 mbsrtowcs() 将其转换为宽字符数组。但是逐个字符打印只显示问号'?'。我一定不明白。

有人可以建议我如何打印每个字符,或者有可能吗?我知道系统知道这些字符,因为它可以将它们打印成一个宽字符数组(见下面的输出)。

编码:

输出:

0 投票
1 回答
141 浏览

elasticsearch - 如何查询具有多个条件的字符串?

我有这样的查询代码。

而且我不能在泰语中使用“匹配”(我不知道为什么)。我想在一个包含文本“ชื่นชม”但不包含文本“ครับ”的字段中进行搜索。

预先感谢。

0 投票
1 回答
318 浏览

java - OpenNLP 在使用泰语模型时出错

我试图遵循这里的建议,但我收到了这个错误:

test.txt文件包含句子“ผมหิวข้าว”。

谁能告诉我如何解决它?我想使用 POSTagger。谢谢你。

0 投票
1 回答
341 浏览

c# - 使用 .NET 框架对这个泰语字符进行分类

我正在尝试根据此处解释的规则解析一些泰语文本http://www.thai-language.com/ref/spacing

基本上,我想在空格和标点符号之间找到字符串,类似于我们在英语中所做的那样。我意识到单词本身不一定在泰语中被空格分隔,没关系。

为了解析我尝试简单循环的文本,比如

查找下一个不是字母或数字的字符。除了像这个这样的某些角色外,这有效

泰语字符

这是该单词中的第二个字符(我认为这是单词中第一个字符的“上标”字符)。

泰语单词

这个字符似乎没有被 Char 类归类为任何东西,即:

全部返回false

这个字符可能是一个“音调”——如何使用 .NET 来识别它?

0 投票
1 回答
581 浏览

sql - SQL Server将泰语全名解析为第一个最后一个

我有一个独特的问题。我已经使用 SQL Server 工作了很长时间。我们将包含全名的文件导入 SQL Server。我需要做的就是将全名解析为 First 和 Last。如果名称是英文字符集,我的解析工作正常。但是,我们正在解析使用不同字符集的泰语名称?

这是我的代码:

结果:

就像我说的,当我使用英语时,查询工作正常。例如,“约翰史密斯”返回:

我整天都在搜索这个网站和其他网站!提前致谢。

0 投票
2 回答
75 浏览

sql-server - 将泰国名字解析为名字的最后一个

我需要将全名列表解析为名字和姓氏。如果包含中间名,则应将其包含在第一个名称字段中。

约翰史密斯将是:

名字 = 约翰

姓氏 = 史密斯

约翰 J. 史密斯将是:

名字 = John J.

姓氏 = 史密斯

问题是名称可能是泰语或英语字符集。我需要正确解析任何一组。我已经尝试了几乎所有...

使用REVERSE泰语字符集时根本不起作用。

0 投票
2 回答
554 浏览

python - 在 Python 3 中,计算泰语字符位置

首先,我使用 Python 3字形库来解决我的问题。(有关字素的更多信息请参阅这篇文章)。但令我惊讶的是,如果没有专门的库,Python 3 就无法做到这一点……


我求助于字素是因为在多次网络搜索和阅读StackOverflow问题之后,我无法让 Python 3在一系列泰语字符中返回正确数量的字符位置。

例如,这是一个 UTF-8 泰语字符串:

我使用术语字符位置来标识一行/字符串泰语字符中的单个位置。这是因为一个字符位置可能由一个泰语辅音加上,在某些情况下,该辅音上方或下方的元音或声调标记组成。辅音加上元音或音调标记上方/下方占据 Unicode 字符串中的单个字符位置。(一些泰语辅音也可能在其左侧、右侧或两者都有元音。这些元音占据它们自己的字符位置。)

例如,在从示例字符串生成的以下序列中,项目 2 和 7 是元音,项目 10 是音调标记。每个都使用 UTF-8 字符串中的单独字节,但不占用自己的字符位置。第 3 项和第 8 项是位于辅音左侧的元音,因此占据字符位置。

当试图确定示例字符串中的字符位置时,len(thai_str)返回45. 这是不正确的。我能够获得正确数量的字符位置的唯一方法是grapheme.length(thai_str)使用35.

我还使用 编码来获得以下信息:

(计算xe0似乎在每个泰语字符之前出现的实例并不像正确的方法......)

所以 - 在我的示例字符串中计算字符位置的唯一方法是使用 Python 3 库,例如grapheme