问题标签 [grapheme]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
445 浏览

regex - 获得字形的正确方法是什么?

为什么这会打印 aU而不是 a Ü

0 投票
3 回答
2447 浏览

javascript - 获取javascript字符串中的字形字符数?

我试图在用户可见的字素中获取 javascript 字符串的长度,即忽略组合字符(和代理对?)。这是可能的,如果是这样,我将如何去做?

我们在我们的项目中使用了 dojo 工具包,但是任何通用的 javascript 解决方案都会很棒。

0 投票
4 回答
537 浏览

ruby - 按字素拆分 Unicode 实体

给我

如何让 Ruby 按字素拆分它?

0 投票
1 回答
225 浏览

css - 字形š总是粗体

从几个小时开始,我就在与 š 的字体风格作斗争。

我正在使用来自 google webfonts 的 webfont“open sans”,并在 google 的评论选项中测试了字形。一切都很好,š 和其他字体一样又细又漂亮。(对不起,我还不能发布图片)

但在我的网站上,š 总是粗体!我重置了所有样式表以确保没有任何东西覆盖字体粗细或其他东西。我的文档是 utf-8,我尝试了两种方式来发布字形:š 和š

我扫描了谷歌的 quellcode 以找到正确显示字形的魔法,但找不到解决方案:(

有人可以帮我解决这个问题吗?

在线示例: http: //korasu.de/font/

0 投票
1 回答
101 浏览

unicode - 不同字素的集合是无限的吗?

可以用 Unicode 编码(如 UTF-8)表示的不同字素的数量是否有任何限制?例如,Unicode 标准是否限制连续组合字符的数量?

0 投票
3 回答
2477 浏览

unicode - Unicode 中的“组合字符”和“字素扩展器”有什么区别?

Unicode 中的“组合字符”</a> 和“字形扩展器”</a> 有什么区别?

据我所知,它们似乎在做同样的事情——尽管字素扩展器的集合大于组合字符的集合。我显然在这里遗漏了一些东西。为什么要区分?


Unicode 标准,第 3 章,D52

  • 组合字符:具有组合标记(M)的一般类别的字符。
  • 组合字符由具有间距组合标记 (Mc)、非间距标记 (Mn) 和封闭标记 (Me) 的常规类别值的所有字符组成。
  • 所有具有非零规范组合类的字符都是组合字符,但情况并非如此:存在具有零规范组合类的组合字符。
  • 私有字符 (Co) 是否解释为组合字符由实现决定。
  • 这些字符通常不会单独使用,除非它们被描述。它们包括诸如口音、变音符号、希伯来语点、阿拉伯元音符号和印度语 matras 等字符。
  • 组合字符的图形定位取决于最后一个前面的基本字符,除非它们被一个既不是组合字符也不是零宽度连接符或零宽度非连接符的字符分隔。据说组合字符适用于该基本字符。
  • 可能没有这样的基本字符,例如当组合字符位于文本开头或跟随控制或格式字符时 - 例如,回车符、制表符或左右标记。在这种情况下,组合字符称为孤立组合字符。
  • 有孤立的组合字符或当一个进程无法进行图形组合时,进程可能会呈现一个没有图形组合的组合字符;也就是说,它可以将其呈现为就好像它是一个基本字符一样。
  • 组合字符的代表图像在代码图中用虚线圆圈表示。当与前面的基本字符以图形组合形式呈现时,该基本字符旨在出现在虚线圆圈所占据的位置。

Unicode 标准,第 3 章,D59

  • Grapheme 扩展器:具有Grapheme_Extend属性的字符。
  • 字形扩展字符由所有非间距标记、零宽度连接符、零宽度非连接符、U+FF9E、U+FF9F 和少量间距标记组成。
  • 字素扩展器主要可以被认为是一种非间距图形标记,应用于另一个间距字符的上方或下方。零宽度连接器和零宽度非连接器被正式定义为字素扩展器,因此它们的存在不会破坏其他字素扩展器的序列。
  • 少数具有 Grapheme_Extend 属性的间距标记都是双部分组合标记的第二部分。
  • 根据定义,具有 Grapheme_Extend 属性的字符集和具有 Grapheme_Base 属性的字符集是不相交的。
0 投票
1 回答
101 浏览

java - 转换相似的音词部分

我无法在此处搜索正确的术语来解决以下问题;我确定它已经完成了,我只是找不到合适的术语来表达这个问题!

我基本上是在尝试创建一个分类器,它将获取单词比较输出(例如,来自 Levenstein 距离的一些输出)并确定单词是否足够不同。一个重要的输入可能类似于 soundex 比较。我遇到的麻烦是为算法创建训练集(在这种情况下是 SVM)。我有一长串名字,我需要对它们进行一些变异(基于单词中的相似发音)。

例如John,并且Jon将是一个突变,我可以在测试集中将其标记为等效。John并且Johann有足够不同的声音和字母距离被认为是不同的。

所以我有点要求是一种实现音素变化生成器的方法,但需要能够保留英文字母结构。

即使是简单的翻译也可能就足够了,例如“f”可以(有时)被“ph”替换。我正在用 Java 做这个,所以任何在这个方向上的提示都会很棒!谢谢。

编辑

这是迄今为止我遇到的最接近的:http ://www.isi.edu/natural-language/people/hovy/papers/07IJCAI-spelling-variants.pdf

0 投票
1 回答
207 浏览

objective-c - 如何在 Objective-C 中识别单词以哪个字母开头?

给定一个字符串,我试图确定它属于字母表中的哪个字母。例如,“apple”进入“A”部分。“香蕉”进入“B”部分。我用它来识别部分:

string我要存储的字符串在哪里,并且letter是字母表中的一个字母。我对字母表中的每个字母循环执行此操作。

它很好用,除了像“æquo”这样的词,它应该被放入字母“A”中,但不是。该怎么办?

编辑情节变厚。我现在在看韩文。“것”这个词应该放在字母“ㄱ”中。除了维护一个巨大的映射表之外,必须有一些方法可以做到这一点。

0 投票
2 回答
517 浏览

python - python 正则表达式中的字形支持

我正在使用很棒的正则表达式模块,尝试它的\X字形支持。

首先,我尝试使用普通的旧.

它按预期进行。继续前进\X

为什么和 一样.?一个单曲不\X应该足以捕捉 A-umlaut 吗?是吗:

  • 我对字形或含义的理解\X是错误的?
  • 我需要先打开一些标志/开关?(我查了文档,没找到)
  • 我的环境有什么问题吗?(Python 2.7.3,pip 报告 regex==2014.12.24)
  • 图书馆里的虫子?
  • 还有什么?
0 投票
2 回答
1419 浏览

python - 如何在 Python 中将阿拉伯字母映射到音素?

我想制作一个简单的 Python 脚本,将每个阿拉伯字母映射到音素声音符号。我有一个文件,其中包含一堆单词,脚本将读取这些单词以将它们转换为音素,并且我的代码中有以下字典:

我的.txt文件中的内容:

我的代码中的字典:

我有一个嵌套循环,我正在读取每一行,转换每个字符:

这是我得到的错误:

然后我使用 Linux 命令检查文件类型是否为 UTF-8:

我得到的输出:

这个问题的任何解决方案,为什么它不映射到字典中的 Unicode 对象,因为我用作ar_let_phon_maplist[character]行键的字符也是 Unicode?我的代码有问题吗?