问题标签 [character-properties]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
598 浏览

java - 正则表达式中的 Unicode 脚本

我想猜测一个字符串的人类语言。我发现正则表达式中的 Unicode 脚本可以解决问题。但我不知道脚本名称代表什么。据我所知,Han代表中文,但其他人呢?

0 投票
5 回答
765 浏览

java - Java中的正则表达式,将字母数字作为输入,后跟正斜杠,然后再输入字母数字

我需要一个正则表达式,它将字母数字作为输入,后跟正斜杠,然后再输入字母数字。我如何为此在Java中编写正则表达式?

示例如下:

我尝试使用正则表达式如下:

但问题是它接受所有形式 abc9/ 的字符串而不在正斜杠后检查。

0 投票
3 回答
19309 浏览

java - 使用 Java 正则表达式匹配(例如)Unicode 字母

StackOverflow 上有很多问题和答案,假设“字母”可以在正则表达式中匹配[a-zA-Z]。然而,对于 Unicode,还有更多的字符被大多数人视为字母(所有的希腊字母、Cyrllic .. 等等。Unicode 定义了许多块,每个块都可能有“字母”。

Java 定义为诸如字母字符之类的东西定义了 Posix 类 ,但它被指定为仅适用于 US-ASCII。预定义的字符类定义了由 组成的单词[a-zA-Z_0-9],它也排除了许多字母。

那么如何正确匹配 Unicode 字符串呢?有没有其他图书馆可以做到这一点?

0 投票
3 回答
14525 浏览

regex - \w 是否匹配 Unicode 标准中定义的所有字母数字字符?

Perl 是否\w匹配 Unicode 标准中定义的所有字母数字字符?

例如,将\w匹配所有(比如说)中文和俄文字母数字字符?

我编写了一个简单的测试脚本(见下文),它表明\w确实与我测试的非 ASCII 字母数字字符“按预期”匹配。但测试显然远非详尽无遗。

0 投票
2 回答
3465 浏览

javascript - 将 Unicode“名称”与 JavaScript 正则表达式匹配

在 JavaScript 中,我们可以使用 Unicode 转义序列匹配单个 Unicode 代码点或代码点范围,例如:

但是我们如何使用 JavaScript 正则表达式创建一个正则表达式来匹配必须包含任何 Unicode“字母”的专有名称?有字母范围吗?JavaScript 中的特殊正则表达式序列或字符类?

假设我的网站必须验证可能是基于拉丁语的名称以及希伯来语、西里尔语、日语(片假名、平假名等)的名称,这在 JavaScript 中是否可行,或者是委托给具有更好 Unicode 支持的后端语言的唯一明智选择?

0 投票
4 回答
1657 浏览

java - 包含 unicode 单词的正则表达式

我想匹配包含某个单词的所有字符串。喜欢:

但是,Pattern 类不会编译它:

我已经设置了 unicode_case 来编译参数,不知道这里出了什么问题

感谢帮助!:)

0 投票
2 回答
2854 浏览

javascript - Javascript unicode(希腊语)正则表达式

我想在希腊文本中使用这个正则表达式new RegExp("\b"+pat+"\b")但 "\b" 元字符只支持 ASCII 字符。

我尝试了 XregExp库,但我没有设法解决这个问题。

任何建议将不胜感激。

0 投票
2 回答
502 浏览

ruby - 在 Ruby 中枚举一个字符的 Unicode 属性?

有没有办法在 Ruby 中枚举所有字符的 Unicode 属性?我可以使用 Ruby 1.9 的 Regexp 类来测试给定字符是否具有特定属性(例如,some_char =~ /\p{P}/测试是否some_char是标点符号等)...但是由于字符可以具有多个属性((例如,既是标点符号是ASCII 等),如果能够获得一个字符所有属性的列表,那就太好了。

我可能可以使用unicode_data.txt或其他任何名称手动执行此操作,但这似乎是某种可能已经在某处完成的事情。UnicodeUtils似乎没有任何类似的东西,谷歌搜索也没有发现任何明显的东西。谢谢!

0 投票
7 回答
20624 浏览

php - 带有特殊字符的名称的正则表达式 (Unicode)

好的,我整天都在阅读关于正则表达式的内容,但仍然没有正确理解它。我想要做的是验证一个名字,但我可以在互联网上找到的功能只使用[a-zA-Z],留下我需要接受的字符。

我基本上需要一个正则表达式来检查名称是否至少是两个单词,并且它不包含数字或特殊字符,例如!"#¤%&/()=...,但是这些单词可以包含 æ、é、Â 等字符......

一个被接受的名字的例子是:“John Elkjærd”或“André Svenson”
一个不被接受的名字是:“ Hans ”、“H 4 nn 3 Andersen”或“Martin Henriksen

如果重要的话,我使用javascript.match()函数客户端并想使用phppreg_replace()唯一的“负面”服务器端。(删除不匹配的字符)。

任何帮助将非常感激。

更新:
好的,感谢Alix Axel 的回答,我已经完成了重要的部分,服务器端的部分。

但正如LightWing 回答的页面所暗示的那样,我找不到任何关于 javascript 的 unicode 支持的信息,所以我最终为客户端提供了一半的解决方案,只需检查至少两个单词和至少 5 个这样的字符:

另一种方法是按照shifty's answer中的建议指定所有 unicode 字符,我可能最终会做类似的事情,以及上面的解决方案,但这有点不切实际。

0 投票
2 回答
8777 浏览

java - {L} Unicode 类别是什么?

我遇到了一些包含[^\\p{L}]. 我知道这是使用某种形式的 Unicode 类别,但是当我检查文档时,我发现只有以下“L”类别:

L在这种情况下是什么?