问题标签 [character-properties]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
16426 浏览

python - 正则表达式和 unicode

我有一个脚本可以解析电视剧集的文件名(例如 show.name.s01e02.avi),获取剧集名称(来自 www.thetvdb.com API)并自动将它们重命名为更好的名称(显示名称 - [01x02 ].avi)

该脚本运行良好,直到您尝试在具有 Unicode 显示名称的文件上使用它(这是我从未真正想过的,因为我拥有的所有文件都是英文的,所以几乎所有文件都属于[a-zA-Z0-9'\-]

如何允许正则表达式匹配重音字符等?目前正则表达式的配置部分看起来像..

0 投票
5 回答
2247 浏览

regex - 如何在 Perl 中仅匹配 Unicode 字符串中的完全组合字符?

我正在寻找一种仅匹配 Unicode 字符串中完全组成的字符的方法。

是否[:print:]依赖于包含此字符类的任何正则表达式实现中的语言环境?例如,它会匹配日文字符“あ”,因为它不是控制字符,还是[:print:]总是 ASCII 码 0x20 到 0x7E?

是否有任何字符类(包括 Perl RE)可用于匹配控制字符以外的任何内容?如果[:print:]仅包含 ASCII 范围内的字符,我会假设[:cntrl:]也包含。

0 投票
5 回答
1832 浏览

python - 在 ply 的正则表达式中匹配 unicode

我正在匹配标识符,但现在我遇到了一个问题:我的标识符允许包含 unicode 字符。因此,旧的做事方式是不够的:

我的标记语言解析器中,我通过允许除我明确使用的字符之外的所有字符来匹配 unicode 字符,因为我的标记语言只有两个或三个我需要以这种方式转义的字符。

如何将所有 unicode 字符与 python 正则表达式和 ply 匹配?这也是一个好主意吗?

我想让人们在他们的程序中使用像 Ω » « ° foo² väli π 这样的标识符作为标识符(变量名等)。见鬼!如果可行,我希望人们可以用自己的语言编写程序!无论如何,如今在很多地方都支持 unicode,它应该传播开来。

编辑:python 正则表达式似乎无法识别 POSIX 字符类。

编辑:为了更好地解释我需要什么。我需要一个匹配所有 unicode 可打印字符但根本不匹配 ASCII 字符的正则表达式。

编辑: r"\w" 做了一些我想要的东西,但它不匹配« »,我还需要一个不匹配数字的正则表达式。

0 投票
4 回答
5903 浏览

python - python中字符的Unicode块

有没有办法在 python 中获取字符的 Unicode 块?unicodedata模块似乎没有我需要的东西,而且我找不到它的外部库。

Character.UnicodeBlock.of()基本上,我需要与java中相同的功能。

0 投票
12 回答
158399 浏览

javascript - 如何在 JavaScript 中使用支持 Unicode 的正则表达式?

应该有类似的东西\w可以匹配字母或标记类别中的任何代码点(不仅仅是 ASCII 代码点),并且希望有像 [[P*]] 之类的过滤器用于标点符号等。

0 投票
2 回答
97565 浏览

python - Python 和带有 Unicode 的正则表达式

我需要从字符串 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ' 中删除一些 Unicode 符号

我知道它们肯定存在于此。我试过:

但它不起作用。字符串保持不变。我究竟做错了什么?

0 投票
5 回答
1420 浏览

python - 验证 Unicode 名称

在 ASCII 中,验证名称并不太难:只要确保所有字符都按字母顺序排列即可。

但是在 Unicode (utf-8) 中呢?如何确保给定字符串中没有逗号或下划线(ASCII 范围之外)?

(最好在 Python 中)

0 投票
4 回答
1476 浏览

perl - 如何获取具有给定属性的所有 Unicode 字符的列表?

在不遍历整个 Unicode 字符范围的情况下,如何获取具有给定属性的字符列表?特别是我想要一个所有数字字符的列表(即匹配的那些/\d/)。我看过Unicode::UCD,它对于确定给定字符的属性很有用,但似乎没有办法获取具有属性的字符列表。

0 投票
2 回答
410 浏览

java - 使用正则表达式搜索 unicode 文本

搜索以印地语(天文)(UTF-16)编写的文件会导致以下问题。

该文件包含:

त्रास ततत जुग नींद ना हा बु

请注意,第一个字符“त्र”是 त + ् + र 的多个代码点现在在搜索“त”时,我得到 4 个匹配项,包括第一个字符的 त。我正在使用 Java。

我该如何搜索不属于多个代码点字符的“त”。

任何帮助将不胜感激。:)

0 投票
1 回答
1521 浏览

java - Java / POSIX 正则表达式中的 `{\pGraph}` 是否有 Unicode 等价物?

根据java.util.Pattern的文档,POSIX 字符类\p{Graph}[:graph:]以 POSIX 表示法)匹配“可见字符:[\p{Alnum}\p{Punct}]。但是,这仅限于 ASCII 字符。是否有用于匹配(可见)Unicode 字符的等效类或表达式?