问题标签 [character-properties]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

93 问题

0 投票

4 回答

16426 浏览

python - 正则表达式和 unicode

我有一个脚本可以解析电视剧集的文件名（例如 show.name.s01e02.avi），获取剧集名称（来自 www.thetvdb.com API）并自动将它们重命名为更好的名称（显示名称 - [01x02 ].avi)

该脚本运行良好，直到您尝试在具有 Unicode 显示名称的文件上使用它（这是我从未真正想过的，因为我拥有的所有文件都是英文的，所以几乎所有文件都属于[a-zA-Z0-9'\-]）

如何允许正则表达式匹配重音字符等？目前正则表达式的配置部分看起来像..

python regex unicode character-properties

dbr

2008-08-18T09:41:14.273

0 投票

5 回答

2247 浏览

regex - 如何在 Perl 中仅匹配 Unicode 字符串中的完全组合字符？

我正在寻找一种仅匹配 Unicode 字符串中完全组成的字符的方法。

是否[:print:]依赖于包含此字符类的任何正则表达式实现中的语言环境？例如，它会匹配日文字符“あ”，因为它不是控制字符，还是[:print:]总是 ASCII 码 0x20 到 0x7E？

是否有任何字符类（包括 Perl RE）可用于匹配控制字符以外的任何内容？如果[:print:]仅包含 ASCII 范围内的字符，我会假设[:cntrl:]也包含。

regex perl unicode locale character-properties

dreamlax

2008-10-15T03:10:13.510

0 投票

5 回答

1832 浏览

python - 在 ply 的正则表达式中匹配 unicode

我正在匹配标识符，但现在我遇到了一个问题：我的标识符允许包含 unicode 字符。因此，旧的做事方式是不够的：

在我的标记语言解析器中，我通过允许除我明确使用的字符之外的所有字符来匹配 unicode 字符，因为我的标记语言只有两个或三个我需要以这种方式转义的字符。

如何将所有 unicode 字符与 python 正则表达式和 ply 匹配？这也是一个好主意吗？

我想让人们在他们的程序中使用像 Ω » « ° foo² väli π 这样的标识符作为标识符（变量名等）。见鬼！如果可行，我希望人们可以用自己的语言编写程序！无论如何，如今在很多地方都支持 unicode，它应该传播开来。

编辑：python 正则表达式似乎无法识别 POSIX 字符类。

编辑：为了更好地解释我需要什么。我需要一个匹配所有 unicode 可打印字符但根本不匹配 ASCII 字符的正则表达式。

编辑： r"\w" 做了一些我想要的东西，但它不匹配« »，我还需要一个不匹配数字的正则表达式。

python regex unicode ply character-properties

Cheery

2008-10-26T16:35:07.803

0 投票

4 回答

5903 浏览

python - python中字符的Unicode块

有没有办法在 python 中获取字符的 Unicode 块？unicodedata模块似乎没有我需要的东西，而且我找不到它的外部库。

Character.UnicodeBlock.of()基本上，我需要与java中相同的功能。

python unicode character-properties

itsadok

2008-10-28T15:56:18.130

0 投票

12 回答

158399 浏览

javascript - 如何在 JavaScript 中使用支持 Unicode 的正则表达式？

应该有类似的东西\w可以匹配字母或标记类别中的任何代码点（不仅仅是 ASCII 代码点），并且希望有像 [[P*]] 之类的过滤器用于标点符号等。

javascript regex unicode character-properties

Amit

2008-11-11T12:00:33.480

0 投票

2 回答

97565 浏览

python - Python 和带有 Unicode 的正则表达式

我需要从字符串 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ' 中删除一些 Unicode 符号

我知道它们肯定存在于此。我试过：

但它不起作用。字符串保持不变。我究竟做错了什么？

python regex character-properties

bsn

2008-12-26T14:40:04.597

0 投票

5 回答

1420 浏览

python - 验证 Unicode 名称

在 ASCII 中，验证名称并不太难：只要确保所有字符都按字母顺序排列即可。

但是在 Unicode (utf-8) 中呢？如何确保给定字符串中没有逗号或下划线（ASCII 范围之外）？

（最好在 Python 中）

python unicode validation character-properties

Gilbert

2009-03-09T15:30:47.243

0 投票

4 回答

1476 浏览

perl - 如何获取具有给定属性的所有 Unicode 字符的列表？

在不遍历整个 Unicode 字符范围的情况下，如何获取具有给定属性的字符列表？特别是我想要一个所有数字字符的列表（即匹配的那些/\d/）。我看过Unicode::UCD，它对于确定给定字符的属性很有用，但似乎没有办法获取具有属性的字符列表。

perl unicode character-properties

2009-07-25T16:18:40.127

0 投票

2 回答

410 浏览

java - 使用正则表达式搜索 unicode 文本

搜索以印地语（天文）（UTF-16）编写的文件会导致以下问题。

该文件包含：

त्रास ततत जुग नींद ना हा बु

请注意，第一个字符“त्र”是 त + ् + र 的多个代码点现在在搜索“त”时，我得到 4 个匹配项，包括第一个字符的 त。我正在使用 Java。

我该如何搜索不属于多个代码点字符的“त”。

任何帮助将不胜感激。:)

java unicode character-properties ligature

user162703

2009-08-25T13:09:57.687

0 投票

1 回答

1521 浏览

java - Java / POSIX 正则表达式中的 `{\pGraph}` 是否有 Unicode 等价物？

根据java.util.Pattern的文档，POSIX 字符类\p{Graph}（[:graph:]以 POSIX 表示法）匹配“可见字符：[\p{Alnum}\p{Punct}]”。但是，这仅限于 ASCII 字符。是否有用于匹配（可见）Unicode 字符的等效类或表达式？

java regex unicode posix character-properties

2009-09-09T13:42:45.433

1 2 3 4 5 6 7 8 9 10