问题标签 [character-properties]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 正则表达式和 unicode
我有一个脚本可以解析电视剧集的文件名(例如 show.name.s01e02.avi),获取剧集名称(来自 www.thetvdb.com API)并自动将它们重命名为更好的名称(显示名称 - [01x02 ].avi)
该脚本运行良好,直到您尝试在具有 Unicode 显示名称的文件上使用它(这是我从未真正想过的,因为我拥有的所有文件都是英文的,所以几乎所有文件都属于[a-zA-Z0-9'\-]
)
如何允许正则表达式匹配重音字符等?目前正则表达式的配置部分看起来像..
regex - 如何在 Perl 中仅匹配 Unicode 字符串中的完全组合字符?
我正在寻找一种仅匹配 Unicode 字符串中完全组成的字符的方法。
是否[:print:]
依赖于包含此字符类的任何正则表达式实现中的语言环境?例如,它会匹配日文字符“あ”,因为它不是控制字符,还是[:print:]
总是 ASCII 码 0x20 到 0x7E?
是否有任何字符类(包括 Perl RE)可用于匹配控制字符以外的任何内容?如果[:print:]
仅包含 ASCII 范围内的字符,我会假设[:cntrl:]
也包含。
python - 在 ply 的正则表达式中匹配 unicode
我正在匹配标识符,但现在我遇到了一个问题:我的标识符允许包含 unicode 字符。因此,旧的做事方式是不够的:
在我的标记语言解析器中,我通过允许除我明确使用的字符之外的所有字符来匹配 unicode 字符,因为我的标记语言只有两个或三个我需要以这种方式转义的字符。
如何将所有 unicode 字符与 python 正则表达式和 ply 匹配?这也是一个好主意吗?
我想让人们在他们的程序中使用像 Ω » « ° foo² väli π 这样的标识符作为标识符(变量名等)。见鬼!如果可行,我希望人们可以用自己的语言编写程序!无论如何,如今在很多地方都支持 unicode,它应该传播开来。
编辑:python 正则表达式似乎无法识别 POSIX 字符类。
编辑:为了更好地解释我需要什么。我需要一个匹配所有 unicode 可打印字符但根本不匹配 ASCII 字符的正则表达式。
编辑: r"\w" 做了一些我想要的东西,但它不匹配« »,我还需要一个不匹配数字的正则表达式。
python - python中字符的Unicode块
有没有办法在 python 中获取字符的 Unicode 块?unicodedata模块似乎没有我需要的东西,而且我找不到它的外部库。
Character.UnicodeBlock.of()
基本上,我需要与java中相同的功能。
javascript - 如何在 JavaScript 中使用支持 Unicode 的正则表达式?
应该有类似的东西\w
可以匹配字母或标记类别中的任何代码点(不仅仅是 ASCII 代码点),并且希望有像 [[P*]] 之类的过滤器用于标点符号等。
python - Python 和带有 Unicode 的正则表达式
我需要从字符串 'بِسْمِ اللَّهِ الرَّحْمَٰنِ الرَّحِيمِ' 中删除一些 Unicode 符号
我知道它们肯定存在于此。我试过:
但它不起作用。字符串保持不变。我究竟做错了什么?
python - 验证 Unicode 名称
在 ASCII 中,验证名称并不太难:只要确保所有字符都按字母顺序排列即可。
但是在 Unicode (utf-8) 中呢?如何确保给定字符串中没有逗号或下划线(ASCII 范围之外)?
(最好在 Python 中)
perl - 如何获取具有给定属性的所有 Unicode 字符的列表?
在不遍历整个 Unicode 字符范围的情况下,如何获取具有给定属性的字符列表?特别是我想要一个所有数字字符的列表(即匹配的那些/\d/
)。我看过Unicode::UCD
,它对于确定给定字符的属性很有用,但似乎没有办法获取具有属性的字符列表。
java - 使用正则表达式搜索 unicode 文本
搜索以印地语(天文)(UTF-16)编写的文件会导致以下问题。
该文件包含:
त्रास ततत जुग नींद ना हा बु
请注意,第一个字符“त्र”是 त + ् + र 的多个代码点现在在搜索“त”时,我得到 4 个匹配项,包括第一个字符的 त。我正在使用 Java。
我该如何搜索不属于多个代码点字符的“त”。
任何帮助将不胜感激。:)
java - Java / POSIX 正则表达式中的 `{\pGraph}` 是否有 Unicode 等价物?
根据java.util.Pattern的文档,POSIX 字符类\p{Graph}
([:graph:]
以 POSIX 表示法)匹配“可见字符:[\p{Alnum}\p{Punct}]
”。但是,这仅限于 ASCII 字符。是否有用于匹配(可见)Unicode 字符的等效类或表达式?