问题标签 [character-properties]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - 有没有办法匹配任何 Unicode 字母字符?
我有一些文档通过 OCR 转换从 PDF 到 HTML。正因为如此,他们最终在转换器搞砸的地方有很多随机的 unicode 标点符号(即省略号等)。他们也正确地有一堆非英语,但仍然是字母字符,如é和俄语字符等......
有没有办法制作一个匹配任何 unicode 字母字符(来自任何语言的字母)的正则表达式?还是只匹配非字母字符?任何一个都会非常有帮助和真棒。我正在使用 Perl,如果这改变了任何东西。谢谢!
python - 匹配任何 unicode 字母?
在 .net 中你可以\p{L}
用来匹配任何字母,我如何在 Python 中做同样的事情?即,我想匹配任何大写、小写和重音字母。
javascript - 如何同时验证中文(unicode)和英文名称?
我有一个多语言网站(中文和英文)。
我喜欢在 javascript 中验证文本字段(名称字段)。到目前为止,我有以下代码。
问题是,/^[characters]{1,20}$/ 只匹配英文字符。是否可以匹配任何(包括 unicode)字符?我曾经使用以下正则表达式,但我不想在每个字符之间留有空格。
java - 如何在 Java 中正确编写 unicode 名字的正则表达式?
我需要编写一个正则表达式,以便在进一步发送之前替换用户输入中的无效字符。我想我需要用它string.replaceAll("regex", "replacement")
来做到这一点。特定的代码行应该替换所有不是 unicode 字母的字符。所以这是一个Unicode字符的白名单。基本上它是验证和替换用户名字的无效字符。
到目前为止我发现的是:\p{L}\p{M}
,但我不知道如何在正则表达式中启动它,所以它会像我上面解释的那样工作。这会是一个正则表达式否定案例吗?
java - Java 正则表达式中的 POSIX 字符等价物
我想在 Java 中使用这样的正则表达式:[[=a=][=e=][=i=]]
。
但是 Java 不支持 POSIX 类[=a=], [=e=] etc
。
我怎样才能做到这一点?更准确地说,有没有办法不使用 US-ASCII?
ruby - 使用 \d 扫描字符串中的 Unicode 数字
根据Oniguruma 文档,\d
字符类型匹配:
十进制数字字符
Unicode:General_Category -- Decimal_Number
但是,\d
在包含所有 Decimal_Number 字符的字符串中进行扫描会导致仅匹配拉丁语 0-9 数字:
我是否误读了文档?为什么不\d
匹配其他 Unicode 数字,和/或有办法让它匹配?
regex - 如何检查哪种语言支持 Unicode 正则表达式中的哪个支持级别?
UTS#18中描述了各种级别的 Unicode 正则表达式支持。
有没有办法对每个需求进行一些测试,因此可以将测试移植到相关语言,运行它们并收集结果?
其他 Unicode 文档是否也有支持级别的概念,例如字符串实现/库?
java - 使用正则表达式检查特定字符串
我有一个任意长度的字符串类型列表,我需要确保列表中的每个字符串元素都是字母数字或数字,没有空格和特殊字符等- \ / _
。
接受的字符串示例包括:
不可接受的字符串示例包括:
等基本无话。
我目前正在使用stringInstance.matches("regex")
但不太确定如何编写适当的表达式
true
对于不符合我提到的格式的单词,此方法将始终返回。
我用英语寻找的正则表达式的描述类似于:
任何字符串,其中字符串包含来自 (a-zA-Z AND 0-9 AND special characters)
OR (0-9 AND Special characters)
OR (0-9)
编辑:我想出了以下有效的表达方式,但我觉得它可能很糟糕,因为它不清楚或复杂。
表达方式:
我用这个网站来帮助我:http: //xenon.stanford.edu/~xusch/regexp/analyzer.html
请注意,我对正则表达式还是新手
java - 正则表达式:我需要将值请求参数与 unicode 字符匹配,但它不应该允许空格
JAVA 的正则表达式:我需要将请求参数的值与 unicode 字符匹配,但它不应允许空间。基本上是一个正则表达式,它应该允许所有没有空格的 unicode 字符。我尽一切努力但徒劳无功:(
我从你的网站得到了下面的正则表达式,但它也允许空间,所以请帮忙
例如“ Suraj$÷
”应该是真的,但“ Suraj $÷
”这应该是假的
perl - 清洗受污染的数据
当我通过检查是否有任何坏字符来清洗受污染的数据时,是否有 unicode-properties 可以过滤坏字符?