问题标签 [character-properties]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
25051 浏览

regex - 有没有办法匹配任何 Unicode 字母字符?

我有一些文档通过 OCR 转换从 PDF 到 HTML。正因为如此,他们最终在转换器搞砸的地方有很多随机的 unicode 标点符号(即省略号等)。他们也正确地有一堆非英语,但仍然是字母字符,如é和俄语字符等......

有没有办法制作一个匹配任何 unicode 字母字符(来自任何语言的字母)的正则表达式?还是只匹配非字母字符?任何一个都会非常有帮助和真棒。我正在使用 Perl,如果这改变了任何东西。谢谢!

0 投票
2 回答
9503 浏览

python - 匹配任何 unicode 字母?

在 .net 中你可以\p{L}用来匹配任何字母,我如何在 Python 中做同样的事情?即,我想匹配任何大写、小写和重音字母。

0 投票
5 回答
25079 浏览

javascript - 如何同时验证中文(unicode)和英文名称?

我有一个多语言网站(中文和英文)。

我喜欢在 javascript 中验证文本字段(名称字段)。到目前为止,我有以下代码。

问题是,/^[characters]{1,20}$/ 只匹配英文字符。是否可以匹配任何(包括 unicode)字符?我曾经使用以下正则表达式,但我不想在每个字符之间留有空格。

0 投票
2 回答
6587 浏览

java - 如何在 Java 中正确编写 unicode 名字的正则表达式?

我需要编写一个正则表达式,以便在进一步发送之前替换用户输入中的无效字符。我想我需要用它string.replaceAll("regex", "replacement")来做到这一点。特定的代码行应该替换所有不是 unicode 字母的字符。所以这是一个Unicode字符的白名单。基本上它是验证和替换用户名字的无效字符。

到目前为止我发现的是:\p{L}\p{M},但我不知道如何在正则表达式中启动它,所以它会像我上面解释的那样工作。这会是一个正则表达式否定案例吗?

0 投票
3 回答
7827 浏览

java - Java 正则表达式中的 POSIX 字符等价物

我想在 Java 中使用这样的正则表达式:[[=a=][=e=][=i=]]

但是 Java 不支持 POSIX 类[=a=], [=e=] etc

我怎样才能做到这一点?更准确地说,有没有办法不使用 US-ASCII?

0 投票
3 回答
1648 浏览

ruby - 使用 \d 扫描字符串中的 Unicode 数字

根据Oniguruma 文档\d字符类型匹配:

十进制数字字符
Unicode:General_Category -- Decimal_Number

但是,\d在包含所有 Decimal_Number 字符的字符串中进行扫描会导致仅匹配拉丁语 0-9 数字:

我是否误读了文档?为什么不\d匹配其他 Unicode 数字,和/或有办法让它匹配?

0 投票
2 回答
340 浏览

regex - 如何检查哪种语言支持 Unicode 正则表达式中的哪个支持级别?

UTS#18中描述了各种级别的 Unicode 正则表达式支持。

有没有办法对每个需求进行一些测试,因此可以将测试移植到相关语言,运行它们并收集结果?

其他 Unicode 文档是否也有支持级别的概念,例如字符串实现/库?

0 投票
4 回答
1456 浏览

java - 使用正则表达式检查特定字符串

我有一个任意长度的字符串类型列表,我需要确保列表中的每个字符串元素都是字母数字或数字,没有空格和特殊字符等- \ / _

接受的字符串示例包括:

不可接受的字符串示例包括:

等基本无话。

我目前正在使用stringInstance.matches("regex")但不太确定如何编写适当的表达式

true对于不符合我提到的格式的单词,此方法将始终返回。

我用英语寻找的正则表达式的描述类似于:
任何字符串,其中字符串包含来自 (a-zA-Z AND 0-9 AND special characters)
OR (0-9 AND Special characters)
OR (0-9)

编辑:我想出了以下有效的表达方式,但我觉得它可能很糟糕,因为它不清楚或复杂。

表达方式:

我用这个网站来帮助我:http: //xenon.stanford.edu/~xusch/regexp/analyzer.html
请注意,我对正则表达式还是新手

0 投票
1 回答
124 浏览

java - 正则表达式:我需要将值请求参数与 unicode 字符匹配,但它不应该允许空格

JAVA 的正则表达式:我需要将请求参数的值与 unicode 字符匹配,但它不应允许空间。基本上是一个正则表达式,它应该允许所有没有空格的 unicode 字符。我尽一切努力但徒劳无功:(

我从你的网站得到了下面的正则表达式,但它也允许空间,所以请帮忙

例如“ Suraj$÷”应该是真的,但“ Suraj $÷”这应该是假的

0 投票
3 回答
154 浏览

perl - 清洗受污染的数据

当我通过检查是否有任何坏字符来清洗受污染的数据时,是否有 unicode-properties 可以过滤坏字符?