问题标签 [character-properties]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - 如何将西里尔字符与正则表达式匹配
如何将法语和俄语西里尔字母字符与正则表达式匹配?我只想做字母字符,没有数字或特殊字符。现在我有
[A-Z-Z]
python - Python:在单词边界上拆分 unicode 字符串
我需要一个字符串,并将其缩短为 140 个字符。
目前我正在做:
所以这对英语和类似英语的字符串很有用,但对于中文字符串却失败了,因为tweet.split()
只返回一个数组:
我应该怎么做才能处理 I18N?这对所有语言都有意义吗?
如果这很重要,我在 python 2.5.4 上。
.net - Unicode 中的正则表达式分词器
如何转换正则表达式 \w+ 给我 Unicode 中的整个单词——而不仅仅是 ASCII?
我使用.net
python - 匹配 Unicode 属性的 Python 正则表达式
Perl 和其他一些当前的正则表达式引擎在正则表达式中支持 Unicode 属性,例如类别。例如,在 Perl 中,您可以使用\p{Ll}
匹配任意小写字母或p{Zs}
任何空格分隔符。我在 Python 的 2.x 和 3.x 行中都没有看到对此的支持(很遗憾)。有人知道获得类似效果的好策略吗?欢迎使用本土解决方案。
string - 有没有办法判断 unicode 字符是控件、字母、数字还是符号?
假设您拥有的只是二进制数据并且没有预装函数,那么是否有一种模式或算法来对字符类型进行分类?
regex - unicode 字符串上的 Mathematica 正则表达式
这是一次令人着迷的调试体验。你能看出以下两行之间的区别吗?
当您评估它们时,它们会做非常不同的事情。事实证明,这是因为第一行中被替换的字符串由一个 unicode 破折号组成,而不是第二行中的普通旧 ascii 破折号。
对于 unicode 字符串,正则表达式不匹配。我的意思是正则表达式“[\s\S]”的意思是“匹配任何字符(包括换行符)”,但 Mathematica 显然将其视为“匹配任何ascii字符”。
如何修复正则表达式,以便上面第一行的计算结果与第二行相同?或者,是否有一个 asciify 过滤器可以先应用于字符串?
PS:Mathematica 文档说它的字符串模式匹配是建立在 Perl 兼容的正则表达式库(http://pcre.org)之上的,所以我遇到的问题可能不是 Mathematica 特有的。
c# - 正则表达式不匹配 Unicode
我将如何使用 Regex 匹配 Unicode 字符串?我正在从一个文本文件中加载几个关键字,并将它们与 Regex 一起用于另一个文件。关键字都包含 unicode(例如á
,等)。我不确定问题出在哪里。我必须设置一些选项吗?
代码:
并将关键字读取到列表中:
然后我将数组更改为列表。
ruby - 如何在 Ruby 1.9 中为 unicode 西里尔字符指定正则表达式
问题是为什么\w
忽略西里尔字符?
我已经从http://rubyinstaller.org/安装了最新的 ruby 包。这是我的输出ruby -v
据我所知 1.9 oniguruma 正则表达式库完全支持 unicode 字符。
ruby - 如何判断一个字符是不是汉字
ruby如何判断一个字符是否为汉字?</p>