0

我很难得到这个。。

我有这个 html 代码:

<table border='1'><tr><th></th><th>Fact Questions Report Type Count</th></tr><tr>
<td class=' sorting_1'>0 - 18</td><td>78</td></tr><tr><td class=' sorting_1'>19-64</td>
<td>78</td></tr><tr><td class=' sorting_1'>65+</td><td>78</td></tr><tr>
<td class=' sorting_1'>אין גיל</td><td>78</td></tr><tr><td class=' sorting_1'>נפטר</td>
<td>78</td></tr><tr><td class=' sorting_1'>Unknown</td><td>78</td></tr></table>

如您所见,我想捕捉一些特殊字符:

אין גיל,נפטר

我想做一个正则表达式,它将排除所有单词\W和数字\D以及那些->=|'

但我无法让它工作..

完美的解决方案是获得两个带有特殊字符的物品...... אין גילנפטר

PS:可能还有其他特殊角色

我很乐意在这里看到一个例子:RegexPal - 在线编辑器

天呐!

4

3 回答 3

2

如果您想专门捕捉希伯来语中的字符,您可以尝试

[\u0590-\u05FF\s]+

假设空格没问题,或者,如果使用更高级的正则表达式引擎,

[\p{Hebrew}\s]+

如果您实际上是在尝试捕捉非英语但可打印的字符,那么如果不看到您尝试过的内容,就很难为您提供帮助。\D是 的子集\W,因此您应该只需要\W+,或者如果我理解正确,因为您也想排除->=|',那么[^\w>=|-]+(破折号必须在此处最后(或在 之后的第二个位置^))。

于 2013-11-14T15:06:39.490 回答
1

这一个仅匹配ASCII 可打印字符

[\x20-\x7e]

要捕捉那些אין גילנפטר(在许多其他非 ASCII 字符中)你需要

[^\x20-\x7e]

根据要求:regexpal.com

于 2013-11-14T15:00:32.473 回答
1

我想做一个正则表达式,它将排除所有单词 \W 和数字 \D 以及那些 =|'

只需这样做:[^\w\d=|']+

正则表达式可视化

请注意,您不能使用[^\W]: 因为\W表示除 之外的任何内容\w[^\W]表示除 之外的任何内容\w,即\w( - x - = +)。

于 2013-11-14T15:03:27.870 回答