1

我需要从 MS Word 粘贴的文本中删除项目符号,但我不知道要匹配什么。

当打印到 STDOUT 时,符号显示为 ⢠这些字符的 ascii 代码是 194 和 162。符号的 ascii 代码是 149

任何建议如何在 JavaScript 或 Ruby 代码中进行?

4

2 回答 2

1

在 ruby​​ 中,你应该能够使用类似的东西:

mystring.gsub(/[\xxx]/,'whatever')

xxx您要查找的字符代码在哪里。您只需执行 in irb 即可查看该代码是什么,puts mystring它应该会显示给您

于 2009-12-10T20:10:28.520 回答
0

我对要点也有类似的问题,包括获取您描述的符号。我尝试了各种 regEx 过滤器,但无论是在项目符号点还是那些产生的 ¢ 字符上,都无法正常工作。

但是,我确实设法找到了一种使用自定义方法过滤项目符号点(或任何类似字符)的方法。它不漂亮或不理想,但它有效:

def strip_bullet_point(value) 
  first_char = 0
  value.each_char { |c| c =~ /[A-Za-z]/ ? break : first_char += 1 }

  value[first_char...value.length]
end

这也将删除所有前面的空格和其他非字母字符,因为它们也为 =~ 检查返回 nil。

不要/[[:alpha:]]/用于表达式匹配,因为这会将 ¢ 字符视为字母。请注意,这/[A-Za-z]/会对非英文字符(例如“ñ”)产生误报。

于 2016-05-16T00:56:16.357 回答