0

如何从包含语言字符、字母数字字符英文字母的文件中仅提取特定语言的字符

4

1 回答 1

0

这取决于几个因素:

  1. 字符串是用 UTF-8 编码的吗?

  2. 您想要所有非英文字符,包括符号和标点符号等,还是只需要来自书面语言的非符号字符?

  3. 您想捕捉非英语或非拉丁语的字符吗?我的意思是,你想要像浪漫和日耳曼字母之外的字符éç还是只想要字符?

最后,

  1. 你想用什么编程语言来做这件事?

假设您使用的是 UTF-8,您不需要基本标点符号但可以使用其他符号,并且您不需要任何标准拉丁字符但可以使用重音字符等,您可以使用字符串无论您使用哪种语言,正则表达式都可以搜索所有非 Ascii 字符。这将消除您可能试图清除的大部分内容。

在 php 中它将是:

$string2 = preg_replace('/[^(\x00-\x7F)]*/','', $string1);

但是,这将删除您可能想要也可能不想要的行尾。

于 2009-10-02T09:07:42.230 回答