如何从包含语言字符、字母数字字符英文字母的文件中仅提取特定语言的字符
user160002
问问题
88 次
1 回答
0
这取决于几个因素:
字符串是用 UTF-8 编码的吗?
您想要所有非英文字符,包括符号和标点符号等,还是只需要来自书面语言的非符号字符?
您想捕捉非英语或非拉丁语的字符吗?我的意思是,你想要像浪漫和日耳曼字母之外的字符
é
,ç
还是只想要字符?
最后,
- 你想用什么编程语言来做这件事?
假设您使用的是 UTF-8,您不需要基本标点符号但可以使用其他符号,并且您不需要任何标准拉丁字符但可以使用重音字符等,您可以使用字符串无论您使用哪种语言,正则表达式都可以搜索所有非 Ascii 字符。这将消除您可能试图清除的大部分内容。
在 php 中它将是:
$string2 = preg_replace('/[^(\x00-\x7F)]*/','', $string1);
但是,这将删除您可能想要也可能不想要的行尾。
于 2009-10-02T09:07:42.230 回答