我正在尝试标记文件中的所有拉丁字母组件,例如:
This is English. 这是中文。 This is more English.
这将被标记为:
\english{This is English.} 这是中文。 \english{This is more English.}
我曾尝试用以sed
下来标记:
sed 's/[A-Za-z0-9 ]*/\\english{&}/g' file
运行后,基本是正确的,但是,它也在所有汉字之间放置了标记,例如:
\english{This is English.} 这\english{}是\english{}中\english{}文\english{}。 \english{This is more English.}
它还标记只是一个空间但不需要标记的地方,例如:
这是中文。 这也是中文。
这变成:
这是中文。\english{ }这也是中文。
如何修改此sed
脚本,使其不会将字符之间的空格标记为\english{}
并且不会\english{ }
在文件中放置任何 's?