我曾经通过转换编码,iconv
但今天我被一些新的东西停下来,
我做了一个测试用例来明确我的问题:
目标是转换الحلقة الثالثة
为 utf8 版本:الحلقة الثالثة
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=windows-1252">
<title> this text is from arabic language </title>
</head>
<body>
<p><span> الحلقة الثالثة</span></p>
</body>
</html>
尝试使用编码,ASCII , LATIN1 , windows-1252
但没有运气我如何知道这种类型的编码是什么以便转换它?谷歌翻译 + stackoverflow 编辑器都能够检测到它并隐藏它吗?
另一个例子:如果我检查了这个网站http://kanjidict.stc.cx/recode.php能够正确转换编码Assume HTML (default: handle as plain text)
我错过了什么,这三个网站是为了正确转换它????