我有一个网页,上面写着“Alexander Macomb, Junior(1782 年 4 月 3 日 - 1841 年 6 月 25 日)是 1828 年 5 月 29 日至 1841 年 6 月 25 日期间美国陆军的指挥官。”。
这些字符(“?”)已经在网页中出现错误。顺便说一句,这些字符(-?)似乎是“-”。如何删除/更正此类字符。我的意思是,在将网页内容读取/加载到 java 或其他编程语言时,有什么方法可以检测和纠正这些字符。
这是一个字符编码问题:某些软件执行了不正确的字符代码转换。如果没有有关情况的更多详细信息,例如 URL,则几乎不可能提出具体的补救措施。但是该页面似乎是http://en.wikipedia.org/wiki/Alexander_Macomb_%28general%29的一些扭曲副本,因此也许您可以使用该页面。失真显然包括以某种方式修改 EN DASH “-” U-2013 字符。