我有一个将数据插入 PDF 的过程,该过程最终加载到基于插入数据进行搜索的系统中。插入的数据如下所示:
<<
/IBM-ODIndexes
<< /Private
<<
/DOB (05031983)
/FULL_NAME (TEST USER)
/YEAR (2020)
>>
/LastModified(D:20210112201530)
>>
但是,在某些情况下,FULL_NAME
字段中的数据包含非 UTF8 字符,然后用户无法搜索数据。具体来说,撇号来自 Microsoft Word,然后被解释如下:
/FULL_NAME (JERRY OÃ<83>¢ââ<80><9a>‰â<80><9e>¢CONNELL)
在这种情况下,我希望去掉表示为的撇号Ã<83>¢ââ<80><9a>‰â<80><9e>¢
并将其替换为空格。