我正在尝试从这里使用 pdf2text 库:
http://webcheatsheet.com/php/reading_clean_text_from_pdf.php
我的 pdf 包含捷克语的数据,并且该库在某些字符方面存在问题,即:
ř 替换为 Y Ž 替换为 } Kč 替换为 K\r .. 等等。
但其中一些是可以的,例如:í、ú、Ý。
替换正则表达式
[0-9a-f]
和
[0-9\x01-\x7F]
在图书馆里根本没有给我任何结果(老实说,我不擅长正则表达式)。用 mb_ 替换字符串函数也没有区别
示例数据:
Kupující: anna123 - 安娜托娃;Příjemce: Anna Tova, Jezborice 123, 530 02 Pardubice; 联系方式:AnnT@seznam.cz, 7211111 A1244 SVET_MODNI STYLOVÝ SVETR V.42-POUŽITÉ (5209214093)
给我的结果:
Kupující: anna123 - 安娜托娃;PYíjemce: Anna Tova, Jezborice 123, 530 02 Pardubice; 联系方式:AnnT@seznam.cz, 7211111 A1244 SVET_MODNI STYLOVÝ SVETR V.42-POU}ITÉ (5209214093)
谢谢