php - 通过 pdftotext 或 pdfparser 从 pdf 中提取印地语 / devnagri 文本时得到相同的垃圾

翻译自：https://stackoverflow.com/questions/55739792 2019-04-18T05:47:21.070

62 次

我正在使用 php Pdfparser 和 pdftotext 从 pdf 中提取印地语/devnagri 文本。但是我使用上述两种方法得到了同样的垃圾或垃圾。

垃圾，例如：

f{kfrt114; rhanz feJ dk tUe lu~ 1977 esa v;ksè;k (mÙkj izns"k) esa gqvkA mUgksaus y[kumQ fo"ofo|ky;] y[kumQ ls ¯gnh esa ,e-,- fd;kA os vktdy Lora=k ys[ku osQ lkFk v¼Zokf"kZd lfgr if=kdk dk laiknu dj jgs gSaA lu~ 1999 eas lkfgR; vkSj dykvksa osQ lao¼Zu vkSj vuq"khyu osQ fy, ,d lkaLÑfrd U;kl ^foeyk nsoh iQkmaMs"ku* dk lapkyu Hkh dj jgs gSaA ;rhanz feJ osQ rhu dkO;&laxzg izdkf"kr gq, gSaμ;nk&dnk] v;ksè;k rFkk vU; dfork,¡] M~;ks<+h ij vkykiA blosQ vykok "kkL=kh; xkf;dk fxfjtk nsoh osQ thou vkSj laxhr lk/uk ij ,d iqLrd fxfjtk fy[khA jhfrdky osQ vafre izfrfuf/ dfo f}tnso dh xzaFkkoyh (2000) dk lg&laiknu fd;kA oq¡Qoj ukjk;.k ij osaQfnzr nks iqLrdksa osQ vykok fLid eSosQ osQ fy, fojklr&2001

如果我在谷歌中粘贴这个垃圾，它会显示正确的印地语页面。可能是乱码是正确的，但它是不同的语言。

如果有人可以支持从 pdf 到文本中提取确切的可读文本。

php - 通过 pdftotext 或 pdfparser 从 pdf 中提取印地语 / devnagri 文本时得到相同的垃圾

0 回答 0

Related

Reference