1

在从网页(在p标签内)抓取内容时,偶尔会在人类文本之间看到长长的东西,例如:

ªjßûÞà&fnof;^_^\,_>xî¹Ág?;´Â¼ú8&#x17E;^S^R +^R ^A^R ^A^R ^A^R ^A&rsaquo;^DÆ^Z^_&#x17D;m&rdquo;A&þÅ^R^N&OElig;^RÝmîÜaÎ^W¿¸;^Oéµk^G&Yuml;ÿü`ß}^G^G^\0¸ì²  &Yuml;b1oÞà#^_^Y&#x17D;EO9eâ?&#x17D;<ÅFw#^R     9æè^Q^AZß&ª¿lÙ`׮ݡwî^\&dagger;Â* &circ;&Scaron;«MB^BtE^B$@^B$@^B$@^B$`&ldquo;&euro;&#x17D;ýüĬY»Çª&tilde;òÅ^XrÉ&rsquo;Á;Þ1̹þúÝ&ndash;[¶^LÞ÷¾Áyç^M×o`Åõ&lsquo;G^N°ôzÊ&rdquo;¡?N^W^Ow^F&fnof;iÓ^F0>ä?azæL?Ð0wàg^V&#x17D;Z^S&rsquo;^\^Y·µê?öØ°úc¾O&scaron;?^@]&lsquo;^@  ?^@     ?^@     ?^@     Ø$0r¤&Scaron;¡òA^G^MÇ?7Þ¸Ûæ&tilde;c&dagger;»:¤\¿~ðþ÷^O^^?}p    Ã|^YÏc¬&#x17D;íS&Yuml;Ú]d¸3Ø={&OElig;!:¶C^Oõ#^Nsí^MÔ[«>Ö«^?à^C&fnof;íÛ},m=ªØì&ndash;TE^B$@^B$@^B$@^B$P4>¼æ&scaron;á^PúÓ&Yuml;Þmó?ï^Lw±&circ;EÆ?'?48ç&oelig;a^ZÃuo{÷»wÛH¾ØoØ0ÜÛ^?ÿÝ&Dagger;t êÚhfa"a«ùbܸ-T^_Óéï|çàþû&lsaquo;d¸&rsquo;ö¤^S^R +^R ^A^R ^A^R ^A^R  &dagger;        `R:ü¯ywY&trade;Q_½:ÇÕÐz8J^\þ&Dagge

  `i=æºeÙpÁ&mdash;UêsÀÂo^LÑñþ^EÞyÁK    ø+¨X²^ß-=?^@    ?^@     ?^@     ?^@     ?À¤$&euro;Ñ2^[Æ\:^õ?&rdquo;^Ud¥H&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;^DH&euro;

我对它们的唯一熟悉是当我不小心在文本编辑器中打开了一些二进制文件时。这些是长序列,正在污染我的样本。有什么技巧可以摆脱它们吗?

PS:它们是什么?例如,其中一些伴随着

endstream
endobj
37 0 obj
817
endobj
38 0 obj
<< /Length 39 0 R /N 3 /Alternate /DeviceRGB /Filter /FlateDecode >>
stream
4

0 回答 0