我想使用 BeautifulSoup 获取标签的内容。
我的代码:
html= "<html><body><td class="HindiTextGray" align="left" valign="top">
<br />
सूरत। सिल्कसिटी सूरत के कपड़ा बाजार की व्यापारिक प्रक्रिया में बड़ा बदलाव देखने को मिल रहा है।<br />
</td></body></html>"
soup = BeautifulSoup(html)
td =soup.find('td')
extra = td.script.extract()
td.table.extract()
td.span.extract()
self.response.write(td.contents)
我想要的是:
सूरत। सिल्कसिटी सूरत के कपड़ा बाजार की व्यापारिक प्रक्रिया में बड़ा बदलाव देखने को मिल रहा है।
但我得到:
[u'\n',
, u'\r\n \u0938\u0942\u0930\u0924\u0964
\u0938\u093f\u0932\u094d\u0915\u0938\u093f\u091f\u0940 \u0938\u0942\u0930\u0924 \u0915\u0947 \u0915\u092a\u0921\u093c\u093e \u092c\u093e\u091c\u093e\u0930 \u0915\u0940 \u0935\u094d\u092f\u093e\u092a\u093e\u0930\u093f\u0915 \u092a\u094d\u0930\u0915\u094d\u0930\u093f\u092f\u093e \u092e\u0947\u0902 \u092c\u0921 \u093c\u093e \u092c\u0926\u0932\u093e\u0935 \u0926\u0947\u0916\u0928\u0947 \u0915\u094b \u092e\u093f\u0932 \u0930\u0939\u093e \u0939\u0948\u0964 \u092f\u0939 \u092c\u0926\u0932\u093e\u0935 \u0938\u0948\u091f\u093f\u0902\u0917 \u0906\u0927\u093e\u0930\u093f\u0924 \u0935\u094d\u092f\u093e\u092a\u093e\u0930 \u092a \u094d\u0930\u0915\u094d\u0930\u093f\u092f\u093e \u0915\u093e \u0939\u0948\u0964 \u0907\u0938\u092e\u0947\u0902 90 \u092b\u0956\u092b\09516\0\u092 u092a\u0921\u093c\u093e\u0935\u094d\u092f\u093e\u092a\u093e\u0930\u0940 \u0935\u093f\u0936\u094d\u0935\u093e\u0938 \u0930\u0916\u0924\u0947\u0947\u0942, u0915\u093f\u0928 \u0907\u0938\u0915\u0947 \u092e\u0941\u0924\u093e\u092c\u093f\u0915 \u0935\u094d\u092f\u093e\u092a\u093e\u0930 \u0915\u0930\u0928\u0947 \ u0935\u093e\u0932\u094b\u0902 \u0915\u0940 \u0938\u0902\u0916\u094d\u092f\u093e \u092e\u0939\u091c 15 \u092a\u094d\u0930\u0924\u093f\u0936\u0924 \u0939\u0940 \u0939\u0948\u0964',\u0932\u0947\u0915\u093f\u0928 \u0907\u0938\u0915\u0947 \u092e\u0941\u0924\u093e\u092c\u093f\u0915 \u0935\u094d\u092f\u093e\u092a\u093e\u0930 \u0915\u0930 \u0928\u0947 \u0935\u093e\u0932\u094b\u0902 \u0915\u0940 \u0938\u0902\u0916\u094d\u092f\u093e \u092e\u0939\u091c 15\u092a\00094d\u092a\0994d\u0962 u0924 \u0939\u0940 \u0939\u0948\u0964',\u0932\u0947\u0915\u093f\u0928 \u0907\u0938\u0915\u0947 \u092e\u0941\u0924\u093e\u092c\u093f\u0915 \u0935\u094d\u092f\u093e\u092a\u093e\u0930 \u0915\u0930 \u0928\u0947 \u0935\u093e\u0932\u094b\u0902 \u0915\u0940 \u0938\u0902\u0916\u094d\u092f\u093e \u092e\u0939\u091c 15\u092a\00094d\u092a\0994d\u0962 u0924 \u0939\u0940 \u0939\u0948\u0964',
,