我有一个文件input.txt
,其中包含大量奇怪的字符、html 标签和有用的材料。我想在新文件 output.txt中显示 35 个字符,description
不包括奇怪的字符,如和没有 html 标记。$$#$#@$#@***$#
帮我。提前谢谢。
我的最终目标是找到单词描述并在描述后打印 35 个字符,其中不应包含 html 标签和奇怪的字符。可能吗?像这儿:
<description><p><img class="float_right"
src="http://static3.businessinsider.com/image/502ab0036bb3f7147b00000f-400-300/dnu.jpg"
border="0" alt="dnu" width="400" height="300" /></p><p>The lawn
was filled with <a class="hidden_link"
href="http://www.businessinsider.com/blackboard/goldman-sachs">Goldman
Sachs</a> Group Inc. partners dressed in pink looking out on a pink sunset.
我想从:(The lawn is filled with
再次跳过这些标签并继续)Group Inc. partners
(35 个字符。完成!)然后停止并搜索另一个描述!