我一直在做一些事情,它需要一个带有参考书目的 html 文件,并剥离除作者之外的所有内容。我很难摆脱一些无关的数据,例如 html 标签中的字符。我希望能够剥离整个标签,甚至更好的是标签之间的特定数据。
现在这是我的潜艇的样子:
sub extractAuthorsIntoArray{
@author_array = split /[<>"\/?!.=\(\)1234567890':]/, $doc;
foreach(@author_array){
print "$_" . "\n";
}
}
此时它所做的是剥离所有标签字符,但它留下了一堆我不想要的无关数据,例如发布日期以及出版物名称和我不需要的其他数据。每当我试图摆脱说“<li>”时,它都会给我我的新数据,而这些字符完全丢失了。不管怎样,我会继续努力的。
后来。
编辑:
我想做的是这样的:
<li value="2">Artem Chebotko 和 Shiyong Lu,<b>“用于高效评估 SPARQL 嵌套可选图模式的嵌套可选连接”</b>。< i>Progressive Concepts for Semantic Web Evolution: Applications and Developments</i>,Miltiadis Lytras 和 Amit Sheth (Eds.),信息科学出版社,ISBN 160566992X,2010。< br/>< br/></li> < li>Artem Chebotko、Shiyong Lu、Farshad Fotouhi 和 Anthony Aristar,<b>“基于本体的语义网多媒体语言数据注释”</b>。< i>基于 Web 的语义信息系统:最先进的应用程序</i>,Amit Sheth 和 Miltiadis Lytras(主编),IGI Global,ISBN 1599044269,2006。< br/>< br/>< /li>
最后得到这个:
Artem Chebotko 和 Shiyong Lu