1

我目前正在使用 node.js 来抓取保存为 .htm 的 word 文档,然后将其重写为 shell。

我已经创建了 < li > 标签,但是这些 word 文档的保存方式我必须通过寻找 margin-left 来寻找它们。像这样:

$("p","td:nth-child(2)").each(function(){
   var marginLeft = this.css("margin-left");
}

到目前为止,我的工作非常好。我面临的唯一问题是样式实际上是通过类应用的。

这是冲突的类:

p.RNBullet1, li.RNBullet1, div.RNBullet1{
   mso-style-name:"*RN Bullet1";
   mso-style-unhide:no;
   mso-style-link:"*RN Bullet1 Char";
   margin-top:0in;
   margin-right:0in;
   margin-bottom:0in;
   margin-left:.2in;
   text-indent:-.2in;
   mso-pagination:widow-orphan;
   mso-list:l12 level1 lfo5;
   font-size:11.0pt;
   font-family:"Arial","sans-serif";
   mso-fareast-font-family:"Times New Roman";
}

当它显然有一个值时,它将返回一个未定义的值。

对此的任何见解都会有所帮助,我在这里发疯了。

4

1 回答 1

3

正如 vkurchatkin 上面指出的,cheerio 只是遍历 DOM。它不读取样式表

这就是答案: https ://npmjs.org/package/juice

基本上我用果汁返回的内容加载了cheerio。

果汁会将麦粒肿变成内联。

于 2014-02-05T20:10:44.783 回答