0

I have to get out information from a HTML table from a website. I want to do a HTML request from a Node.ja server to that website and parse the HTML table. Are there any libraries or techniques for JS except regular expression to parse the data from the table cells?

Sorry I'm very new in programming.

4

4 回答 4

1

看看优秀的 Cheerio 库:

https://github.com/MatthewMueller/cheerio

示例在 Git 上。

于 2013-07-06T20:15:50.340 回答
0

jsdom 是一个很棒的模块

// Count all of the links from the Node.js build page
var jsdom = require("jsdom");

jsdom.env(
  "http://nodejs.org/dist/",
  ["http://code.jquery.com/jquery.js"],
  function (errors, window) {
    console.log("there have been", window.$("a").length, "nodejs releases!");
  }
);
于 2013-07-07T00:01:19.710 回答
0
var doc = document.implementation.createDocument(null, your_downloaded_html_page_as_string, null);

您可以使用普通的 DOM 函数,例如 getElementByTagName,firstChild,..etc 从您下载的 HTML 页面中获取实际数据。

更多方法请参考Parse a HTML String with JS

于 2013-07-06T19:59:37.853 回答
-1

我会使用 JQuery。您可以像这样遍历所有表数据:(这将提醒每个表数据中的 html)

$('td').each( function () { alert( $(this).html() } );

或对于特定表:

$('#specific_table_id.td').each( function () { alert( $(this).html() } );
于 2013-07-06T19:44:58.563 回答