9

我正在尝试解析我的大学提供的课程表,以便将信息导入某种日历。可以在此处查看时间表示例:
http ://www.asw-berufsakademie.de/fileadmin/download/download/Sked%20Stundenplan/WIA13-7.%20Block.html

在我看来,自动生成的 HTML 内容是一团糟,很难掌握。例如,表格主要是用rowspans 和colspans 构建的(代码中单元格的位置与其在浏览器中的实际视觉位置相比似乎部分是任意的)。

我已经尝试过的:

  1. 要求大学行政办公室单独提供一个更简单、更易于阅读的文件。当然这是不可能的,毕竟这意味着一分钟的额外努力。
  2. 研究用于生成 HTML 的原始工具。它被称为“sked Stundenplan 软件”。我找不到任何提示或工具来“逆转”生成过程。
  3. 在寻找现有解决方案时,我发现了一些不适用于我的日程安排的工具(例如http://code.google.com/p/skd-schedule-parser/ )。在研究了这些工具的代码后,我得出结论,它们一定是为其他/过时版本的 sked 设计的。
  4. 使用 PHP 解析 HTML(主要使用 DOMDocument)。这有时有效,但太不可靠了……要考虑的例外情况似乎是不确定的。

现在,我认为传统的 HTML 解析不会让我走得太远,至少在可接受的开发时间内不会。我正在寻找的是从复杂的 HTML 表中获取信息的其他方法,例如 YQL,或者可以使用 col-/rowspans 规范化此类表的实用程序。因为我没有任何具体的想法,所以我主要是在寻求另一种方法的一些提示或提示。

是否还有其他更合适的方法来解析此类表格,或者我是否坚持使用传统的 HTML 解析?

编辑:

代表一个请求,我将粘贴一个原始代码示例......

本星期:
安排周

此代码的结果:http:
//pastebin.com/BJduUVtU

编辑 2:
由于一些解析讨论,我还将添加我的 PHP 代码。这是我第一次使用 PHP,所以它不是很复杂。它应该更深入地了解我在理论上解析表格方面走了多远。实际工作发生在函数parseSkedTable()中,请专注于这一点。另外,我想指出评论中出现的“双门课程”一词,它描述了同时发生的两门不同的课程(课程会在这样的时刻被分开)。这些课程的一个例子可以在第二周找到:
http ://www.asw-berufsakademie.de/fileadmin/download/download/Sked%20Stundenplan/WIB14-4.%20Block.html

它看起来像这样: 双课程

那一周的相应HTML 代码也可以在这里访问:http:
//pastebin.com/gLTWz5KU

现在是PHP 代码(我很难翻译这些评论,因为我已经在努力用我的第一语言表达它们......我希望它们仍然有帮助): http:
//pastebin.com/Nzi8m2v8

更新

到目前为止,我的解析问题已经有了一些解决方案,每个都使用 JavaScript。由于 JavaScript(由于使用浏览器渲染数据的能力而在这里特别强大)似乎是从 HTML 中检索可靠信息的唯一有效方法,我现在正在寻找一种方法来实现某种无头浏览器或渲染引擎在我位于 x10hosting.com 的免费服务器上。可悲的是,我既不能安装softaculous提供的软件,也不能使用 PHP 的exec()命令。
任何想法将不胜感激!

为了完整起见,我将发布两个解决方案,直到现在都存在:

  1. Pierre Dubois 的jQuery 解析器

    (函数 ($) { $(document).ready(function() {

        var _pe = window.pe || {
            fn : {}
        };
    
        var tblNumber = 0; // Just a incremental number to identify the schedule item with the table
    
        // For each table
        $('table').each(function () {
    
            $('#output').append('Parsing the table number: ' + tblNumber + '<br>');
            // console.log('Parsing the table number: ' + tblNumber);
            tblNumber += 1;
    
            var currentTable = this;
    
    
            // Parser the complex table
            _pe.fn.parsertable.parse($(currentTable));
    
            // Retrieve the parsed data
            var parsedData = $(currentTable).data().tblparser;
    
            //
            // Information about the column structure, nice that is consistent
            //
    
            // Day: Cell index position (0 based)
            // Mo: 3
            // Di: 7
            // Mi: 11
            // Do: 15
            // Fr: 19
            // Sa: 23
    
            // Title Location at Row index position "0"
    
            // "i" represent the middle column position
            for (var i = 3; i < 24; i += 4) {
    
                var currentDay;
    
                // Get the day
                currentDay = $(parsedData.row[0].cell[i].elem).text();
    
                $('#output').append('  Day: ' + currentDay + '<br>');
                // console.log('Day: ' + currentDay);
    
                // Get all the events for that day, excluding the first row and the last row
                for (var j = 1; j < parsedData.col[i].cell.length - 2; j += 1) {
    
                    // First column 
                    if (parsedData.col[i - 1].cell[j - 1].uid !== parsedData.col[i - 1].cell[j].uid ) {
    
                        // Get the content of that cell and remove ending space
                        var event = $(parsedData.col[i - 1].cell[j].elem).text().trim();
    
                        if (event.length > 0) {
                            $('#output').append('  + Event: ' + event + '<br>');
                            // console.log('Event: ' + event);
                        }
                    }
    
                    // Second Column
                    if (parsedData.col[i].cell[j - 1].uid !== parsedData.col[i].cell[j].uid &&
                        parsedData.col[i - 1].cell[j].uid !== parsedData.col[i].cell[j].uid) {
    
                        // Get the content of that cell and remove ending space
                        var event = $(parsedData.col[i].cell[j].elem).text().trim();
    
                        if (event.length > 0) {
                            $('#output').append('  + Event: ' + event + '<br>');
                            // console.log('Event: ' + event);
                        }
                    }
    
                    // Third Column
                    if (parsedData.col[i + 1].cell[j - 1].uid !== parsedData.col[i + 1].cell[j].uid &&
                        parsedData.col[i].cell[j].uid !== parsedData.col[i + 1].cell[j].uid) {
    
                        // Get the content of that cell and remove ending space
                        var event = $(parsedData.col[i + 1].cell[j].elem).text().trim();
    
                        if (event.length > 0) {
                            $('#output').append('  + Event: ' + event + '<br>');
                            // console.log('Event: ' + event);
                        }
                    }
                } 
    
            }
    
        });
    
    
    });
    

    }(jQuery));

  2. JS解析器使用 我的位置信息,实现rambo coder的想法

4

6 回答 6

1

您可以在这里使用浏览器渲染/布局引擎。

使用http://phantomjs.org/访问无头浏览器,让您在网页的 dom 上执行 javascript。

一点 jquery 将使剩余的伪代码易于实现:

foreach (td.t as dateElement) {
    //parse date from element text
    //use pixel position + dimensions to calc pixel coord of center
    // save this center in a list along with the date
}

foreach (td.v as calendarEntryElement) {
    //parse time + other stuff from element text
    //use pixel position to find the closest date element in that list(it must be the closest one above)
}

我觉得位置信息在这里会非常可靠,因为一切都是嵌套的矩形,并且都是通过表格完成的。

不需要使用 phantomjs,您可以轻松地手动执行浏览器,并让它向本地服务器发送请求以收集结果。

一些shell命令大致像

firefox file://foo123.html

您在<script>其中一个网页的末尾附加了一些自定义并保存了它。

于 2012-10-22T01:36:28.833 回答
1


我在同一所大学学习,几周前我遇到了同样的问题来解析这个时间表并将其转换为 ICS 文件。最后,我找到了自己的解决方案并将代码通用化,以便其他大学的学生使用 Sked 软件并拥有更复杂的时间表,也可以导入他们的时间表。
我还创建了一个网站,学生可以在其中注册并配置他们想要订阅的时间表的 URL。在后台运行一个 cronjob,以确保订阅的日历始终是最新的。您可以在我的网站上找到该项目的结果:http:
//calendar.pineappledeveloper.com/
(仅提供德语版本)。

于 2015-12-27T06:12:16.697 回答
0

许多开发人员使用 HTML Agility Pack 来解析 HTML:

http://htmlagilitypack.codeplex.com/

于 2012-10-20T13:37:40.527 回答
0

有趣的复杂表。布局表和数据表之间的混合。

这可能会对您有所帮助,该解决方案使用 jQuery 并使用Web Experience Toolkit Project中提供的相同复杂表解析器。使用该表解析器,您将能够检索您的日程安排数据。唯一需要做的就是解析日程项目内容以导入您的日历应用程序。

此解决方案使用列而不是行来检索计划项目

工作示例:http: //jsfiddle.net/3t2A8/2/

这里是用于提取和显示计划项目的 javascript 代码

(function ($) {
    $(document).ready(function() {

        var _pe = window.pe || {
            fn : {}
        };

        var tblNumber = 0; // Just a incremental number to identify the schedule item with the table

        // For each table
        $('table').each(function () {

            $('#output').append('Parsing the table number: ' + tblNumber + '<br>');
            // console.log('Parsing the table number: ' + tblNumber);
            tblNumber += 1;

            var currentTable = this;


            // Parser the complex table
            _pe.fn.parsertable.parse($(currentTable));

            // Retrieve the parsed data
            var parsedData = $(currentTable).data().tblparser;

            //
            // Information about the column structure, nice that is consistent
            //

            // Day: Cell index position (0 based)
            // Mo: 3
            // Di: 7
            // Mi: 11
            // Do: 15
            // Fr: 19
            // Sa: 23

            // Title Location at Row index position "0"

            // "i" represent the middle column position
            for (var i = 3; i < 24; i += 4) {

                var currentDay;

                // Get the day
                currentDay = $(parsedData.row[0].cell[i].elem).text();

                $('#output').append('  Day: ' + currentDay + '<br>');
                // console.log('Day: ' + currentDay);

                // Get all the events for that day, excluding the first row and the last row
                for (var j = 1; j < parsedData.col[i].cell.length - 2; j += 1) {

                    // First column 
                    if (parsedData.col[i - 1].cell[j - 1].uid !== parsedData.col[i - 1].cell[j].uid ) {

                        // Get the content of that cell and remove ending space
                        var event = $(parsedData.col[i - 1].cell[j].elem).text().trim();

                        if (event.length > 0) {
                            $('#output').append('  + Event: ' + event + '<br>');
                            // console.log('Event: ' + event);
                        }
                    }

                    // Second Column
                    if (parsedData.col[i].cell[j - 1].uid !== parsedData.col[i].cell[j].uid &&
                        parsedData.col[i - 1].cell[j].uid !== parsedData.col[i].cell[j].uid) {

                        // Get the content of that cell and remove ending space
                        var event = $(parsedData.col[i].cell[j].elem).text().trim();

                        if (event.length > 0) {
                            $('#output').append('  + Event: ' + event + '<br>');
                            // console.log('Event: ' + event);
                        }
                    }

                    // Third Column
                    if (parsedData.col[i + 1].cell[j - 1].uid !== parsedData.col[i + 1].cell[j].uid &&
                        parsedData.col[i].cell[j].uid !== parsedData.col[i + 1].cell[j].uid) {

                        // Get the content of that cell and remove ending space
                        var event = $(parsedData.col[i + 1].cell[j].elem).text().trim();

                        if (event.length > 0) {
                            $('#output').append('  + Event: ' + event + '<br>');
                            // console.log('Event: ' + event);
                        }
                    }
                } 

            }

        });


    });

}(jQuery));

它将为“双课程”表输出

Parsing the table number: 0
  Day: Mo, 22.10.2012
  + Event: 12:45 - 14:15 Uhr
      Vorlesung
      DATMOD Gr. 1
      HG: 13
  + Event: 12:45 - 14:15 Uhr
      Vorlesung
      PROG III Gr. 2
      HG: 15
  + Event: 14:30 - 16:00 Uhr
      Vorlesung
      DATMOD Gr. 1
      HG: 13
  + Event: 14:30 - 16:00 Uhr
      Vorlesung
      PROG III Gr. 2
      HG: 15
  + Event: 16:15 - 17:45 Uhr
      Vorlesung
      DATMOD Gr. 2
      HG: 13
  + Event: 16:15 - 17:45 Uhr
      Vorlesung
      PROG III Gr. 1
      HG: 15
  + Event: 18:00 - 19:30 Uhr
      Vorlesung
      DATMOD Gr. 2
      HG: 13
  + Event: 18:00 - 19:30 Uhr
      Vorlesung
      PROG III Gr. 1
      HG: 15
  Day: Di, 23.10.2012
  + Event: 9:00 - 10:30 Uhr
      Vorlesung
      DATMOD Gr. 2
      HG: 13
  + Event: 10:45 - 12:15 Uhr
      Vorlesung
      DATMOD Gr. 2
      HG: 13
  + Event: 12:45 - 14:15 Uhr
      Vorlesung
      DATMOD Gr. 1
      HG: 13
  + Event: 14:30 - 16:00 Uhr
      Vorlesung
      DATMOD Gr. 1
      HG: 13
  + Event: 16:15 - 17:45 Uhr
      Vorlesung
      PROG III Gr. 1
      HG: 15
  + Event: 18:00 - 19:30 Uhr
      Vorlesung
      PROG III Gr. 1
      HG: 15
  Day: Mi, 24.10.2012
  + Event: 9:00 - 10:30 Uhr
      Vorlesung
      DATMOD
      HG: 09
  + Event: 10:45 - 12:15 Uhr
      Vorlesung
      DATMOD
      HG: 09
  + Event: 12:45 - 14:15 Uhr
      Vorlesung
      IuF
      HG: 09
  + Event: 14:30 - 16:00 Uhr
      Vorlesung
      IuF
      HG: 09
  Day: Do, 25.10.2012
  + Event: 12:45 - 14:15 Uhr
      Vorlesung
      PROG III Gr. 2
      HG: 15
  + Event: 14:30 - 16:00 Uhr
      Vorlesung
      PROG III Gr. 2
      HG: 15
  + Event: 16:15 - 17:45 Uhr
      Vorlesung
      Linux Gr. 2
      HG: 15
  + Event: 18:00 - 19:30 Uhr
      Vorlesung
      Linux Gr. 2
      HG: 15
  Day: Fr, 26.10.2012
  Day: Sa, 27.10.2012
  + Event: 9:00 - 11:15 Uhr
      Klausur
      MP INT RW
      HG: 14

:-)

于 2012-10-23T19:45:45.083 回答
0

我对您的问题有些希望,因为 html 格式正确并且符合 x-html。

以下 Java 程序成功解析它,但没有提取信息。

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;

import org.w3c.dom.Document;

public final class AgendaParser {
   public static void main( String[] args ) throws Throwable {
      long atStart = System.currentTimeMillis();
      DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
      DocumentBuilder db = dbf.newDocumentBuilder();
      Document doc = db.parse( "WIA13-7. Block.html" );
      System.err.println( "Elapsed time: " + ( System.currentTimeMillis() - atStart ) / 1000L + " seconds" );
      System.err.println( doc.getElementsByTagName( "table" ));
   }
}

它输出:

Elapsed time: 118 seconds (very long, no?)
com.sun.org.apache.xerces.internal.dom.DeepNodeListImpl@7faea002

我认为几个小时的工作可以为您提供 80% 的提取率。

于 2012-10-20T13:54:15.930 回答
0

伪PHP

class ScheduleTableParser {
  buildTimetableFromTable() {
    //Trivial
    Parse Day Rowspans, Day Names, Dates into $this->days;
    e.g. $days[0]['rowspan'] = 4 for Monday 22/10/2012

    //Extract Lessons      
    $tr = 0;
    foreach tr {
      $td = 0;
      foreach td{
        if(td.class = 'v') {
          parseClass($td,$tr,$tdDOMObject);
        }
        $td++;
      }
    }
 }
 parseClass($td,$tr,$tdDOMObject) {
   //Trivial
   Get the Class Name Etc   

   //Calculate Time
   $time = 9:00 + 5mins*tr;
   $tr = $tr - 2;
   $i = 0;
   while($tr > 0) {
     $tr - $this->days[$i]['rowspan'];
     $day = $this->days[$i]['name'];
     $date = $this->days[$i]['date'];
     $i++;
   }
 }
}
于 2012-10-23T20:17:38.957 回答