18

我们有一个用于时间跟踪、工资单和 HR 的 Web 应用程序。因此,我们必须编写大量固定宽度的数据文件以导出到其他系统(州税申报、ACH 文件等)。有谁知道一个好的库,您可以在其中定义记录类型/结构,然后在 OOP 范式中对它们进行操作?

这个想法将是一个你处理规范的类,然后使用所述规范的一个实例。IE:

$icesa_file = new FixedWidthFile();
$icesa_file->setSpecification('icesa.xml');
$icesa_file->addEmployer( $some_data_structure );

icesa.xml 是一个包含规范的文件,尽管您可以使用 OOP 调用自己定义它:

$specification = new FixedWidthFileSpecification('ICESA');
$specification->addRecordType(
    $record_type_name = 'Employer',
    $record_fields = array(
         array('Field Name', Width, Vailditation Type, options)
         )
     );

编辑:我不是在寻找关于如何编写这样一个库的建议——我只是想知道一个是否已经存在。谢谢!!

4

7 回答 7

8

我不知道有一个库可以完全满足您的需求,但是滚动您自己的类来处理这个问题应该是相当简单的。假设您主要对以这些格式编写数据感兴趣,我将使用以下方法:

(1) 为固定宽度的字符串编写一个轻量级的格式化程序类。它必须支持用户定义的记录类型,并且在允许的格式方面应该是灵活的

(2) 为您使用的每种文件格式实例化此类并添加所需的记录类型

(3) 使用此格式化程序来格式化您的数据

正如您所建议的,您可以在 XML 中定义记录类型并在步骤 (2) 中加载此 XML 文件。我不知道您对 XML 的经验如何,但根据我的经验,XML 格式经常会引起很多麻烦(可能是由于我自己对 XML 的无能)。如果您打算只在 PHP 程序中使用这些类,那么在 XML 中定义格式并没有什么好处。如果您还需要在许多其他应用程序中使用文件格式定义,那么使用 XML 是一个不错的选择。

为了说明我的想法,我认为您将如何使用这个建议的格式化程序类:

<?php
include 'FixedWidthFormatter.php' // contains the FixedWidthFormatter class
include 'icesa-format-declaration.php' // contains $icesaFormatter
$file = fopen("icesafile.txt", "w");

fputs ($file, $icesaFormatter->formatRecord( 'A-RECORD', array( 
    'year' => 2011, 
    'tein' => '12-3456789-P',
    'tname'=> 'Willie Nelson'
)));
// output: A2011123456789UTAX     Willie Nelson                                     

// etc...

fclose ($file);
?>

该文件icesa-format-declaration.php可能包含格式的声明,如下所示:

<?php
$icesaFormatter = new FixedWidthFormatter();
$icesaFormatter->addRecordType( 'A-RECORD', array(
    // the first field is the record identifier
    // for A records, this is simply the character A
    'record-identifier' => array(
        'value' => 'A',  // constant string
        'length' => 1 // not strictly necessary
                      // used for error checking
    ),
    // the year is a 4 digit field
    // it can simply be formatted printf style
    // sourceField defines which key from the input array is used
    'year' =>  array(
        'format' => '% -4d',  // 4 characters, left justified, space padded
        'length' => 4,
        'sourceField' => 'year'
    ),
    // the EIN is a more complicated field
    // we must strip hyphens and suffixes, so we define
    // a closure that performs this formatting
    'transmitter-ein' => array(
        'formatter'=> function($EIN){
            $cleanedEIN =  preg_replace('/\D+/','',$EIN); // remove anything that's not a digit
            return sprintf('% -9d', $cleanedEIN); // left justified and padded with blanks
        },
        'length' => 9,
        'sourceField' => 'tein'
    ),
    'tax-entity-code' => array(
        'value' => 'UTAX',  // constant string
        'length' => 4
    ),
    'blanks' => array(
        'value' => '     ',  // constant string
        'length' => 5
    ),
    'transmitter-name' =>  array(
        'format' => '% -50s',  // 50 characters, left justified, space padded
        'length' => 50,
        'sourceField' => 'tname'
    ),
    // etc. etc.
));
?>

然后你只需要FixedWidthFormatter类本身,它看起来像这样:

<?php

class FixedWidthFormatter {

    var $recordTypes = array();

    function addRecordType( $recordTypeName, $recordTypeDeclaration ){
        // perform some checking to make sure that $recordTypeDeclaration is valid
        $this->recordTypes[$recordTypeName] = $recordTypeDeclaration;
    }

    function formatRecord( $type, $data ) {
        if (!array_key_exists($type, $this->recordTypes)) {
            trigger_error("Undefinded record type: '$type'");
            return "";
        }
        $output = '';
        $typeDeclaration = $this->recordTypes[$type];
        foreach($typeDeclaration as $fieldName => $fieldDeclaration) {
            // there are three possible field variants:
            //  - constant fields
            //  - fields formatted with printf
            //  - fields formatted with a custom function/closure
            if (array_key_exists('value',$fieldDeclaration)) {
                $value = $fieldDeclaration['value'];
            } else if (array_key_exists('format',$fieldDeclaration)) {
                $value = sprintf($fieldDeclaration['format'], $data[$fieldDeclaration['sourceField']]);
            } else if (array_key_exists('formatter',$fieldDeclaration)) {
                $value = $fieldDeclaration['formatter']($data[$fieldDeclaration['sourceField']]);
            } else {
                trigger_error("Invalid field declaration for field '$fieldName' record type '$type'");
                return '';
            }

            // check if the formatted value has the right length
            if (strlen($value)!=$fieldDeclaration['length']) {
                trigger_error("The formatted value '$value' for field '$fieldName' record type '$type' is not of correct length ({$fieldDeclaration['length']}).");
                return '';
            }
            $output .= $value;
        }
        return $output . "\n";
    }
}


?>

如果您还需要读取支持,则可以扩展 Formatter 类以允许读取,但这可能超出了此答案的范围。

于 2011-05-27T13:37:42.687 回答
3

我以前很高兴地将此类用于类似用途。它是一个 php-classes 文件,但它的评价很高,并且已经被许多人尝试和测试过。它不是新的(2003 年),但无论如何它仍然做得很好 + 有一个非常体面和干净的 API ,看起来有点像你发布的示例,添加了许多其他好东西。

如果您可以忽略示例中的德语用法和年龄因素-> 这是一段非常不错的代码。

Posted from the example:


//CSV-Datei mit Festlängen-Werten 
echo "<p>Import aus der Datei fixed.csv</p>"; 
$csv_import2 = new CSVFixImport; 
$csv_import2->setFile("fixed.csv"); 
$csv_import2->addCSVField("Satzart", 2); 
$csv_import2->addCSVField("Typ", 1); 
$csv_import2->addCSVField("Gewichtsklasse", 1); 
$csv_import2->addCSVField("Marke", 4); 
$csv_import2->addCSVField("interne Nummer", 4); 


$csv_import2->addFilter("Satzart", "==", "020"); 
$csv_import2->parseCSV(); 
if($csv_import->isOK()) 
{ 
    echo "Anzahl der Datensätze: <b>" . $csv_import2->CSVNumRows() . "</b><br>"; 
    echo "Anzahl der Felder: <b>" . $csv_import2->CSVNumFields() . "</b><br>"; 
    echo "Name des 1.Feldes: <b>" . $csv_import2->CSVFieldName(0) . "</b><br>"; 

    $csv_import2->dumpResult(); 
}

我的 2 美分,祝你好运!

于 2011-05-31T14:08:56.387 回答
1

我不知道任何专门处理固定宽度记录的 PHP 库。但是,如果您可以自己分解文件的每一行,那么有一些很好的库可以过滤和验证一行数据字段。

查看 Zend Framework 中的Zend_FilterZend_Validate组件。我认为这两个组件都是相当独立的,只需要 Zend_Loader 即可工作。如果您愿意,您可以将这三个组件从 Zend Framework 中提取出来并删除其余部分。

Zend_Filter_Input就像过滤器和验证器的集合。您为数据记录的每个字段定义一组过滤器和验证器,您可以使用它们来处理数据集的每个记录。已经定义了许多有用的过滤器和验证器,并且编写自己的接口非常简单。我建议使用 StringTrim 过滤器来删除填充字符。

要将每一行分解为字段,我将扩展 Zend_Filter_Input 类并添加一个名为 setDataFromFixedWidth() 的方法,如下所示:

class My_Filter_Input extends Zend_Filter_Input
{
    public function setDataFromFixedWidth($record, array $recordRules)
    {
        if (array_key_exists('regex', $recordRules) {
            $recordRules = array($recordRules);
        }

        foreach ($recordRules as $rule) {
            $matches = array();
            if (preg_match($rule['regex'], $record, $matches)) {
                $data = array_combine($rule['fields'], $matches);
                return $this->setData($data);
            }
        }

        return $this->setData(array());
    }

}

并使用简单的正则表达式和匹配的字段名称定义各种记录类型。ICESA 可能看起来像这样:

$recordRules = array(
    array(
        'regex'  => '/^(A)(.{4})(.{9})(.{4})/',  // This is only the first four fields, obviously
        'fields' => array('recordId', 'year', 'federalEin', 'taxingEntity',),
    ),
    array(
        'regex'  => '/^(B)(.{4})(.{9})(.{8})/',
        'fields' => array('recordId', 'year', 'federalEin', 'computer',),
    ),
    array(
        'regex'  => '/^(E)(.{4})(.{9})(.{9})/',
        'fields' => array('recordId', 'paymentYear', 'federalEin', 'blank1',),
    ),
    array(
        'regex'  => '/^(S)(.{9})(.{20})(.{12})/',
        'fields' => array('recordId', 'ssn', 'lastName', 'firstName',),
    ),
    array(
        'regex'  => '/^(T)(.{7})(.{4})(.{14})/',
        'fields' => array('recordId', 'totalEmployees', 'taxingEntity', 'stateQtrTotal'),
    ),
    array(
        'regex'  => '/^(F)(.{10})(.{10})(.{4})/',
        'fields' => array('recordId', 'totalEmployees', 'totalEmployers', 'taxingEntity',),
    ),
);

然后您可以逐行读取数据文件并将其输入到输入过滤器中:

$input = My_Filter_Input($inputFilterRules, $inputValidatorRules);
foreach (file($filename) as $line) {
    $input->setDataFromFixedWidth($line, $recordRules);
    if ($input->isValid()) {
        // do something useful
    }
    else {
        // scream and shout
    }
}

要格式化数据以写回文件,您可能需要编写自己的 StringPad 过滤器来包装内部 str_pad 函数。然后对于数据集中的每条记录:

$output = My_Filter_Input($outputFilterRules);
foreach ($dataset as $record) {
    $output->setData($record);
    $line = implode('', $output->getEscaped()) . "\n";
    fwrite($outputFile, $line);
}

希望这可以帮助!

于 2011-05-27T15:19:31.087 回答
0

如果这是带有分隔字段的文本文件, - 您需要自己编写。可能这不是一个问题。良好的组织,将节省很多时间。

  1. 您需要定义结构的通用方法。即xml。
  2. 你需要一些东西来生成......特别是我更喜欢 Smarty 模板。

所以这个:

   <group>

      <entry>123</entry>

      <entry>123</entry>

      <entry>123</entry>

    </group>

可以使用此模板轻松解释为测试:

{section name=x1 loop=level1_arr}

{--output root's--}

  {section name=x2 loop=level1_arr[x1].level2_arr}

     {--output entry's--}

  {/section}

{/section}

这只是想法。

但想象一下:

  1. 你需要xml
  2. 你需要模板

即2个定义来抽象任何文本结构

于 2011-05-07T11:21:20.620 回答
0

我认为您需要比您提供的信息更多的信息:您希望将哪种数据结构用于您的记录和列定义?看起来这是一个相当专业的类,需要针对您的特定用例进行定制。

我有一个我编写的 PHP 类,它基本上可以满足您的需求,但依赖于我们在系统中使用的其他类。如果您可以提供您想要使用的数据结构类型,我可以检查它是否适合您并将其发送过来。

注意:我之前从公共计算机上发布了这个答案,但我无法让它看起来像是来自我(它显示为一些随机用户)。如果您看到它,请忽略“约翰”的答案。

于 2011-05-04T18:55:51.390 回答
-1

也许 dbase 函数是您想要使用的。它们不是 OOP,但构建一个对 dbase 集中提供的函数起作用的类可能不会太难。

查看下面的链接,了解 PHP 中可用的 dbase 功能的详细信息。如果您只是想创建一个文件以导入另一个系统,这些功能应该适合您。只要确保你注意警告。一些关键警告是:

  • 不支持索引或备注字段。
  • 不支持锁定。
  • 修改同一个 dBase 文件的两个并发 Web 服务器进程很可能会破坏您的数据库。

http://php.net/manual/en/book.dbase.php

于 2011-04-28T16:23:33.470 回答
-1

很抱歉,我无法通过直接课程为您提供帮助

所以我是如何在一个例子中看到这项工作的:

php读取数据

php 然后使用一个标志 (EG a $_GET['type']) 来知道如何输出数据 EG 打印机、HTML、Excel

因此,您为每个版本构建模板文件,然后根据您加载的标志和使用定义的模板,至于固定宽度,这是一个 HTML 东西而不是 PHP,所以这应该在模板 CSS 中完成

然后从这里你可以输出你的数据,无论任何用户需要它,

Smarty 模板对此非常有用,然后在需要时发送内容类型的 php 标头。

于 2011-05-26T13:29:44.947 回答