我需要抓取包含打印机控制语言 (PCL) 的旧大型机文本文件以进行数据导入。改变大型机功能不是一种选择。打印输出包含产品销售信息并具有分层输出。
我希望我设置一个 Sql Server 集成服务导入 (SSIS)。最终这将是一个带有 SQL 2005 数据库的数据导入 ASP.NET MVC 3 网站,因此我们可以避免使用 SSIS。我目前正在构建 C# ASP.NET MVC 3 网站,因此使用相关技术应该是易于管理的。
有没有人成功地用 C# 或 SSIS 中的文本模式(如正则表达式)将文本报告解析回有用的数据导入?有没有使用状态设计模式的例子?
我发现很多这些答案显示了答案的一小部分:如何加载文本文件并在 C# 中获取第 n 列。这涉及更多。我需要根据我所处的导入状态用一种模式来识别每种线型。现成的软件会更好。
文本文件示例:
this part may be a header for the page which needs skipped
this part may be a header for the page which needs skipped
this part may be a header for the page which needs skipped
first line containing prices
second line containing product description for the first line
third line containing a related product (listing all flavors)
fourth line containing a description for the third line
[third and forth may repeat]
[product set summary line]
[ repeat for next product]
this part may be a footer for the page that needs skipped
this part may be a footer for the page that needs skipped
at any point, the products will span between pages,
having header and footer lines between product data.