c++ - 如何在 C++ 中解析基于文本的表

Question

我正在尝试使用 ifstream 解析文本文件形式的表格，并评估/操作每个条目。但是，由于遗漏了特定项目，我无法弄清楚如何解决这个问题。考虑下表：

NEW  VER  ID   NAME
1    2a   4    "ITEM ONE" (2001)
     1    7    "2 ITEM" (2002) {OCT}
     1.1  10   "SOME ITEM 3" (2003)
1         12   "DIFFERENT ITEM 4" (2004)
1    a4   16   "ITEM5" (2005) {DEC}

如您所见，有时“NEW”列中没有任何内容。我想要做的是记下 ID、名称、年份（在括号中），并注意之后是否有大括号。

当我开始这样做时，我寻找了一个“拆分”功能，但我意识到它会因为前面提到的缺失项目和标题分开而变得有点复杂。

我能想到的一件事是逐字阅读每一行，跟踪我看到的最新数字。一旦我打了引号，请注意我看到的最新数字是一个 ID（如果我使用了类似拆分的东西，则数组位置就在引号之前），然后记录所有内容，直到下一个引号（标题），然后最后，开始寻找其他信息的括号和大括号。然而，这似乎很原始，我正在寻找一种更好的方法来做到这一点。

我这样做是为了提高我的 C++ 技能并使用更大的现有数据集，所以如果可能的话，我想使用 C++，但是如果另一种语言（我正在看 Perl 或 Python）使这变得非常简单，我可以只需学习如何将不同的语言与 C++ 交互。我现在要做的只是筛选最终将成为 C++ 中的对象的数据，所以我仍然有机会提高我的 C++ 技能。

编辑：我也意识到这可以仅使用正则表达式来完成，但如果可能的话，我想尝试使用不同的文件/字符串操作方法。

score 6 · Accepted Answer

如果列偏移量确实是固定的（没有制表符，只有真正的空格字符a la 0x20），我会一次读取一行（string::getline）并使用固定偏移量将其分解为一组四个字符串（string::substr）。

然后根据需要对每个 4 元组字符串进行后处理。

我不会对偏移量进行硬编码，而是将它们存储在一个单独的输入文件中，该文件描述输入的格式——就像 SQL Server 或其他 DB 中的表描述一样。

score 0 · Accepted Answer

像这样的东西：

读取第一行，查找"ID"并存储索引。
使用读取每条数据线std::getline()。
从数据行创建一个子字符串，从您"ID"在标题行中找到的索引开始。使用它来初始化一个std::istringstreamwith。
使用读取 ID iss >> an_int。
搜索第一个"。搜索第二个"。搜索(并记住它的索引。搜索)并记住该索引。从这些索引之间的字符创建一个子字符串，并使用它来初始化另一个std::istringstream。从此流中读取数字。
搜索大括号。

c++ - 如何在 C++ 中解析基于文本的表

2 回答 2

Related

Reference