1

我需要将几个浮点数写入文本文件并与它们一起存储 CRC32 校验和。然后,当我从文本文件中读取浮点数时,我想重新计算校验和并将其与之前保存文件时计算的校验和进行比较。我的问题是校验和有时会失败。这是因为相等的浮点数可以用不同的位模式表示。为了完整起见,我将在接下来的段落中总结代码。

我在阅读这个问题后发现了这个 CRC32 算法。这是它的样子:

uint32_t updC32(uint32_t octet, uint32_t crc) {
    return CRC32Tab[(crc ^ octet) & 0xFF] ^ (crc >> 8);
}

template <typename T>
uint32_t updateCRC32(T s, uint32_t crc) {
    const char* buf = reinterpret_cast<const char*>(&s);
    size_t len = sizeof(T);

    for (; len; --len, ++buf)
        crc = updC32(static_cast<uint32_t>(*buf), crc);
    return crc;
}

CRC32Tab包含与上面链接的文件中的大数组完全相同的值。

这是我如何将浮点数写入文件并计算校验和的简化版本:

float x, y, z;

// set them to some values

uint32_t crc = 0xFFFFFFFF;
crc = Utility::updateCRC32(x, crc);
crc = Utility::updateCRC32(y, crc);
crc = Utility::updateCRC32(z, crc);
const uint32_t actualCrc = ~crc;

// stream is a FILE pointer, and I don't mind the scientific representation
fprintf(stream, " ( %g %g %g )", x, y, z);
fprintf(stream, " CRC %u\n", actualCrc);

我从文件中读取值如下。由于文件具有更复杂的语法并且必须进行解析,因此实际上涉及的内容更多,但我们假设它getNextFloat()返回之前编写的每个浮点数的文本表示。

float x = std::atof(getNextFloat());
float y = std::atof(getNextFloat());
float z = std::atof(getNextFloat());

uint32_t crc = 0xFFFFFFFF;
crc = Utility::updateCRC32(x, crc);
crc = Utility::updateCRC32(y, crc);
crc = Utility::updateCRC32(z, crc);
const uint32_t actualCrc = ~crc;

const uint32_t fileCrc = // read the CRC from the file
assert(fileCrc == actualCrc); // fails often, but not always

此问题的根源在于 std::atof 将返回从文件读取的字符串中编码的浮点数的位表示,而不是用于将该字符串写入文件的浮点数的位表示。

所以,我的问题是:除了对字符串本身进行校验和之外,还有其他方法可以实现我的校验和浮点数的目标吗?

谢谢阅读!

4

5 回答 5

1

如果文本文件不必是人类可读的,请改用十六进制浮点文字,它们是精确的,因此您不会遇到文本和内存值之间存在差异的问题。

于 2013-03-15T10:39:29.590 回答
1

从您的评论中可以看出问题的根源:

如果我没有完全弄错,这里没有四舍五入。说明%g符选择准确表示数字的最短字符串表示。

这是不正确的。如果未指定精度,则默认为 6,并且对于大多数浮点输入肯定会进行舍入。

如果您需要一种人类可读的往返格式,%a这是迄今为止最好的选择。否则,您将需要指定至少 9 的精度(假设float您的系统上是 IEEE-754 单精度)。

你可能仍然会被 NaN 编码绊倒,因为标准没有指定如何或是否必须打印它们。

于 2013-03-15T11:00:09.797 回答
0

如果您的标准库的浮点到文本和文本到浮点转换进行了适当的舍入,那么除非您还具有 Infs 和 NaN,否则您只需要足够的有效数字来使 float->text->float 往返无损,但它仍然应该我认为是“保值”,不一定是位模式,因为无穷大或 NaN 有多种表示形式。对于 IEEE-754 64 位双 17 位有效数字足以使往返相对于实际值无损。

于 2013-03-15T10:45:13.100 回答
0

对于单个值具有多个二进制表示的任何类型,您的 CRC 算法都是有缺陷的。IEEE 754 对 0.0 有两种表示,即 +0.0 和 -0.0。其他非有限值(例如 NaN)也可能很麻烦。

于 2013-03-15T10:54:46.923 回答
0

在更新 CRC 之前规范化您的号码是否可以接受?因此,在保存时,您将获得数字的临时字符串版本(使用 sprintf 或与您的序列化格式匹配的任何内容),然后将此字符串转换回数值,然后使用此结果更新 CRC。这样,您就知道 CRC 将匹配反序列化的值。

于 2013-03-15T11:14:14.833 回答