5

我正在编写程序的一部分,它解析和验证程序控制台参数中的一些用户输入。为此,我选择使用 stringstream,但在读取无符号类型时遇到了问题。

下一个模板用于从给定字符串中读取请求的类型:

#include <iostream>
#include <sstream>
#include <string>

using std::string;
using std::stringstream;
using std::cout;
using std::endl;

template<typename ValueType>
ValueType read_value(string s)
{   
    stringstream ss(s);
    ValueType res;
    ss >> res;
    if (ss.fail() or not ss.eof())
        throw string("Bad argument: ") + s;
    return res;
}
// +template specializations for strings, etc. 

int main(void)
{   
    cout << read_value<unsigned int>("-10") << endl;
}   

如果类型是无符号的并且输入字符串包含负数,我希望看到异常抛出(由 引起ss.fail() = true)。但是 stringstream 产生转换为无符号类型值(书面样本中的 4294967286)。

如何修复此示例以实现所需的行为(最好不要回退到 c 函数)?我知道它可以通过简单的第一个符号检查来完成,但我可以放置前导空格。我可以编写自己的解析器,但不相信问题是如此不可预测,标准库无法解决它。

隐藏在无符号类型的字符串流运算符深处的函数是 strtoull 和 strtoul。它们以描述的方式工作,但提到的功能是低级的。为什么 stringstream 不提供一些验证级别?(我只是希望我错了,它确实如此,但需要一些动作来启用它)。

4

2 回答 2

3

版本免责声明:C++03 的答案是不同的。以下处理 C++11。

首先,让我们分析一下发生了什么。

ss >> res;这调用std::istream::operator>>(unsigned). 在 [istream.formatted.arithmetic]/1 中,效果定义如下:

这些提取器表现为格式化的输入函数(如 27.7.2.2.1 中所述)。构建哨兵对象后,转换就像由以下代码片段执行一样:

typedef num_get< charT,istreambuf_iterator<charT,traits> > numget;
iostate err = iostate::goodbit;
use_facet< numget >(loc).get(*this, 0, *this, err, val);
setstate(err);

在上面的片段中,loc代表basic_ios类的私有成员。

按照[istream::sentry] 的格式化输入函数sentry,这里对象的主要作用是使用前导空白字符。如果出现错误(流处于失败/eof 状态),它还会阻止执行上面显示的代码。

使用的语言环境是"C"语言环境。理由:

对于stringstream构造的 via stringstream ss(s);,该 iostream 的语言环境是构造时的当前全局语言环境(这在 [ios.base.locales]/4 的兔子洞深处得到保证)。由于 OP 程序中的全局语言环境没有改变,[locale.cons]/2 指定了“经典”语言环境,即"C"语言环境。

use_facet< numget >(loc).getnum_get<char>::get(iter_type in, iter_type end, ios_base&, ios_base::iostate& err, unsigned int& v) const;使用[locale.num.get] 中指定的成员函数(注意unsigned int,一切都很好)。“C”语言环境的字符串 ->unsigned int转换的详细信息很长,并在 [facet.num.get.virtuals] 中进行了描述。一些有趣的细节:

  • 对于无符号整数值,strtoull使用该函数。
  • 如果转换失败,ios_base::failbit则分配给err。具体来说:“要存储的数值可以是以下之一:[...] 最负的可表示值或无符号整数类型为零,如果该字段表示的值太大,负值无法在 val 中表示。ios_base::failbit分配给err。”

我们需要转到 C99, 7.20.1.4 的strtoull第 5 段下的定义:

如果主题序列以减号开头,则转换产生的值被否定(在返回类型中)。

根据第 8 段:

如果正确的值在可表示值的范围之外,LONG_MIN, LONG_MAX, LLONG_MIN, LLONG_MAX, ULONG_MAX, 或者ULLONG_MAX返回(根据返回类型和值的符号,如果有的话),宏的值ERANGE存储在errno

过去似乎一直在争论是否将负值视为有效输入strotoul。无论如何,问题出在这个函数上。对 gcc 的快速检查表明它被认为是有效输入,因此是您观察到的行为。


历史记录:C++03

C++03scanf里面用的num_get转换。不幸的是,我不太确定(还)如何scanf指定转换,以及在什么情况下会发生错误。


显式错误检查:

我们可以通过使用有符号值进行转换和测试手动插入该检查<0,或者我们查​​找-字符(由于可能存在本地化问题,这不是一个好主意)。

于 2013-09-20T13:45:02.233 回答
2

num_get支持显式检查签名的方面。'-'对于无符号类型,拒绝任何以 a(空格后)开头的非零数字,并使用默认的 C 语言环境num_get进行实际转换。

#include <locale>
#include <istream>
#include <ios>
#include <algorithm>

template <class charT, class InputIterator = std::istreambuf_iterator<charT> >
class num_get_strictsignedness : public std::num_get <charT, InputIterator>
{
public:
    typedef charT char_type;
    typedef InputIterator iter_type;

    explicit num_get_strictsignedness(std::size_t refs = 0)
        : std::num_get<charT, InputIterator>(refs)
    {}
    ~num_get_strictsignedness()
    {}

private:
    #define DEFINE_DO_GET(TYPE) \
        virtual iter_type do_get(iter_type in, iter_type end,      \
            std::ios_base& str, std::ios_base::iostate& err,       \
            TYPE& val) const override                              \
        {  return do_get_templ(in, end, str, err, val);  }         // MACRO END

    DEFINE_DO_GET(unsigned short)
    DEFINE_DO_GET(unsigned int)
    DEFINE_DO_GET(unsigned long)
    DEFINE_DO_GET(unsigned long long)

    // not sure if a static locale::id is required..

    template <class T>
    iter_type do_get_templ(iter_type in, iter_type end, std::ios_base& str,
                           std::ios_base::iostate& err, T& val) const
    {
        using namespace std;

        if(in == end)
        {
            err |= ios_base::eofbit;
            return in;
        }

        // leading white spaces have already been discarded by the
        // formatted input function (via sentry's constructor)

        // (assuming that) the sign, if present, has to be the first character
        // for the formatting required by the locale used for conversion

        // use the "C" locale; could use any locale, e.g. as a data member

        // note: the signedness check isn't actually required
        //       (because we only overload the unsigned versions)
        bool do_check = false;
        if(std::is_unsigned<T>{} && *in == '-')
        {
            ++in;  // not required
            do_check = true;
        }

        in = use_facet< num_get<charT, InputIterator> >(locale::classic())
                 .get(in, end, str, err, val);

        if(do_check && 0 != val)
        {
            err |= ios_base::failbit;
            val = 0;
        }

        return in;
    }
};

使用示例:

#include <sstream>
#include <iostream>
int main()
{
    std::locale loc( std::locale::classic(),
                     new num_get_strictsignedness<char>() );
    std::stringstream ss("-10");
    ss.imbue(loc);
    unsigned int ui = 42;
    ss >> ui;
    std::cout << "ui = "<<ui << std::endl;
    if(ss)
    {
        std::cout << "extraction succeeded" << std::endl;
    }else
    {
        std::cout << "extraction failed" << std::endl;
    }
}

笔记:

  • 不需要在免费存储上进行分配,您可以使用例如(静态)局部变量,1在 ctor 中初始化 ref 计数器
  • 对于您想要支持的每种字符类型(例如char, wchar_t, charXY_t),您需要添加自己的构面(可以是num_get_strictsignedness模板的不同实例化)
  • "-0"被接受
于 2013-09-20T14:58:21.017 回答