0

我正在研究加速我的编程竞赛代码的方式,用作输入和输出处理的基础加速。

我目前正在使用线程不安全的putchar_unlocked函数来打印一些测试。我相信如果由于它的线程可解锁特性而得到良好实现,这个函数对于某些数据类型比cout e printf更快。

我实现了一个以这种方式打印字符串的函数(在我看来非常简单):

void write_str(char s[], int n){
    int i;
    for(i=0;i<n;i++)
        putchar_unlocked(s[i]);
}

我用一个大小为n且正好为 n 个字符的字符串进行了测试。
但它是三个中最慢的,我们可以在这张输出写入数量与时间(以秒为单位)的关系图中看到: 图形

为什么是最慢的?

4

3 回答 3

3

假设多达大约 1,000,000 百万个字符的时间测量值低于测量阈值,std::cout并且stdout使用批量写入(例如std::cout.write(str, size))的形式进行写入和写入,我猜想putchar_unlock()大部分时间实际上是在更新数据结构除了放字符。其他批量写入会将数据批量复制到缓冲区中(例如,使用memcpy())并在内部仅更新一次数据结构。

也就是说,代码看起来像这样(这是 pidgeon 代码,即,只是粗略地显示正在发生的事情;真正的代码至少会稍微复杂一些):

int putchar_unlocked(int c) {
    *stdout->put_pointer++ = c;
    if (stdout->put_pointer != stdout->buffer_end) {
        return c;
    }
    int rc = write(stdout->fd, stdout->buffer_begin, stdout->put_pointer - stdout->buffer_begin);
    // ignore partial writes
    stdout->put_pointer = stdout->buffer_begin;
    return rc == stdout->buffer_size? c: EOF;
}

代码的批量版本改为按照以下方式做一些事情(使用 C++ 表示法,因为作为 C++ 开发人员更容易;再次,这是 pidgeon 代码):

int std::streambuf::write(char const* s, std::streamsize n) {
    std::lock_guard<std::mutex> guard(this->mutex);
    std::streamsize b = std::min(n, this->epptr() - this->pptr());
    memcpy(this->pptr(), s, b);
    this->pbump(b);
    bool success = true;
    if (this->pptr() == this->epptr()) {
        success = this->this->epptr() - this->pbase()
            != write(this->fd, this->pbase(), this->epptr() - this->pbase();
        // also ignoring partial writes
        this->setp(this->pbase(), this->epptr());
        memcpy(this->pptr(), s + b, n - b);
        this->pbump(n - b);
    }
    return success? n: -1;
}

第二个代码可能看起来有点复杂,但只执行一次 30 个字符。很多检查都被移出了有趣的部分。即使完成了一些锁定,它也会锁定一个非竞争互斥体,并且不会过多地抑制处理。

尤其是在不进行任何分析时,循环使用putchar_unlocked()不会得到太多优化。特别是,代码不会被矢量化,这会导致直接因子至少约为 3,但在实际循环中可能更接近 16。锁的成本将迅速减少。

顺便说一句,只是为了创建合理级别的游乐场:除了优化之外,您还应该std::sync_with_stdio(false)在使用 C++ 标准流对象时调用。

于 2015-09-19T20:39:17.663 回答
2

选择更快的方式来输出字符串会与平台、操作系统、编译器设置和使用的运行时库发生冲突,但有一些概括可能有助于理解选择什么。

首先,考虑到与一次一个字符相比,操作系统可能有一种显示字符串的方法,如果是这样,循环通过系统调用一次输出一个字符自然会为每次调用系统调用开销,与处理字符数组的一个系统调用的开销相反。

这基本上就是您遇到的系统调用的开销。

与 putchar 相比,putchar_unlocked 的性能增强可能相当可观,但仅限于这两个函数之间。此外,大多数运行时库都没有 putchar_unlocked(我在较旧的 MAC OS X 文档中找到它,但在 Linux 或 Windows 中没有)。

也就是说,无论是锁定还是解锁,对于处理整个字符数组的系统调用,每个字符仍然会有开销,并且这些概念扩展到输出到文件或其他设备,而不仅仅是控制台。

于 2015-09-19T20:31:51.323 回答
1

我个人的猜测是 printf() 是分块执行的,并且只需要偶尔为每个块传递应用程序/内核边界。

putchar_unlocked() 为每个写入的字节执行此操作。

于 2015-09-20T02:10:59.637 回答