17

我最近发布了一个关于 C++ 中的虚拟性导致的内存开销的问题。答案让我了解 vtable 和 vptr 是如何工作的。我的问题如下:我在超级计算机上工作,我有数十亿个对象,因此我必须关心由于虚拟性导致的内存开销。经过一些措施,当我使用具有虚函数的类时,每个派生对象都有其 8 字节的 vptr。这一点也不容忽视。

我想知道英特尔 icpc 或 g++ 是否有一些配置/选项/参数,以使用具有可调节精度的“全局”vtables 和索引而不是 vptr。因为这样的事情将允许我对数十亿个对象使用 2 字节索引(无符号短整数)而不是 8 字节 vptr(并且很好地减少了内存开销)。有没有办法通过编译选项来做到这一点(或类似的事情)?

非常感谢。

4

1 回答 1

17

不幸的是......不是自动的。

但请记住,v-table 只不过是运行时多态性的语法糖。如果您愿意重新设计您的代码,有几种选择。

  1. 外部多态性
  2. 手工制作的v表
  3. 手工多态

1) 外部多态性

这个想法是,有时您只需要瞬时方式的多态性。也就是说,例如:

std::vector<Cat> cats;
std::vector<Dog> dogs;
std::vector<Ostrich> ostriches;

void dosomething(Animal const& a);

Cat在这种情况下嵌入虚拟指针或嵌入虚拟指针似乎很浪费,Dog因为您知道动态类型(它们按值存储)。

外部多态性是关于具有纯具体类型和纯接口,以及中间的一个简单的桥梁来临时(或永久,但这不是你想要的)将具体类型适应接口。

// Interface
class Animal {
public:
    virtual ~Animal() {}

    virtual size_t age() const = 0;
    virtual size_t weight() const = 0;

    virtual void eat(Food const&) = 0;
    virtual void sleep() = 0;

private:
    Animal(Animal const&) = delete;
    Animal& operator=(Animal const&) = delete;
};

// Concrete class
class Cat {
public:
    size_t age() const;
    size_t weight() const;

    void eat(Food const&);
    void sleep(Duration);
};

这座桥是一劳永逸的:

template <typename T>
class AnimalT: public Animal {
public:
    AnimalT(T& r): _ref(r) {}

    virtual size_t age() const override { return _ref.age(); }
    virtual size_t weight() const { return _ref.weight(); }

    virtual void eat(Food const& f) override { _ref.eat(f); }
    virtual void sleep(Duration const d) override { _ref.sleep(d); }

private:
    T& _ref;
};

template <typename T>
AnimalT<T> iface_animal(T& r) { return AnimalT<T>(r); }

你可以这样使用它:

for (auto const& c: cats) { dosomething(iface_animal(c)); }

每个项目都会产生两个指针的开销,但前提是您需要多态性。

另一种方法是也AnimalT<T>使用值(而不是引用)并提供一种clone方法,该方法允许您根据情况完全选择是否使用 v 指针。

在这种情况下,我建议使用一个简单的类:

template <typename T> struct ref { ref(T& t): _ref(t); T& _ref; };

template <typename T>
T& deref(T& r) { return r; }

template <typename T>
T& deref(ref<T> const& r) { return r._ref; }

然后稍微修改一下桥:

template <typename T>
class AnimalT: public Animal {
public:
    AnimalT(T r): _r(r) {}

    std::unique_ptr< Animal<T> > clone() const { return { new Animal<T>(_r); } }

    virtual size_t age() const override { return deref(_r).age(); }
    virtual size_t weight() const { return deref(_r).weight(); }

    virtual void eat(Food const& f) override { deref(_r).eat(f); }
    virtual void sleep(Duration const d) override { deref(_r).sleep(d); }

private:
    T _r;
};

template <typename T>
AnimalT<T> iface_animal(T r) { return AnimalT<T>(r); }

template <typename T>
AnimalT<ref<T>> iface_animal_ref(T& r) { return Animal<ref<T>>(r); }

通过这种方式,您可以选择何时需要多态存储,何时不需要。


2) 手工制作的 v-tables

(仅适用于封闭的层次结构)

在 C 中,通过提供自己的 v-table 机制来模拟面向对象是很常见的。既然您似乎知道什么是 v-table 以及 v-pointer 如何工作,那么您可以自己完美地工作。

struct FooVTable {
    typedef void (Foo::*DoFunc)(int, int);

    DoFunc _do;
};

然后为锚定在的层次结构提供一个全局数组Foo

extern FooVTable const* const FooVTableFoo;
extern FooVTable const* const FooVTableBar;

FooVTable const* const FooVTables[] = { FooVTableFoo, FooVTableBar };

enum class FooVTableIndex: unsigned short {
    Foo,
    Bar
};

那么你在你的Foo类中所需要的就是保持最派生的类型:

class Foo {
public:

    void dofunc(int i, int j) {
        (this->*(table()->_do))(i, j);
    }

protected:
    FooVTable const* table() const { return FooVTables[_vindex]; }

private:
    FooVTableIndex _vindex;
};

由于FooVTables数组和FooVTableIndex枚举需要了解层次结构的所有类型,因此存在封闭的层次结构。

但是可以绕过枚举索引,并且通过使数组变为非常数,可以预初始化为更大的大小,然后在初始化时让每个派生类型自动在那里注册自己。因此,在此初始化阶段会检测到索引冲突,甚至可以进行自动解决(扫描数组以查找空闲槽)。

这可能不太方便,但确实提供了一种打开层次结构的方法。显然,在启动任何线程之前编写代码更容易,因为我们在这里讨论的是全局变量。


3)手工多态

(仅适用于封闭的层次结构)

后者基于我探索 LLVM/Clang 代码库的经验。编译器遇到的问题与您所面临的完全相同:对于数万或数十万个小项目,每个项目的 vpointer 确实会增加内存消耗,这很烦人。

因此,他们采取了一种简单的方法:

  • 每个类层次结构都有一个同伴enum列出所有成员
  • 层次结构中的每个类在构造时将其同伴传递enumerator给其基类
  • 虚拟性是通过适当地切换enum和投射来实现的

在代码中:

enum class FooType { Foo, Bar, Bor };

class Foo {
public:
    int dodispatcher() {
        switch(_type) {
        case FooType::Foo:
            return static_cast<Foo&>(*this).dosomething();

        case FooType::Bar:
            return static_cast<Bar&>(*this).dosomething();

        case FooType::Bor:
            return static_cast<Bor&>(*this).dosomething();
        }
        assert(0 && "Should never get there");
    }
private:
    FooType _type;
};

这些开关很烦人,但它们可以或多或少地自动播放一些宏和类型列表。LLVM 通常使用如下文件:

 // FooList.inc
 ACT_ON(Foo)
 ACT_ON(Bar)
 ACT_ON(Bor)

然后你做:

 void Foo::dodispatcher() {
     switch(_type) {
 #   define ACT_ON(X) case FooType::X: return static_cast<X&>(*this).dosomething();

 #   include "FooList.inc"

 #   undef ACT_ON
     }

     assert(0 && "Should never get there");
 }

Chris Lattner 评论说,由于开关是如何生成的(使用代码偏移表),这产生的代码类似于虚拟调度的代码,因此具有大致相同数量的 CPU 开销,但内存开销更低。

显然,一个缺点是Foo.cpp需要包含其派生类的所有头文件。这有效地密封了层次结构。


我自愿提出了从最开放到最封闭的解决方案。它们具有不同程度的复杂性/灵活性,您可以选择最适合您的一种。

一件重要的事情,在后两种情况下,销毁和复制需要特别小心。

于 2012-05-12T10:15:34.233 回答