7

我尝试使用 Boost Spirit QI 解析 TPCH 文件。我的实现灵感来自 Spirit QI 的员工示例(http://www.boost.org/doc/libs/1_52_0/libs/spirit/example/qi/employee.cpp)。数据为 csv 格式,标记用“|”分隔 特点。

它可以工作,但速度很慢(1 GB 需要 20 秒)。

这是我的 lineitem 文件的 qi 语法:

struct lineitem {
    int l_orderkey;
    int l_partkey;
    int l_suppkey;
    int l_linenumber;
    std::string l_quantity;
    std::string l_extendedprice;
    std::string l_discount;
    std::string l_tax;
    std::string l_returnflag;
    std::string l_linestatus;
    std::string l_shipdate;
    std::string l_commitdate;
    std::string l_recepitdate;
    std::string l_shipinstruct;
    std::string l_shipmode;
    std::string l_comment;
};

BOOST_FUSION_ADAPT_STRUCT( lineitem,
    (int, l_orderkey)
    (int, l_partkey)
    (int, l_suppkey)
    (int, l_linenumber)
    (std::string, l_quantity)
    (std::string, l_extendedprice)
    (std::string, l_discount)
    (std::string, l_tax)
    (std::string, l_returnflag)
    (std::string, l_linestatus)
    (std::string, l_shipdate)
    (std::string, l_commitdate)
    (std::string, l_recepitdate)
    (std::string, l_shipinstruct)
    (std::string, l_shipmode)
    (std::string, l_comment)) 

vector<lineitem>* lineitems=new vector<lineitem>();

phrase_parse(state->dataPointer,
    state->dataEndPointer,
    (*(int_ >> "|" >>
    int_ >> "|" >> 
    int_ >> "|" >>
    int_ >> "|" >>
    +(char_ - '|') >> "|" >>
    +(char_ - '|') >> "|" >>
    +(char_ - '|') >> "|" >>
    +(char_ - '|') >> "|" >>
    +(char_ - '|') >> '|' >>
    +(char_ - '|') >> '|' >>
    +(char_ - '|') >> '|' >>
    +(char_ - '|') >> '|' >>
    +(char_ - '|') >> '|' >>
    +(char_ - '|') >> '|' >>
    +(char_ - '|') >> '|' >>
    +(char_ - '|') >> '|' 
    ) ), space, *lineitems
);

问题似乎是字符解析。它比其他转换慢得多。有没有更好的方法将可变长度标记解析为字符串?

4

3 回答 3

5

我找到了解决我的问题的方法。正如这篇文章Boost Spirit QI 语法对于解析分隔字符串 的速度慢中所述,性能瓶颈是 Spirit qi 的字符串处理。所有其他数据类型似乎都相当快。

我通过自己处理数据而不是使用灵气处理来避免这个问题。

我的解决方案使用一个助手类,它为 csv 文件的每个字段提供函数。这些函数将值存储到结构中。字符串存储在 char[]s 中。命中解析器一个换行符,它调用一个将结构添加到结果向量的函数。Boost 解析器调用此函数,而不是将值单独存储到向量中。

这是 TCPH 基准的 region.tbl 文件的代码:

struct region{
    int r_regionkey;
    char r_name[25];
    char r_comment[152];
};

class regionStorage{
public:
regionStorage(vector<region>* regions) :regions(regions), pos(0) {}
void storer_regionkey(int const&i){
    currentregion.r_regionkey = i;
}

void storer_name(char const&i){
    currentregion.r_name[pos] = i;
    pos++;
}

void storer_comment(char const&i){
    currentregion.r_comment[pos] = i;
    pos++;
}

void resetPos() {
    pos = 0;
}

void endOfLine() {
    pos = 0;
    regions->push_back(currentregion);
}

private:
vector<region>* regions;
region currentregion;
int pos;
};


void parseRegion(){

    vector<region> regions;
    regionStorage regionstorageObject(&regions);
    phrase_parse(dataPointer, /*< start iterator >*/    
     state->dataEndPointer, /*< end iterator >*/
     (*(lexeme[
     +(int_[boost::bind(&regionStorage::storer_regionkey, &regionstorageObject, _1)] - '|') >> '|' >>
     +(char_[boost::bind(&regionStorage::storer_name, &regionstorageObject, _1)] - '|') >> char_('|')[boost::bind(&regionStorage::resetPos, &regionstorageObject)] >>
     +(char_[boost::bind(&regionStorage::storer_comment, &regionstorageObject, _1)] - '|') >> char_('|')[boost::bind(&regionStorage::endOfLine, &regionstorageObject)]
    ])), space);

   cout << regions.size() << endl;
}

这不是一个漂亮的解决方案,但它可以工作并且速度更快。(1 GB TCPH 数据需要 2.2 秒,多线程)

于 2012-11-21T08:51:29.113 回答
4

问题主要来自将单个char元素附加到std::string容器。根据您的语法,对于每个std::string属性,分配在遇到字符时开始,在找到|分隔符时停止。因此,首先有sizeof(char)+1保留字节(以空字符结尾的“\0”)。编译器必须运行分配器std::string取决于分配器加倍算法!这意味着必须非常频繁地为小字符串重新分配内存。这意味着您的字符串将被复制到两倍于其大小的内存分配中,并且以 1、2、4、6、12、24... 个字符的间隔释放先前的分配。难怪它很慢,这会导致频繁的 malloc 调用出现巨大问题;更多的堆碎片,更大的空闲内存块链接列表,这些内存块的可变(小)大小,这反过来又会导致在应用程序的整个生命周期内扫描更长的内存以查找应用程序分配的问题。tldr; 数据变得碎片化并广泛分散在内存中。

证明?char_parser每次在迭代器中遇到有效字符时,都会调用以下代码。从升压 1.54

/boost/spirit/home/qi/char/char_parser.hpp

if (first != last && this->derived().test(*first, context))
{
    spirit::traits::assign_to(*first, attr_);
    ++first;
    return true;
}
return false;

/boost/spirit/home/qi/detail/assign_to.hpp

// T is not a container and not a string
template <typename T_>
static void call(T_ const& val, Attribute& attr, mpl::false_, mpl::false_)
{
    traits::push_back(attr, val);
}

/boost/spirit/home/support/container.hpp

template <typename Container, typename T, typename Enable/* = void*/>
struct push_back_container
{
    static bool call(Container& c, T const& val)
    {
        c.insert(c.end(), val);
        return true;
    }
};

您发布的更正后续代码(将 struct 更改为 char )与添加字符串语句指令Name[Size]基本相同。Name.reserve(Size)但是,目前没有这方面的指令。

解决方案:

/boost/spirit/home/support/container.hpp

template <typename Container, typename T, typename Enable/* = void*/>
struct push_back_container
{
    static bool call(Container& c, T const& val, size_t initial_size = 8)
    {
        if (c.capacity() < initial_size)
            c.reserve(initial_size);
        c.insert(c.end(), val);
        return true;
    }
};

/boost/spirit/home/qi/char/char_parser.hpp

if (first != last && this->derived().test(*first, context))
{
    spirit::traits::assign_to(*first, attr_);
    ++first;
    return true;
}
if (traits::is_container<Attribute>::value == true)
    attr_.shrink_to_fit();
return false;

我尚未对其进行测试,但我认为它可以将字符串属性上的字符解析器速度提高 10 倍以上,就像您看到的那样。这将是 Boost Spirit 更新中的一个很好的优化功能,包括reserve(initial_size)[ +( char_ - lit("|") ) ]设置初始缓冲区大小的指令。

于 2013-09-04T18:41:20.767 回答
0

你在编译时使用 -O2 吗?

Boosts 库有很多冗余,在使用优化标志时会被删除。

另一种可能的解决方案是使用重复解析器指令: http: //www.boost.org/doc/libs/1_52_0/libs/spirit/doc/html/spirit/qi/reference/directive/repeat.html

于 2012-11-12T14:36:31.563 回答