17

我最近开始使用 Cassandra 数据库。我已经安装single node cluster在我的本地盒子中。我正在与Cassandra 1.2.3.

我正在阅读互联网上的文章,我发现了这一行 -

Cassandra 写入首先写入提交日志(为了持久性),然后写入内存中的表结构,称为 memtable。一旦写入提交日志和内存,写入即成功,因此写入时磁盘 I/O 非常少。写入在内存中批量写入,并定期写入磁盘到称为 SSTable(排序字符串表)的持久表结构。

因此,为了理解以上几行,我编写了一个简单的程序,该程序将使用Pelops client. 我能够在 Cassandra 数据库中插入数据。

现在我想看看我的数据是如何写入的commit log以及它在哪里commit log file?还有如何SSTables生成的,我可以在我的本地盒子中找到它的位置以及它包含的内容。

我想看看这两个文件,以便我能更多地了解 Cassandra 在幕后是如何工作的。

在我的 cassandra.yaml 文件中,我有这样的东西

# directories where Cassandra should store data on disk.
data_file_directories:
    - S:\Apache Cassandra\apache-cassandra-1.2.3\storage\data

# commit log
commitlog_directory: S:\Apache Cassandra\apache-cassandra-1.2.3\storage\commitlog

# saved caches
saved_caches_directory: S:\Apache Cassandra\apache-cassandra-1.2.3\storage\savedcaches

但是当我打开commitLog时,首先它有很多数据,所以我的notepad++无法正确打开它,如果它被打开,由于某些编码或什么,我无法正确看到。在我的数据文件夹中,我什么也找不到?

这意味着这个文件夹对我来说是空的-

S:\Apache Cassandra\apache-cassandra-1.2.3\storage\data\my_keyspace\users

我在这里有什么遗漏吗?谁能解释我如何阅读 commitLog 和 SSTables 文件以及在哪里可以找到这两个文件?以及每当我写入 Cassandra 数据库时,幕后究竟发生了什么。

更新:-

我用来插入 Cassandra 数据库的代码-

public class MyPelops {

    private static final Logger log = Logger.getLogger(MyPelops.class);

    public static void main(String[] args) throws Exception {


        // -------------------------------------------------------------
        // -- Nodes, Pool, Keyspace, Column Family ---------------------
        // -------------------------------------------------------------

        // A comma separated List of Nodes
        String NODES = "localhost";

        // Thrift Connection Pool
        String THRIFT_CONNECTION_POOL = "Test Cluster";

        // Keyspace
        String KEYSPACE = "my_keyspace";

        // Column Family
        String COLUMN_FAMILY = "users";

        // -------------------------------------------------------------
        // -- Cluster --------------------------------------------------
        // -------------------------------------------------------------

        Cluster cluster = new Cluster(NODES, 9160);

        Pelops.addPool(THRIFT_CONNECTION_POOL, cluster, KEYSPACE);

        // -------------------------------------------------------------
        // -- Mutator --------------------------------------------------
        // -------------------------------------------------------------

        Mutator mutator = Pelops.createMutator(THRIFT_CONNECTION_POOL);

        log.info("- Write Column -");

        mutator.writeColumn(
                COLUMN_FAMILY,
                "Row1",
                new Column().setName(" Name ".getBytes()).setValue(" Test One ".getBytes()).setTimestamp(new Date().getTime()));

        mutator.writeColumn(
                COLUMN_FAMILY,
                "Row1",
                new Column().setName(" Work ".getBytes()).setValue(" Engineer ".getBytes()).setTimestamp(new Date().getTime()));

        log.info("- Execute -");
        mutator.execute(ConsistencyLevel.ONE);

        // -------------------------------------------------------------
        // -- Selector -------------------------------------------------
        // -------------------------------------------------------------

        Selector selector = Pelops.createSelector(THRIFT_CONNECTION_POOL);

        int columnCount = selector.getColumnCount(COLUMN_FAMILY, "Row1",
                ConsistencyLevel.ONE);
        System.out.println("- Column Count = " + columnCount);

        List<Column> columnList = selector
                .getColumnsFromRow(COLUMN_FAMILY, "Row1",
                        Selector.newColumnsPredicateAll(true, 10),
                        ConsistencyLevel.ONE);
        System.out.println("- Size of Column List = " + columnList.size());

        for (Column column : columnList) {
            System.out.println("- Column: (" + new String(column.getName()) + ","
                    + new String(column.getValue()) + ")");
        }

        System.out.println("- All Done. Exit -");
        System.exit(0);
    }

}

我创建的键空间和列族-

create keyspace my_keyspace with placement_strategy = 'org.apache.cassandra.locator.SimpleStrategy' and strategy_options = {replication_factor:1};
use my_keyspace;
create column family users with column_type = 'Standard' and comparator = 'UTF8Type';
4

1 回答 1

38

你的理解几乎就在那里。但是,缺少一些细节。

所以以结构化的方式解释事物,cassandra写操作生命周期分为这几个步骤

  • 提交日志写入
  • 内存表写入
  • 稳定写入

Cassandra 写入首先写入提交日志(为了持久性),然后写入内存中的表结构,称为 memtable。一旦写入提交日志和内存,就说写入成功,因此写入时磁盘 I/O 非常少。当 memtable 空间用完时,即当 key 的数量超过一定限制(默认为 128)或达到持续时间(集群时钟)时,它被存储到 sstable、不可变空间中(这种机制称为Flushing)。在 SSTable 上完成写入后,您可以在数据文件夹中看到相应的数据,在您的情况下是S:\Apache Cassandra\apache-cassandra-1.2.3\storage\data. 每个 SSTable 主要由 2 个文件组成 - 索引文件和数据文件

  • 索引文件包含 - Bloom filter 和 Key-Offset 对

    • 布隆过滤器:布隆过滤器是一种节省空间的概率数据结构,用于测试元素是否是集合的成员。假阳性是可能的,但假阴性是不可能的。Cassandra 在执行键查找时使用布隆过滤器来节省 IO:每个 SSTable 都有一个与之关联的布隆过滤器,Cassandra 在进行任何磁盘查找之前都会对其进行检查,从而几乎可以免费查询不存在的键
    • (键,偏移)对(指向数据文件)
  • 数据文件包含实际的列数据

关于提交日志文件,这些是 Cassandra 本质上维护的加密文件,您无法正确查看任何内容。

更新:

Memtable 是一个内存缓存,内容存储为键/列(数据按键排序)。每个列族都有一个单独的 Memtable 并从键中检索列数据。所以现在我希望你清楚地了解这个事实,为什么我们不能在我们的磁盘中找到它们。

在您的情况下,您的 memtable 未满,因为 memtable 阈值尚未漂白但不会导致冲洗。您可以在此处了解有关 MemtableThresholds的更多信息,但建议不要触摸该 Dial。

SSTable结构:

  • 您的数据文件夹
    • 键空间
      • CF
        • 压缩信息数据库
        • 数据.db
        • 过滤器.db
        • 索引数据库
        • 统计数据.db
        • snapshots //如果拍摄了快照

有关详细信息,请参阅sstable

于 2013-04-07T06:53:19.353 回答