22

我知道至少有两个字节码增强器在运行时修改“对象模型”以允许透明地执行事务。其中一个是我每天在工作中使用的 Versant VOD 的一部分,另一个是 Terracotta 的一部分。可能还有很多其他的,例如在 ORM 中,但 Versant 在我的公司负责处理。

我的问题是,是否有这样一个可以独立使用的开源 API,独立于它所设计的产品?你可以说一个“可破解”的 API。它应该只跟踪更改,而不是读取访问,这会显着减慢代码速度。换句话说,它不应该需要显式的读/写锁定。这需要访问所有执行更改的类,而不仅仅是数据模型,或者需要在内存中保留某种形式的“先前版本”以进行比较。

我要解决的问题是我在(NoSQL)数据库中“序列化”了“大”(32K 到 256K)对象图。它们是长期存在的,必须定期重新序列化以获取更改的“历史”。但是它们的序列化相当昂贵,而且大多数更改都是很小的。

我每次都可以完全序列化它们并在流上运行二进制差异,但这听起来非常占用 CPU。更好的解决方案是修改模型上的写操作以对更改进行协议的 API,以便在存储初始“图像”之后,只需要存储协议。

我发现了一些关于 Apache Commons Beanutils 来比较对象的问题,但这对于就地更改没有用;我需要在每个“业务交易”之间对模型进行完整的克隆。

重申一下,我正在寻找一个“内存中”API,在同一个 JVM 中,它不涉及任何外部服务器应用程序。如果在 Win、Mac 和 Linux 上可用,涉及本机代码的 API 是可以的。API 目前不必独立打包;它只需要可以从“父项目”中提取它以形成一个独立的 API(父项目许可证必须允许这样做)。

我的对象图将涉及许多大型数组,因此需要有效地支持。

这些更改不仅用于审计,而且可以重放或撤消。更准确地说,使用反序列化的初始图和更改列表,我应该得到一个相同的结束图。此外,从结束图开始,应该可以通过反向应用更改返回到初始图。这使用完全相同的功能,但除了新值之外,还需要更改协议来保留旧值。

API 许可应与商业用途兼容。

[编辑] 到目前为止,我没有得到有用的答案,而且我想要的似乎也不存在。这让我只有一个选择:让它发生。当我有一个有效的实现时,我会在此处发布一个链接作为答案,因为这是我项目的下一步,没有它我无法继续前进。

[编辑] 我偶然发现了这个有点相关的问题:是否有一个 Java 库可以“区分”两个对象?

4

4 回答 4

8

Kryo v1 有一个序列化器,它知道最后一个被序列化的数据并且只发出一个增量。读取时,它知道最后收到的数据并应用增量。增量是在字节级别上完成的。是序列化程序。大部分工作都是由这个班级完成的。这可以以一些有用的方式使用,例如类似于 Quake 3 的网络。

这在 Kryo v2 中被省略了,因为 AFAIK 它从未被使用过。此外,它没有广泛的测试集。它可以被移植,可以做你需要的,或者作为你需要的基础。

以上还发布在 JVM 序列化程序邮件列表上。

在对象级别执行此操作会有点棘手。您可以编写类似于FieldSerializer的东西,同时遍历两个对象图。不过,这将是独立代码,而不是 Kryo 序列化器。在每个级别,您都可以调用 equals。写一个字节,这样当你读的时候你就知道它是否相等。如果不等于,则使用 Kryo 编写对象。对于同一个对象,Equals 会被多次调用,尤其是对于深度嵌套的对象。

您可能会这样做的另一种方法是仅对标量和字符串执行上述操作,即仅由 Output 类写入的值。问题是走两个对象图。要使用 Kryo,我认为您必须复制所有序列化程序才能了解其他对象图。

可能您可以将 Kryo 与您自己的输出一起使用,该输出在列表中收集值而不是编写它们。使用它来“序列化”您的旧对象图。现在编写另一个版本的你自己的输出,它接受这个列表并用它来序列化你的新对象图。每次写入一个值时,首先检查它与列表中的下一个对象。如果等于,写一个 1。如果不等于,写一个 0,然后是值。

这可以通过两次使用第一个输出来提高空间效率,一次在旧图上,一次在新图上。现在你有两个值列表。使用这些来编写一个表示相等的位串。这节省了为每个值写入整个字节的空间,但具有额外列表的开销。最后,写出所有不相等的值。

要完成这个想法,您需要能够反序列化数据。您将需要一个您自己的 Input 类版本,该类从旧对象图中获取值列表。您的输入首先读取位串(或每个值一个字节)。对于相等的值,它从列表中返回值,而不是从数据中读取。如果一个值不相等,它会调用 super 方法从数据中读取。

我不确定这是否会比在字节级别上更快。如果我不得不猜测,我会说它可能会更快。将所有值存储在列表中将需要大量装箱/拆箱,并且这种方法仍然会分配所有字段,即使它们没有更改。我怀疑无论哪种方式性能都会成为问题,所以我可能只会选择更简单的方法。很难说那是什么...复活增量内容或编写自己的输出/输入类。

如果你想回馈 Kryo,那当然很棒。:)

于 2012-05-10T21:10:38.393 回答
2

看看Content repository API for JavaArtifactory使用它 来控制 maven 依赖项。Apache Jackrabbit是这个 JSR(JSR-283 版本 2)的参考实现

于 2012-05-11T02:04:54.537 回答
1

我不知道这样的 API,但它不可能那么复杂:

更好的解决方案是修改模型上的写操作以对更改进行协议的 API,以便在存储初始“图像”之后,只需要存储协议。

我会说你只需要 2 个组件:Action 和 ActionProcessor

您只需要保留已执行操作的列表(协议)。

interface ActionProcessor{
    void perform(Action action);
    void undoToDate(Date date);
} 

iterface Action{
    Date getDate();
    void perform();
    void undo();
}      
于 2012-05-09T16:54:39.470 回答
1

据我所知,GemFire 是一个 Gemstone(现为 VmWare)企业产品,其功能与 Gemstone smalltalk OODB 类似,但后来用于 java。James Foster 制作了一系列有关 Gemstone 工作原理的视频。我发现它们非常有趣。Gemstone 有一个免费版本,可用于构建小型(Seaside 网络)系统。

于 2012-05-10T19:16:51.627 回答