我想将 mysql 与 hadoop 中的项目集成。我搜索了很多不同的方法,有两种方法:实时使用“mysql applier for hadoop”和“apache sqoop”用于非实时使用。
我发现 Gora 也有这种能力,但我找不到任何关于如何做到这一点的信息。
Gora 是实时的还是非实时的?gora和mysql applier或sqoop有什么区别?
对于hadoop和mysql的集成,是否需要任何nosql db作为接口?
2 回答
由于某些问题,此时 Gora 的 SQL 模块被禁用。它不符合您的需求:( 待命...在将来的版本中将再次启用。
无论如何,关于Gora的一些解释:
Gora 是一个对象映射(不是专门的关系)。我们可以说它专注于 NoSQL,直到 SQL 模块重新启动......
我发现 Gora 是一个很好的工具,可以在后端使用 NoSQL,并能够以结构化格式获取数据作为对象。
是实时的还是不是实时的?gora和mysql applier或sqoop有什么区别?
是的,但我想这不是你想的那样。它不是实时自动摄取工具,不是自动插入工具,不是解析器和插入工具,不是过滤器,不是...
它是 Hadoop 和可配置数据存储之间的一层(可以将 Hibernate 视为 ORM)。
对于hadoop和mysql的集成,是否需要任何nosql db作为接口?
将它与 Hadoop 集成就像配置 Hadoop 以使用GoraMapper
. 您会得到一个包含对象的地图(从您配置的 NoSQL 存储映射)。
很快将与 Pig 和 Cascading 集成,我认为 :)
我的建议是:如果你想从 MySQL 读取数据,看看 Pig 和 Hive,尽管它们不是“实时的”(你的意思是在 MySQL 中插入一行后立即写入 HDFS 吗?)。
我希望这有帮助。
您是否尝试将 MySQL 实例中的数据写入 HDFS?您想要写入 HDFS 以使数据可用于其他 Hadoop 实用程序的原因是什么?在这种情况下,您可能希望数据采用某种兼容的格式,例如 Text、SequenceFile、ORC、Parquet 等...
您是否尝试通过 MySQL 进行查询并希望它在 HDFS 中查询数据?
我是 InfiniDB 的一名
架构师
http://infinidb.co/
我们是 MySQL 的柱状 MPP 数据库引擎,可以位于我们编写 IDB 文件(我们优化的文件类型)的 HDFS 之上。然后,您可以使用 MySQL 查询对您的数据执行分析式搜索,并获得在集群中的性能(甚至单台机器也有性能提升)。您还可以使用 sqoop 与 InfiniDB 数据库中的数据进行交互,以提供来自 Hadoop 生态系统的交互。