关系型数据库迁移至hbase

关系型数据库迁移至hbase

带上头具痛哭 发布于 2021-11-29 字数 809 浏览 778 回复 7

由于性能需要,计划将公司的关系型数据库(sqlserver)内的数据,同步到hbase中,请问:

1.工具除了sqoop,还有其他推荐么?

2.数据需要先进hadoop,再进hbase么?还是直接用hbase的api?具体哪个?

3.关系型数据库存在大量关联关系,迁移的时候,是选择将数据在源端(或者etl工具)先做一下组织,比如关联拼接,然后倒入hbase(hadoop?),还是同构的导入hbase(hadoop?),然后在hbse里合并成宽表?简单举例,A表3列,1工号(主键),2姓名,3家庭地址,B表2列,1工号(主键),2职务代码,C表2列,1职务代码(主键,用于同B表关联),2职务名称。方案1,利用etl工具,将ab表合并,再关联c表,导出结构基本成型的数据文件,放到hadoop目录下,然后load进hbase。方案2.直接利用sqoop,结构不变的将ABC三表分别导入hadoop,然后在hadoop(hbase)处理成一个大表。这两个方案有啥利弊?有啥企业的成功案例可以参考?

请大神们指导

如果你对这篇文章有疑问,欢迎到本站 社区 发帖提问或使用手Q扫描下方二维码加群参与讨论,获取更多帮助。

扫码加入群聊

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(7

清欢 2021-12-01 7 楼

datax支持的hadoop版本比较低吧

眼眸 2021-12-01 6 楼

使用淘宝开源的datax

无法言说的痛 2021-12-01 5 楼

自己顶

眼眸 2021-12-01 4 楼

源有10T以上,预计生成的hbase宽表超过2亿行,集群规模未定,不会超过100

归途 2021-12-01 3 楼

你数据量有多大呢?集群有多少台?

德意的啸 2021-11-30 2 楼

感谢回答,问下:sqoopload失败了就不可以重试了么?无法监控?另外,我的理解上集群就是为了承担高压力,为什么要避免给集群压力?

夜血缘 2021-11-30 1 楼

推荐
方案1,理由:处理大批量数据,使用bulk load效率高,对集群服务器压力小,还有load失败可以重试