首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  程序员

有懂 spark 跟 hbase 的同学吗

  •  
  •   snappyone · 27 天前 · 592 次点击

    准备 spark 连 hbase,但是查了一下各种 connector,发现一个 hbase-spark 项目,貌似不维护了但是 maven 上居然有新版本的 jar,另一个是 sparkonhbase 项目也是版本不太全貌似,所以我的选择是自己写一套 spark 的 datasource 还是怎么搞比较好,有经验的 v 友求指导

    8 回复  |  直到 2019-05-22 16:35:51 +08:00
        1
    yangxin0   27 天前
    别瞎用,要你是随机读会出问题的。data source connector 是最不要紧的你应该关注 hbase 的 rowkey 咋设计的,按 key range 读取效率才高。
        2
    bsidb   27 天前
    如果你的 Row key 分布的很平均,直接按照 Key range 切分任务,然后并行读取试试?
        3
    snappyone   27 天前
    @yangxin0 我现在是按照 time range 做 scan, 直接读取最近 1 小时新增的数据这样
        4
    snappyone   27 天前
    @bsidb 按照 time range scan 读新增数据,key 应该没法 range 切分了
        5
    atomstar   27 天前
    https://github.com/unicredit/hbase-rdd 2 年前用过这个 hbase-rdd
        6
    LemonButSweet   27 天前
    话说 Spark 里面有一个 HbaseContext 可以操作 HBase,用起来比较方便 不管是读写 写的话是有个 bulkLoad
        7
    snappyone   27 天前
    @atomstar 这个版本比较老了,应该用不了咯
        8
    snappyone   27 天前
    @LemonButSweet 好的,我去看看这个,谢谢
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   3044 人在线   最高记录 5043   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 18ms · UTC 00:56 · PVG 08:56 · LAX 17:56 · JFK 20:56
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1