我的第一篇博客:HBase

hbase读写过程

今天终于用github 和 hexo 在windows的机器上配置成功了。

接下来会写一篇搭建过程。

对于大数据来说,hbase作为nosql数据库中的一种,而且分布式的、面向列的开源数据库。读写速度都比较快。

HBase 写数据

  1. Client写入
  2. 存入MemStore,一直到MemStore满
  3. Flush成一个StoreFile,直至增长到一定阈值
  4. 触发Compact合并操作
  5. 多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除
  6. 当StoreFiles Compact后,逐步形成越来越大的StoreFile
  7. 单个StoreFile大小超过一定阈值后,触发Split操作,把当前Region Split成2个Region,Region会下线,新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer上,使得原先1个Region的压力得以分流到2个Region上

HBase只是增加数据,有所得更新和删除操作,都是在Compact阶段做的,所以,用户写操作只需要进入到内存即可立即返回,从而保证I/O高性能。

  • HStore存储是HBase存储的核心,其中由两部分组成,一部分是MemStore,一部分是StoreFiles。
  • HLog的功能:在分布式系统环境中,无法避免系统出错或者宕机,一旦HRegionServer以外退出,MemStore中的内存数据就会丢失,引入HLog就是防止这种情况。
  • HBase 读数据

    1. client
    2. zookeeper
    3. .Root
    4. .META

    用户数据表zookeeper记录了.ROOT的路径信息(root只有一个region),.ROOT里记录了.META的region信息, (.META可能有多个region),.META里面记录了region的信息。

    文章目录
    1. 1. hbase读写过程
      1. 1.0.0.1. 今天终于用github 和 hexo 在windows的机器上配置成功了。
      2. 1.0.0.2. 接下来会写一篇搭建过程。
  • 2. HBase 写数据
    1. 2.0.0.1. HBase只是增加数据,有所得更新和删除操作,都是在Compact阶段做的,所以,用户写操作只需要进入到内存即可立即返回,从而保证I/O高性能。
      1. 2.0.0.1.1. HStore存储是HBase存储的核心,其中由两部分组成,一部分是MemStore,一部分是StoreFiles。
      2. 2.0.0.1.2. HLog的功能:在分布式系统环境中,无法避免系统出错或者宕机,一旦HRegionServer以外退出,MemStore中的内存数据就会丢失,引入HLog就是防止这种情况。
  • 3. HBase 读数据
  • |