流殃的博客

| Comments

数据倾斜在MapReduce计算框架中经常发生。通俗理解,该现象指的是在整个计算过程中,大量相同的key被分配到了同一个任务上,造成“一个人累死、其他人闲死”的状况,这违背了分布式计算的初衷,使得整体的执行效率十分低下。

数据量倾斜

  1. big key big key是value很大,不是key很大
  2. hash tag 路由算法之类的,为了适配业务
  3. hash slot 分配不均衡
  4. 热点数据

数据访问量倾斜

image.png

Comments

评论