浅谈Spark RDD
记得去年的一次面试,面试官让我谈谈对RDD的理解,RDD这东西叫做弹性分布式数据集,是Spark的核心概念 它是分布式的,可以分布在多台机器上,进行计算 它是弹性的,计算过程中内存不够时它会和磁盘进行数据交换 它表示已被分区,不可变的并能够被并行操作的数据集合 这些特性,想必大家都能说出来,我也是这 ...
Read more
Spark核心概念RDD
转载来源: http://sharkdtu.com/posts/spark-rdd.html RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富 ...
Read more
SparkSQL 优化jdbc外部数据源的读写
目录 jdbc 参数解读 源码 jdbc 读并发度优化 jdbc 写并发度优化 jdbc 参数解读Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。与使用JdbcRDD相比,应优先使用此功能。这是因为结果作为DataFrame返回,它们可以在Spark SQL中轻松处理或与 ...
Read more
region move&region spilt&region merge
region move在生产上 某个rs节点有很多大的regions, 且读写请求比较繁忙,那么其他rs节点很空闲,导致请求不均匀。手动move region到负载低的rs节点上,让集群的资源充分利用。 move是region迁移,是一个轻量级的操作!因为hbase的数据是在hdfs上,不需要独立管 ...
Read more
RowKey设计原则&解决RowKey热点问题&RowKey设计实战
HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用,在易观精细化运营产品–易观方舟也有广泛的应用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Ro ...
Read more
ES的分片和副本&Spark读写ES&Spark读写ES调优
ES 索引分片和副本设置你可以通过修改配置来自定义索引行为,详细配置参照 {ref}/index-modules.html[索引模块] Elasticsearch 提供了优化好的默认配置。 除非你理解这些配置的作用并且知道为什么要去修改,否则不要随意修改。 下面是两个 最重要的设置: number ...
Read more
HBase读写流程&HBase的Flush&HBase的Compaction
MemStore FlushMemStore是一个In Memory Sorted Buffer,在每个HStore中都有一个MemStore,即它是一个HRegion的一个Column Family对应一个实例。它的排列顺序以RowKey、Column Family、Column的顺序以及Time ...
Read more
HBase的Table&Meta表&HBase的数据模型&HBase优缺点
Table抽象化: Region映射关系表 table region startkey endkey regionserver t1 aaaa 100 ruozedata001 <100t1 bbbb 100 ...
Read more
HBase的架构
从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Architecture,原本想翻译全文,然而如果翻译就需要各种咬文嚼字,太麻烦,因而本文大部分使用了自己的语言,并且加入了其他资源的参考理解以及本人自己读源码时对其的理解,属于半翻译、半原创吧。 HBas ...
Read more
HBase的选型和单节点安装
环境 下载地址: http://archive.cloudera.com/cdh5/cdh/5/ 前提条件 hadoop-2.6.0-cdh5.16.2zookeeper-3.4.5-cdh5.16.2 版本选择 5.x 1.2.0+cdh5.16.26.x 2.1.0+cdh6.3.1 ...
Read more