浅谈Spark RDD 2020-11-10| Spark | Spark 记得去年的一次面试,面试官让我谈谈对RDD的理解,RDD这东西叫做弹性分布式数据集,是Spark的核心概念
它是分布式的,可以分布在多台机器上,进行计算
它是弹性的,计算过程中内存不够时它会和磁盘进行数据交换
它表示已被分区,不可变的并能够被并行操作的数据集合
这些特性,想必大家都能说出来,我也是这 ...
Read more Spark核心概念RDD 2020-11-06| Spark | Spark
转载来源: http://sharkdtu.com/posts/spark-rdd.html
RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets),它是一种分布式的内存抽象,表示一个只读的记录分区的集合,它只能通过其他RDD转换而创建,为此,RDD支持丰富 ...
Read more SparkSQL 优化jdbc外部数据源的读写 2020-11-05| Spark | Spark 目录
jdbc 参数解读
源码
jdbc 读并发度优化
jdbc 写并发度优化
jdbc 参数解读Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。与使用JdbcRDD相比,应优先使用此功能。这是因为结果作为DataFrame返回,它们可以在Spark SQL中轻松处理或与 ...
Read more region move®ion spilt®ion merge 2020-08-10| HBase | HBase region move在生产上 某个rs节点有很多大的regions, 且读写请求比较繁忙,那么其他rs节点很空闲,导致请求不均匀。手动move region到负载低的rs节点上,让集群的资源充分利用。
move是region迁移,是一个轻量级的操作!因为hbase的数据是在hdfs上,不需要独立管 ...
Read more RowKey设计原则&解决RowKey热点问题&RowKey设计实战 2020-08-09| HBase | HBase HBase由于其存储和读写的高性能,在OLAP即时分析中越来越发挥重要的作用,在易观精细化运营产品–易观方舟也有广泛的应用。作为Nosql数据库的一员,HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录),Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Ro ...
Read more ES的分片和副本&Spark读写ES&Spark读写ES调优 2020-07-30| ES | ES ES 索引分片和副本设置你可以通过修改配置来自定义索引行为,详细配置参照 {ref}/index-modules.html[索引模块]
Elasticsearch 提供了优化好的默认配置。 除非你理解这些配置的作用并且知道为什么要去修改,否则不要随意修改。
下面是两个 最重要的设置:
number ...
Read more HBase读写流程&HBase的Flush&HBase的Compaction 2020-07-26| HBase | HBase MemStore FlushMemStore是一个In Memory Sorted Buffer,在每个HStore中都有一个MemStore,即它是一个HRegion的一个Column Family对应一个实例。它的排列顺序以RowKey、Column Family、Column的顺序以及Time ...
Read more HBase的Table&Meta表&HBase的数据模型&HBase优缺点 2020-07-24| HBase | HBase Table抽象化: Region映射关系表
table region startkey endkey regionserver t1 aaaa 100 ruozedata001 <100t1 bbbb 100 ...
Read more HBase的架构 2020-07-21| HBase | HBase 从MapR的官网看到了这篇文文章:An In-Depth Look at the HBase Architecture,原本想翻译全文,然而如果翻译就需要各种咬文嚼字,太麻烦,因而本文大部分使用了自己的语言,并且加入了其他资源的参考理解以及本人自己读源码时对其的理解,属于半翻译、半原创吧。
HBas ...
Read more HBase的选型和单节点安装 2020-07-21| HBase | HBase 环境
下载地址: http://archive.cloudera.com/cdh5/cdh/5/
前提条件
hadoop-2.6.0-cdh5.16.2zookeeper-3.4.5-cdh5.16.2
版本选择
5.x 1.2.0+cdh5.16.26.x 2.1.0+cdh6.3.1 ...
Read more