感谢若老、J哥、师兄、前辈、同学、朋友、陌生人，在我行走在大数据道路上给我的谆谆教诲，同时此博客仅作为学习笔记存在，严禁任何人以何种理由商用，作者QQ: 971118017

浅谈Spark RDD 2020-11-10|Spark|Spark

记得去年的一次面试，面试官让我谈谈对RDD的理解，RDD这东西叫做弹性分布式数据集，是Spark的核心概念它是分布式的，可以分布在多台机器上，进行计算它是弹性的，计算过程中内存不够时它会和磁盘进行数据交换它表示已被分区，不可变的并能够被并行操作的数据集合这些特性，想必大家都能说出来，我也是这 ...

Spark核心概念RDD 2020-11-06|Spark|Spark

转载来源: http://sharkdtu.com/posts/spark-rdd.html RDD全称叫做弹性分布式数据集(Resilient Distributed Datasets)，它是一种分布式的内存抽象，表示一个只读的记录分区的集合，它只能通过其他RDD转换而创建，为此，RDD支持丰富 ...

SparkSQL 优化jdbc外部数据源的读写 2020-11-05|Spark|Spark

目录 jdbc 参数解读源码 jdbc 读并发度优化 jdbc 写并发度优化 jdbc 参数解读Spark SQL还包括一个可以使用JDBC从其他数据库读取数据的数据源。与使用JdbcRDD相比，应优先使用此功能。这是因为结果作为DataFrame返回，它们可以在Spark SQL中轻松处理或与 ...

region move&region spilt&region merge 2020-08-10|HBase|HBase

region move在生产上某个rs节点有很多大的regions, 且读写请求比较繁忙，那么其他rs节点很空闲，导致请求不均匀。手动move region到负载低的rs节点上，让集群的资源充分利用。 move是region迁移，是一个轻量级的操作！因为hbase的数据是在hdfs上，不需要独立管 ...

RowKey设计原则&解决RowKey热点问题&RowKey设计实战 2020-08-09|HBase|HBase

HBase由于其存储和读写的高性能，在OLAP即时分析中越来越发挥重要的作用，在易观精细化运营产品–易观方舟也有广泛的应用。作为Nosql数据库的一员，HBase查询只能通过其Rowkey来查询(Rowkey用来表示唯一一行记录)，Rowkey设计的优劣直接影响读写性能。HBase中的数据是按照Ro ...

ES的分片和副本&Spark读写ES&Spark读写ES调优 2020-07-30|ES|ES

ES 索引分片和副本设置你可以通过修改配置来自定义索引行为，详细配置参照 {ref}/index-modules.html[索引模块] Elasticsearch 提供了优化好的默认配置。除非你理解这些配置的作用并且知道为什么要去修改，否则不要随意修改。下面是两个最重要的设置： number ...

HBase读写流程&HBase的Flush&HBase的Compaction 2020-07-26|HBase|HBase

MemStore FlushMemStore是一个In Memory Sorted Buffer，在每个HStore中都有一个MemStore，即它是一个HRegion的一个Column Family对应一个实例。它的排列顺序以RowKey、Column Family、Column的顺序以及Time ...

HBase的Table&Meta表&HBase的数据模型&HBase优缺点 2020-07-24|HBase|HBase

Table抽象化: Region映射关系表 table region startkey endkey regionserver t1 aaaa 100 ruozedata001 <100t1 bbbb 100 ...

HBase的架构 2020-07-21|HBase|HBase

从MapR的官网看到了这篇文文章：An In-Depth Look at the HBase Architecture，原本想翻译全文，然而如果翻译就需要各种咬文嚼字，太麻烦，因而本文大部分使用了自己的语言，并且加入了其他资源的参考理解以及本人自己读源码时对其的理解，属于半翻译、半原创吧。 HBas ...

HBase的选型和单节点安装 2020-07-21|HBase|HBase

环境下载地址: http://archive.cloudera.com/cdh5/cdh/5/ 前提条件 hadoop-2.6.0-cdh5.16.2zookeeper-3.4.5-cdh5.16.2 版本选择 5.x 1.2.0+cdh5.16.26.x 2.1.0+cdh6.3.1 ...