感谢若老、J哥、师兄、前辈、同学、朋友、陌生人，在我行走在大数据道路上给我的谆谆教诲，同时此博客仅作为学习笔记存在，严禁任何人以何种理由商用，作者QQ: 971118017

ClickHouse 其他特殊的表引擎 2020-12-03|ClickHouse|ClickHouse

目录 Memory表引擎 Distributed表引擎 Memory表引擎Memory表引擎直接将数据保存在内存中，数据既不会被压缩也不会被格式转换。当ClickHouse服务重启的时候，Memory表内的数据会全部丢失。一般在测试时使用。 CREATE TABLE table_memory ( ...

ClickHouse 外部集成表引擎 2020-12-03|ClickHouse|ClickHouse

目录 HDFS MySQL JDBC Kafka ClickHouse提供了许多与外部系统集成的方法，包括一些表引擎。这些表引擎与其他类型的表引擎类似，可以用于将外部数据导入到ClickHouse中，或者在ClickHouse中直接操作外部数据源。例如直接读取HDFS的文件或者MySQL数据库的 ...

ClickHouse MergeTree系列引擎 2020-12-03|ClickHouse|ClickHouse

目录 MergeTree表引擎 ReplacingMergeTree表引擎 SummingMergeTree表引擎 Aggregatingmergetree表引擎 CollapsingMergeTree表引擎 VersionedCollapsingMergeTree表引擎 GraphiteMerge ...

ClickHouse表引擎的作用&表引擎分类&Log系列表引擎 2020-12-03|ClickHouse|ClickHouse

目录表引擎的作用是什么表引擎分类 Log系列表引擎本文将介绍ClickHouse中一个非常重要的概念—表引擎(table engine)。如果对MySQL熟悉的话，或许你应该听说过InnoDB和MyISAM存储引擎。不同的存储引擎提供不同的存储机制、索引方式、锁定水平等功能，也可以称之为表类 ...

phoenix安装部署&基本操作&Spark读写Phoenix 2020-12-01|Phoenix|Phoenix

目录 Phoenix特点 Phoenix安装部署基本操作（常用命令） Phoenix表映射使用Spark对Phoenix的读写 PhoenixPhoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表，插入数据和查询HBase数据。特 ...

Phoenix配置&二级索引&优化 2020-11-26|Phoenix|Phoenix

目录 Phoenix配置 Phoenix创建二级索引 Phoenix基本优化 Phoenix表优化 Phoenix性能优化 Phoenix配置官方文档添加如下配置到Hbase的Hregionserver节点的hbase-site.xml <!-- phoenix regionserve ...

Hadoop多目录输出 2020-11-25|Hadoop|Hadoop

目录 MultipleOutputFormat MultipleOutputs MultipleOutputFormat直到目前，我们看到的所有Mapreduce作业都输出一组文件。但是，在一些场合下，经常要求我们将输出多组文件或者把一个数据集分为多个数据集更为方便；比如将一个log里面属于不同业 ...

ClickHouse多节点的安装以及分布式表和本地表的创建 2020-11-21|ClickHouse|ClickHouse

目录安装验证集群分布式DDL操作安装ClickHouse集群安装非常简单，首先重复上面步骤，分别在其他机器上安装ClickHouse，然后再分别配置一下/etc/clickhouse-server/config.xml和/etc/metrika.xml两个文件即可。值得注意的是，Click ...

ClickHouse单节点的安装&调试 2020-11-20|ClickHouse|ClickHouse

官网地址: https://clickhouse.tech/ 目录系统要求安装‘ 配置执行系统要求ClickHouse可以在任何具有x86_64，AArch64或PowerPC64LE CPU架构的Linux，FreeBSD或Mac OS X上运行。虽然预构建的二进制文件通常是为x86_6 ...

Spark Streaming 双流Join 2020-11-16|Spark|Spark

需求分析Spark Streaming实现两个流的join操作，如：一个流是订单数据，另一个流是订单详情数据，现需要将两个流按照某个公共字段连接进行join操作，同时订单数据和订单详情数据理论上是同时产生的，但考虑到实际情况即：延迟，结合Spark Streaming的批次处理实时数据的理念，这两个 ...