Spark使用Yarn模式解决Jar乱飞情况
在本地创建zip文件 # 在spark的jars目录下zip spark.zip ./* HDFS上创建存放spark jar的目录 hadoop fs -mkdir -p /spark-yarn/jars 将$SPARK_HOME/jars下的spark.zip包上传至刚建的HDFS路径 ...
Read more
Spark之排序模块
目录 算子排序 面向对象排序 隐式转换排序 Ordering.on排序 Spark中的排序模块,顾名思义,这篇文章都是说如何排序 算子排序的确,在Spark中有很多算子可以排序,可以给数组排序,可以给键值对排序,我们会使用算子引入排序,然后再重点介绍如何使用隐式转换达到排序的效果。 ("西瓜 2 ...
Read more
Spark之WC产生多少个RDD
目录 WC产生多少个RDD WC产生多少个RDD一句标准的WC产生了多少个RDD? val result = sc.textFile("E:\\Java\\spark\\tunan-spark\\tunan-spark-core\\data\\wc.txt").flatMap(_.split("\ ...
Read more
Spark之Transformations&Action
目录 Transformations Action TransformationsTransformations的特点是lazy的,和Scala中的lazy该念一致:延迟/懒加载,也就是不会立刻执行,只有等待遇到第一个action才会去提交作业到Spark上 转换算子map 作用到每一个元素 输入 ...
Read more
编译Spark&Idea配置Spark环境&RDD五大特点&Spark参数管理&数据的读写
目录 编译Spark Idea配置Spark环境 RDD五大特点 Spark参数管理 数据的读写 编译Spark作为一个Spark玩的6的攻城狮,第一步就是要学会如何编译Spark 下载spark源码: 官网或者github 查看官网编译文档,切记注意版本号,不同版本号编译方式区别很大 修改 ...
Read more
CentOS7安装CDH 第九章:CDH中安装Kafka
CDH官网Kafka的安装教程网址点击进入官网 下载对应的Kafka版本 查看CDH和Kafka的版本对应列表: 点击进入官网 因为安装的CDH版本为5.10或5.12,故选择的Kafka版本为2.2.x和0.10.2,此时去网站找到对应的Kafka版本: 点击进入官网 点击对应的 ...
Read more
CentOS7安装CDH 第三章:集群时间同步配置
时间同步方式: 找一个机器,作为时间服务器,所有机器与这条集群时间进行定时的同步,比如每隔10分钟,同步一次时间 配置时间同步具体实操: 时间服务器配置(必须是 root 用户) 检查ntp是否安装 rpm -qa | grep ntp 修改ntp配置文件 vim /etc/net.conf ...
Read more
GIT的常用操作&GITHUB的常用操作&在IDEA中使用GIT操作GITHUB
GIT实战操作 创建版本库 在项目文件夹内,执行: git init 提交文件 新建文件后,通过git status 进行查看文件状态(可选) 将文件添加到暂存区 git add 文件名 或者也可以git commit –m “注释内容”, 直接带注释提交 查看文件提交记录 git log – ...
Read more
IO流&比较器&内部类&Random
目标 IO流 比较器 内部类 Random IO流Java中的流根据传输方向分为输入输出流,根据操作数据的不同又可以分为字节流和字符流 字节流所有的字节流都继承自InputStream接口和OutputStream接口 用于文件传输的是FileInputStream类和FileOutputStre ...
Read more
多线程下的TreeSet
该篇博客不适合小白,只做针对性的api源码解析,以及适合我自身的案例研究 使用多个线程往ArrayList中添加元素 故障现象 故障原因 解决方法
Read more