感谢若老、J哥、师兄、前辈、同学、朋友、陌生人，在我行走在大数据道路上给我的谆谆教诲，同时此博客仅作为学习笔记存在，严禁任何人以何种理由商用，作者QQ: 971118017

日志聚合是YARN提供的日志中央化管理功能，它能将运行完成的Container/任务日志上传到HDFS上，从而减轻NodeManager负载，且提供一个中央化存储和分析机制。默认情况下，Container/任务日志存在在各个NodeManager上，如果启用日志聚合功能需要额外的配置。参数配置ya ...

Cookie和Session 2021-08-15|SpringBoot|SpringBoot

前言会话（Session）跟踪是Web程序中常用的技术，用来跟踪用户的整个会话。常用的跟踪技术就是Cookie和Session。 Cookie通过在客户端记录信息确定用户身份，Session通过在服务器记录确定用户身份。本章将系统的讲述Cookie和Session机制，并比较说明什么时候不能用Co ...

Request和Response 2021-08-15|SpringBoot|SpringBoot

流程概述web服务器收到客户端的HTTP请求，会针对每一次请求分别创建一个用于代表请求的request对象和代表响应的response对象。要得到客户机提交过来的数据，只需要找request对象就行了。要向客户机输出数据，只需要找response对象就行了。 request首先回顾一下请求 ...

hive中的null 2021-07-18|Hive|Hive

Hive中有种假NULL，它看起来和NULL一摸一样，但是实际却不是NULL。 create table test_null( word string)row format delimited fields terminated by '\t' 写入'\N' insert ...

hive中如何避免用科学计数法表示浮点数？ 2021-07-18|Hive|Hive

format_number hive> select format_number(pow(10,8),'##################.##');100000000 decimal hive> select cast (pow(10,8) as decimal(20, 2) ) ...

Hive中小表与大表关联(join)的性能分析(转载) 2021-07-18|Hive|Hive

原文地址: 经常看到一些Hive优化的建议中说当小表与大表做关联时，把小表写在前面，这样可以使Hive的关联速度更快，提到的原因都是说因为小表可以先放到内存中，然后大表的每条记录再去内存中检测，最终完成关联查询。这样的原因看似合理，但是仔细推敲，又站不住脚跟。多小的表算小表？如果所谓的小表在内存中 ...

sort by和order by的区别 2021-07-18|Hive|Hive

hive实现全排序：要么用order by，但这样默认了reducer个数为1，效率低下。要么用sort by+order by，sort by过程可以设置reducer个数（n），order by过程用n个reducer的输出文件进行一次全排序，得到最终的结果。使用sort by或者 ...

Spark SQL Overwrite问题 2021-07-17|Spark|Spark

背景:对Hive数据去重更新到原表, beeline中可以直接overwrite. 但是spark.sql中报错: Cannot overwrite a path that is also being read from.; 解决方案:经过研究, 发现spark.sql 貌似不能直接overwrit ...

Hadoop切分纯文本时对某一行跨两个分片这种情况的处理 2021-07-07|HadoopHDFS|Hadoop-HDFS

当我们提交一个MapReduce程序来处理一个或多个纯文本时，Hadoop会根据设置的分片（split）大小把文件切分成多个（InputSplit），然后分配给MapReduce程序处理。而由于Hadoop对文件做切分的时候，只考虑分片大小，而不管切分的时候会不会把某一行分成两半（事实上，一个分片的 ...

NIO读写文件&缓冲流读写hdfs文件代码 2021-07-05|Java|Java

NIO读写文件public void nioTest() { String path = "D:\\\\BaiduYunDownload\\\\access_2013_05_30.log"; File file = new File(path); ...