YARN日志聚合相关参数配置
日志聚合是YARN提供的日志中央化管理功能,它能将运行完成的Container/任务日志上传到HDFS上,从而减轻NodeManager负载,且提供一个中央化存储和分析机制。默认情况下,Container/任务日志存在在各个NodeManager上,如果启用日志聚合功能需要额外的配置。 参数配置ya ...
Read more
Cookie和Session
前言会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的跟踪技术就是Cookie和Session。 Cookie通过在客户端记录信息确定用户身份,Session通过在服务器记录确定用户身份。 本章将系统的讲述Cookie和Session机制,并比较说明什么时候不能用Co ...
Read more
Request和Response
流程概述web服务器收到客户端的HTTP请求,会针对每一次请求分别创建一个用于代表请求的request对象和代表响应的response对象。 要得到客户机提交过来的数据,只需要找request对象就行了。 要向客户机输出数据,只需要找response对象就行了。 request首先回顾一下请求 ...
Read more
hive中的null
Hive中有种假NULL,它看起来和NULL一摸一样,但是实际却不是NULL。 create table test_null( word string)row format delimited fields terminated by '\t' 写入'\N' insert ...
Read more
hive中如何避免用科学计数法表示浮点数?
format_number hive> select format_number(pow(10,8),'##################.##');100000000 decimal hive> select cast (pow(10,8) as decimal(20, 2) ) ...
Read more
Hive中小表与大表关联(join)的性能分析(转载)
原文地址: 经常看到一些Hive优化的建议中说当小表与大表做关联时,把小表写在前面,这样可以使Hive的关联速度更快,提到的原因都是说因为小表可以先放到内存中,然后大表的每条记录再去内存中检测,最终完成关联查询。这样的原因看似合理,但是仔细推敲,又站不住脚跟。 多小的表算小表?如果所谓的小表在内存中 ...
Read more
sort by和order by的区别
hive实现全排序: 要么用order by,但这样默认了reducer个数为1,效率低下。 要么用sort by+order by,sort by过程可以设置reducer个数(n),order by过程用n个reducer的输出文件进行一次全排序,得到最终的结果。 使用sort by或者 ...
Read more
Spark SQL Overwrite问题
背景:对Hive数据去重更新到原表, beeline中可以直接overwrite. 但是spark.sql中报错: Cannot overwrite a path that is also being read from.; 解决方案:经过研究, 发现spark.sql 貌似不能直接overwrit ...
Read more
Hadoop切分纯文本时对某一行跨两个分片这种情况的处理
当我们提交一个MapReduce程序来处理一个或多个纯文本时,Hadoop会根据设置的分片(split)大小把文件切分成多个(InputSplit),然后分配给MapReduce程序处理。而由于Hadoop对文件做切分的时候,只考虑分片大小,而不管切分的时候会不会把某一行分成两半(事实上,一个分片的 ...
Read more
NIO读写文件&缓冲流读写hdfs文件代码
NIO读写文件public void nioTest() { String path = "D:\\\\BaiduYunDownload\\\\access_2013_05_30.log"; File file = new File(path); ...
Read more