Spark自定义UDF时使用return引起的不能序列化问题
在工作中经常要使用UDF来处理表中的数据,我们定义了一个UDF函数,但是一直出现无法序列化的问题。 排查多次无果后,对着原来写过的UDF和老叶给的提示,最终发现是因为return关键字的原因,原本使用return关键字退出程序,但是在Spark SQL中却引起了无法序列化的问题,由于Scala语言 ...
Read more
Spark连接MongoDB使用教程(转载)
前期准备 源自MongoDB官方文档,https://docs.mongodb.com/spark-connector/v1.1/getting-started/ 编程实现maven工程添加依赖maven中央仓库搜索:http://mvnrepository.com/artifact/org.mo ...
Read more
MongoDB + Spark: 完整的大数据解决方案(转载)
Spark介绍按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。 通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持也是其通用性的表现之一。 ...
Read more
Spark程序夯住,日志信息打印极少,原因是没有够分配的系统资源
在提交Spark作业时,windows上的idea中直接跑,夯住,打印一些无关的日志,服务器上无论是spark-shell、spark-sql、spark submit程序都会夯住,我们当时的服务器环境为3台,每台8Core,16G内存,共24Core,48G 提交的代码是: spark-shell ...
Read more
Flink-Hadoop编译&简单测试
目录 准备工作 下载源码包 准备操作 配置支持CDH依赖 编译Flink-shaded flink测试模块删减 配置支持maven-assembly-plugin插件 node、npm等依赖添加国内仓库 Kafka Schema Registry相关maven库配置 执行Flink编译 ...
Read more
PrestoUDF开发
Presto函数在 Presto 中,函数大体分为三种:scalar,aggregation 和 window 类型。分别如下: 1)scalar标量函数,简单来说就是 Java 中的一个静态方法,本身没有任何状态。 2)aggregation累积状态的函数,或聚集函数,如count,avg。如果只 ...
Read more
Presto部署
安装Presto1.下载 wget https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.200/presto-server-0.200.tar.gz 官网下载最新版本: 点我进入官网下载 ,注意选择presto-se ...
Read more
Presto扫盲
Presto简介不是什么虽然Presto可以解析SQL,但它不是一个标准的数据库。不是MySQL、PostgreSQL或者Oracle的代替品,也不能用来处理在线事务(OLTP) 是什么Presto通过使用分布式查询,可以快速高效的完成海量数据的查询。作为Hive和Pig的补充,Presto不仅能访 ...
Read more
机房断电导致的Kafka生产者和消费者异常
原因: 断电 园区 现象: kafka进程是绿色ok ,生产者和消费者无法ok,报错: kafka.common.notAssigndReplicaException 解决: 服务down,rm删除kafka数据目录 zk的kafka元数据清空 重新装kafka 建topic 重刷数据(提前 ...
Read more
FileNotFountException: file:/home/hadoop/lib/tunan-spark-core-1.0.jar!/ip2region.db
以后看到标题这种Error,先别管其他的,首先看看代码中有没有把Master注释掉,不然jar包中的文件永远到不了服务器的环境中去,就算把文件在服务器上的路径写死都没用。 由于Spark不会自动清理–files和–jars传到服务器中的文件,因此只要我们传上去的jar包运行通一次,后面不管代码中有没 ...
Read more