感谢若老、J哥、师兄、前辈、同学、朋友、陌生人，在我行走在大数据道路上给我的谆谆教诲，同时此博客仅作为学习笔记存在，严禁任何人以何种理由商用，作者QQ: 971118017

Spark自定义UDF时使用return引起的不能序列化问题 2020-07-20|Error|Error

在工作中经常要使用UDF来处理表中的数据，我们定义了一个UDF函数，但是一直出现无法序列化的问题。排查多次无果后，对着原来写过的UDF和老叶给的提示，最终发现是因为return关键字的原因，原本使用return关键字退出程序，但是在Spark SQL中却引起了无法序列化的问题，由于Scala语言 ...

Spark连接MongoDB使用教程(转载) 2020-07-20|MongoDB|MongoDB

前期准备源自MongoDB官方文档，https://docs.mongodb.com/spark-connector/v1.1/getting-started/ 编程实现maven工程添加依赖maven中央仓库搜索：http://mvnrepository.com/artifact/org.mo ...

MongoDB + Spark: 完整的大数据解决方案(转载) 2020-07-20|MongoDB|MongoDB

Spark介绍按照官方的定义，Spark 是一个通用，快速，适用于大规模数据的处理引擎。通用性：我们可以使用Spark SQL来执行常规分析， Spark Streaming 来流数据处理，以及用Mlib来执行机器学习等。Java，python，scala及R语言的支持也是其通用性的表现之一。 ...

Spark程序夯住，日志信息打印极少，原因是没有够分配的系统资源 2020-07-19|Error|Error

在提交Spark作业时，windows上的idea中直接跑，夯住，打印一些无关的日志，服务器上无论是spark-shell、spark-sql、spark submit程序都会夯住，我们当时的服务器环境为3台，每台8Core，16G内存，共24Core，48G 提交的代码是: spark-shell ...

Flink-Hadoop编译&简单测试 2020-05-10|Flink|Flink

目录准备工作下载源码包准备操作配置支持CDH依赖编译Flink-shaded flink测试模块删减配置支持maven-assembly-plugin插件 node、npm等依赖添加国内仓库 Kafka Schema Registry相关maven库配置执行Flink编译 ...

PrestoUDF开发 2020-05-04|Presto|Presto

Presto函数在 Presto 中，函数大体分为三种：scalar，aggregation 和 window 类型。分别如下： 1）scalar标量函数，简单来说就是 Java 中的一个静态方法，本身没有任何状态。 2）aggregation累积状态的函数，或聚集函数，如count，avg。如果只 ...

Presto部署 2020-05-03|Presto|Presto

安装Presto1.下载 wget https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.200/presto-server-0.200.tar.gz 官网下载最新版本: 点我进入官网下载，注意选择presto-se ...

Presto扫盲 2020-05-02|Presto|Presto

Presto简介不是什么虽然Presto可以解析SQL，但它不是一个标准的数据库。不是MySQL、PostgreSQL或者Oracle的代替品，也不能用来处理在线事务（OLTP）是什么Presto通过使用分布式查询，可以快速高效的完成海量数据的查询。作为Hive和Pig的补充，Presto不仅能访 ...

机房断电导致的Kafka生产者和消费者异常 2020-04-29|Kakfa|Kakfa

原因: 断电园区现象: kafka进程是绿色ok ，生产者和消费者无法ok，报错: kafka.common.notAssigndReplicaException 解决: 服务down，rm删除kafka数据目录 zk的kafka元数据清空重新装kafka 建topic 重刷数据(提前 ...

FileNotFountException: file:/home/hadoop/lib/tunan-spark-core-1.0.jar!/ip2region.db 2020-04-28|Error|Error

以后看到标题这种Error，先别管其他的，首先看看代码中有没有把Master注释掉，不然jar包中的文件永远到不了服务器的环境中去，就算把文件在服务器上的路径写死都没用。由于Spark不会自动清理–files和–jars传到服务器中的文件，因此只要我们传上去的jar包运行通一次，后面不管代码中有没 ...