Spark小文件异步合并工具类

简介 由于Spark应用写数据到Hive表时,容易因为shuffle数过多导致生成过多小文件,影响集群存储利用率;故需要一个能避免读写冲突的小文件合并工具。 工具类 [crayon-5f27cbe83e3a5392381611/] 调用 [crayon...

使用git迁移git项目并保留提交记录

场景 公司git仓库有新旧两个仓库,现需要将旧git中的项目迁移到新的git仓库。 要求: 提交要保留提交记录 changelog要保留 所有分支不能丢失 解决方案 [crayon-5f27cbe83f1cb760511008/] 操作 我们原有...

Spark运行原理

Spark运行原理 一、Spark 执行框架 Spark应用程序运行在分布式集群上,通过集群管理器(cluster manger)将驱动程序(driver program)节点跟工作节点(work node)相连,实现分布式并行工作。如下图所示: ...

Spark Streaming+Kafka提交offset

前言 本文讲Spark Streamming使用Direct方式读取Kafka,并在输出(存储)操作之后提交offset到Kafka里实现程序读写操作有且仅有一次,即程序重启之后之前消费并且输出过的数据不再重复消费,接着上次消费的位置...

Java执行shell命令工具类

有时我们在执行java代码时会需要执行shell的命令,这里提供一份调用shell的工具类 ShellUtils.java [crayon-5f27cbe84059a590869734/] CommandStreamGobbler.java [crayon-5f27cbe8405aa019022093/]