๋ ์ ์ฌ๋ฌ๋ถ, ์๋ ํ์ธ์. ์ค๋์ Apache Spark์ ๊ทธ ๊ฐ๋ฐ ์ ๋ง์ ๋ํด ์กฐ๊ธ ์ด์ผ๊ธฐํ๊ฒ ์ต๋๋ค.
ํ๋ ๋น
๋ฐ์ดํฐ ์ธ๊ณ์์ Apache Spark๋ ์ผ๊ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ ์์
๊ฐ๋ฐ์ ์ํ ์ฌ์ค์์ ํ์ค์
๋๋ค. ๋ํ ๋ง์ดํฌ๋ก ๋ฐฐ์น ๊ฐ๋
์์ ์๋ํ๊ณ ๋ฐ์ดํฐ๋ฅผ ์์ ๋ถ๋ถ์ผ๋ก ์ฒ๋ฆฌํ๊ณ ์ ๋ฌํ๋ ์คํธ๋ฆฌ๋ฐ ์ ํ๋ฆฌ์ผ์ด์
์ ๋ง๋๋ ๋ฐ์๋ ์ฌ์ฉ๋ฉ๋๋ค(Spark Structured Streaming). ๊ทธ๋ฆฌ๊ณ ์ ํต์ ์ผ๋ก YARN(๋๋ ๊ฒฝ์ฐ์ ๋ฐ๋ผ Apache Mesos)์ ๋ฆฌ์์ค ๊ด๋ฆฌ์๋ก ์ฌ์ฉํ์ฌ ์ ์ฒด Hadoop ์คํ์ ์ผ๋ถ์์ต๋๋ค. 2020๋
๊น์ง ์ ์ ํ Hadoop ๋ฐฐํฌํ์ด ๋ถ์กฑํ์ฌ ๋๋ถ๋ถ์ ํ์ฌ์์ ์ ํต์ ์ธ ํํ๋ก ์ฌ์ฉํ๋ ๊ฒ์ด ์๋ฌธ์๋ฉ๋๋ค. HDP ๋ฐ CDH์ ๊ฐ๋ฐ์ด ์ค๋จ๋๊ณ CDH๋ ์ ๋๋ก ๊ฐ๋ฐ๋์ง ์์๊ณ ๋น์ฉ์ด ๋์ผ๋ฉฐ ๋๋จธ์ง Hadoop ๊ณต๊ธ์
์ฒด๋ ์กด์ฌํ์ง ์๊ฑฐ๋ ๋ฏธ๋๊ฐ ์ด๋์์ก์ต๋๋ค. ๋ฐ๋ผ์ Kubernetes๋ฅผ ์ฌ์ฉํ๋ Apache Spark์ ์ถ์๋ ์ปค๋ฎค๋ํฐ์ ๋๊ธฐ์
์ฌ์ด์์ ๊ด์ฌ์ด ๋์์ง๊ณ ์์ต๋๋ค. ํ๋ผ์ด๋น ๋ฐ ํผ๋ธ๋ฆญ ํด๋ผ์ฐ๋์์ ์ปจํ
์ด๋ ์ค์ผ์คํธ๋ ์ด์
๋ฐ ๋ฆฌ์์ค ๊ด๋ฆฌ์ ํ์ค์ด ๋๊ณ ์์ผ๋ฉฐ, YARN์์ Spark ์์
์ ๋ถํธํ ๋ฆฌ์์ค ์์ฝ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ๋ค์์ ์ ๊ณตํฉ๋๋ค. ๋ชจ๋ ๊ท๋ชจ์ ์ข
๋ฅ์ ํ์ฌ๋ฅผ ์ํ ๋ง์ ์์ฉ ๋ฐ ๊ณต๊ฐ ๋ฐฐํฌํ์ ๊ฐ์ถ ๊พธ์คํ ๋ฐ์ ํ๋ ํ๋ซํผ์
๋๋ค. ๊ฒ๋ค๊ฐ, ์ธ๊ธฐ์ ํ์
์ด ๋๋ถ๋ถ์ ์ฌ๋๋ค์ ์ด๋ฏธ ๋ช ๊ฐ์ง ์์ฒด ์ค์น๋ฅผ ํ๋ณดํ๊ณ ์ฌ์ฉ์ ๋ํ ์ ๋ฌธ ์ง์์ ํฅ์์์ผ ์ด๋์ ๋จ์ํํ์ต๋๋ค.
๋ฒ์ 2.3.0๋ถํฐ Apache Spark๋ Kubernetes ํด๋ฌ์คํฐ์์ ์์
์ ์คํํ๊ธฐ ์ํ ๊ณต์ ์ง์์ ์ป์์ผ๋ฉฐ ์ค๋์ ์ด ์ ๊ทผ ๋ฐฉ์์ ํ์ฌ ์ฑ์๋, ์ฌ์ฉ์ ๋ํ ๋ค์ํ ์ต์
๋ฐ ๊ตฌํ ์ค์ ์ง๋ฉดํ๊ฒ ๋ ํจ์ ์ ๋ํด ์ด์ผ๊ธฐํ๊ฒ ์ต๋๋ค.
๋จผ์ Apache Spark๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์์
๋ฐ ์ ํ๋ฆฌ์ผ์ด์
์ ๊ฐ๋ฐํ๋ ๊ณผ์ ์ ์ดํด๋ณด๊ณ Kubernetes ํด๋ฌ์คํฐ์์ ์์
์ ์คํํด์ผ ํ๋ ์ผ๋ฐ์ ์ธ ์ฌ๋ก๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค. ์ด ๊ฒ์๋ฌผ์ ์ค๋นํ๋ฉด์ OpenShift๊ฐ ๋ฐฐํฌํ์ผ๋ก ์ฌ์ฉ๋๊ณ ํด๋น ๋ช
๋ น์ค ์ ํธ๋ฆฌํฐ(oc)์ ๊ด๋ จ๋ ๋ช
๋ น์ด ์ ๊ณต๋ฉ๋๋ค. ๋ค๋ฅธ Kubernetes ๋ฐฐํฌ์ ๊ฒฝ์ฐ ํ์ค Kubernetes ๋ช
๋ น์ค ์ ํธ๋ฆฌํฐ(kubectl) ๋๋ ํด๋น ์ ์ฌ ํญ๋ชฉ(์: oc adm ์ ์ฑ
)์ ํด๋น ๋ช
๋ น์ ์ฌ์ฉํ ์ ์์ต๋๋ค.
์ฒซ ๋ฒ์งธ ์ฌ์ฉ ์ฌ๋ก - ์คํํฌ ์ ์ถ
์์ ๋ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ ๊ฐ๋ฐํ๋ ๋์ ๊ฐ๋ฐ์๋ ๋ฐ์ดํฐ ๋ณํ์ ๋๋ฒ๊น ํ๋ ์์ ์ ์คํํด์ผ ํฉ๋๋ค. ์ด๋ก ์ ์ผ๋ก ์คํ ์ ์ด๋ฌํ ๋ชฉ์ ์ผ๋ก ์ฌ์ฉ๋ ์ ์์ง๋ง ์ต์ข ์์คํ ์ ์ค์ (ํ ์คํธ์ด๊ธฐ๋ ํ์ง๋ง) ์ธ์คํด์ค๊ฐ ์ฐธ์ฌํ๋ ๊ฐ๋ฐ์ด ์ด ์์ ํด๋์ค์์ ๋ ๋น ๋ฅด๊ณ ๋ ๋์ ๊ฒ์ผ๋ก ์ ์ฆ๋์์ต๋๋ค. ์ต์ข ์์คํ ์ ์ค์ ์ธ์คํด์ค๋ฅผ ๋๋ฒ๊น ํ๋ ๊ฒฝ์ฐ ๋ ๊ฐ์ง ์๋๋ฆฌ์ค๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
- ๊ฐ๋ฐ์๋ ๋
๋ฆฝํ ๋ชจ๋์์ ๋ก์ปฌ๋ก Spark ์์
์ ์คํํฉ๋๋ค.
- ๊ฐ๋ฐ์๋ ํ
์คํธ ๋ฃจํ์ Kubernetes ํด๋ฌ์คํฐ์์ Spark ์์
์ ์คํํฉ๋๋ค.
์ฒซ ๋ฒ์งธ ์ต์ ์ ์กด์ฌํ ๊ถ๋ฆฌ๊ฐ ์์ง๋ง ์ฌ๋ฌ ๊ฐ์ง ๋จ์ ์ด ์์ต๋๋ค.
- ๊ฐ ๊ฐ๋ฐ์๋ ์์ ์ฅ์์ ํ์ํ ์ต์ข ์์คํ ์ ๋ชจ๋ ์ธ์คํด์ค์ ๋ํ ์ก์ธ์ค ๊ถํ์ ์ ๊ณต๋ฐ์์ผ ํฉ๋๋ค.
- ๊ฐ๋ฐ ์ค์ธ ์์ ์ ์คํํ๋ ค๋ฉด ์์ ๊ธฐ๊ณ์ ์ถฉ๋ถํ ์์ ๋ฆฌ์์ค๊ฐ ํ์ํฉ๋๋ค.
๋ ๋ฒ์งธ ์ต์ ์๋ ์ด๋ฌํ ๋จ์ ์ด ์์ต๋๋ค. Kubernetes ํด๋ฌ์คํฐ๋ฅผ ์ฌ์ฉํ๋ฉด ์์ ์คํ์ ํ์ํ ๋ฆฌ์์ค ํ์ ํ ๋นํ๊ณ ์ต์ข ์์คํ ์ธ์คํด์ค์ ํ์ํ ์ก์ธ์ค ๊ถํ์ ์ ๊ณตํ ์ ์์ผ๋ฉฐ Kubernetes ์ญํ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ์ ์ฐํ๊ฒ ์ก์ธ์ค ๊ถํ์ ์ ๊ณตํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ๊ฐ๋ฐํ์ ๋ชจ๋ ๊ตฌ์ฑ์. ํ ์คํธ ๋ฃจํ์ Kubernetes ํด๋ฌ์คํฐ์ ์๋ ๋ก์ปฌ ๊ฐ๋ฐ์ ์์คํ ์์ Spark ์์ ์ ์์ํ๋ ์ฒซ ๋ฒ์งธ ์ฌ์ฉ ์ฌ๋ก๋ก ์ด๋ฅผ ๊ฐ์กฐํด ๋ณด๊ฒ ์ต๋๋ค.
Spark๋ฅผ ๋ก์ปฌ์์ ์คํํ๋๋ก ์ค์ ํ๋ ๊ณผ์ ์ ๋ํด ๋ ์์ธํ ์ด์ผ๊ธฐํด ๋ณด๊ฒ ์ต๋๋ค. Spark ์ฌ์ฉ์ ์์ํ๋ ค๋ฉด Spark๋ฅผ ์ค์นํด์ผ ํฉ๋๋ค.
mkdir /opt/spark
cd /opt/spark
wget http://mirror.linux-ia64.org/apache/spark/spark-2.4.5/spark-2.4.5.tgz
tar zxvf spark-2.4.5.tgz
rm -f spark-2.4.5.tgz
Kubernetes ์์ ์ ํ์ํ ํจํค์ง๋ฅผ ์์งํฉ๋๋ค.
cd spark-2.4.5/
./build/mvn -Pkubernetes -DskipTests clean package
์ ์ฒด ๋น๋์๋ ๋ง์ ์๊ฐ์ด ๊ฑธ๋ฆฌ๋ฉฐ, Docker ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ณ ์ด๋ฅผ Kubernetes ํด๋ฌ์คํฐ์์ ์คํํ๋ ค๋ฉด ์ค์ ๋ก โassemblies/โ ๋๋ ํฐ๋ฆฌ์ jar ํ์ผ๋ง ํ์ํ๋ฏ๋ก ์ด ํ์ ํ๋ก์ ํธ๋ง ๋น๋ํ ์ ์์ต๋๋ค.
./build/mvn -f ./assembly/pom.xml -Pkubernetes -DskipTests clean package
Kubernetes์์ Spark ์์ ์ ์คํํ๋ ค๋ฉด ๊ธฐ๋ณธ ์ด๋ฏธ์ง๋ก ์ฌ์ฉํ Docker ์ด๋ฏธ์ง๋ฅผ ์์ฑํด์ผ ํฉ๋๋ค. ์ฌ๊ธฐ์๋ ๋ ๊ฐ์ง ๊ฐ๋ฅํ ์ ๊ทผ ๋ฐฉ์์ด ์์ต๋๋ค.
- ์์ฑ๋ Docker ์ด๋ฏธ์ง์๋ ์คํ ๊ฐ๋ฅํ Spark ์์ ์ฝ๋๊ฐ ํฌํจ๋์ด ์์ต๋๋ค.
- ์์ฑ๋ ์ด๋ฏธ์ง์๋ Spark์ ํ์ํ ์ข ์์ฑ๋ง ํฌํจ๋๋ฉฐ ์คํ ์ฝ๋๋ ์๊ฒฉ์ผ๋ก ํธ์คํ ๋ฉ๋๋ค(์: HDFS).
๋จผ์ Spark ์์ ์ ํ ์คํธ ์๊ฐ ํฌํจ๋ Docker ์ด๋ฏธ์ง๋ฅผ ๋น๋ํด ๋ณด๊ฒ ์ต๋๋ค. Docker ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ํด Spark์๋ "docker-image-tool"์ด๋ผ๋ ์ ํธ๋ฆฌํฐ๊ฐ ์์ต๋๋ค. ์ด์ ๋ํ ๋์๋ง์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
./bin/docker-image-tool.sh --help
๋์์ ๋ฐ์ผ๋ฉด Docker ์ด๋ฏธ์ง๋ฅผ ์์ฑํ์ฌ ์๊ฒฉ ๋ ์ง์คํธ๋ฆฌ์ ์ ๋ก๋ํ ์ ์์ง๋ง ๊ธฐ๋ณธ์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ ์ฌ๋ฌ ๊ฐ์ง ๋จ์ ์ด ์์ต๋๋ค.
- Spark, PySpark ๋ฐ R์ ๊ฒฝ์ฐ 3๊ฐ์ Docker ์ด๋ฏธ์ง๋ฅผ ํ ๋ฒ์ ๋ฐ๋์ ์์ฑํฉ๋๋ค.
- ์ด๋ฏธ์ง ์ด๋ฆ์ ์ง์ ํ ์ ์์ต๋๋ค.
๋ฐ๋ผ์ ์๋์ ์ ๊ณต๋ ์ด ์ ํธ๋ฆฌํฐ์ ์์ ๋ ๋ฒ์ ์ ์ฌ์ฉํฉ๋๋ค.
vi bin/docker-image-tool-upd.sh
#!/usr/bin/env bash
function error {
echo "$@" 1>&2
exit 1
}
if [ -z "${SPARK_HOME}" ]; then
SPARK_HOME="$(cd "`dirname "$0"`"/..; pwd)"
fi
. "${SPARK_HOME}/bin/load-spark-env.sh"
function image_ref {
local image="$1"
local add_repo="${2:-1}"
if [ $add_repo = 1 ] && [ -n "$REPO" ]; then
image="$REPO/$image"
fi
if [ -n "$TAG" ]; then
image="$image:$TAG"
fi
echo "$image"
}
function build {
local BUILD_ARGS
local IMG_PATH
if [ ! -f "$SPARK_HOME/RELEASE" ]; then
IMG_PATH=$BASEDOCKERFILE
BUILD_ARGS=(
${BUILD_PARAMS}
--build-arg
img_path=$IMG_PATH
--build-arg
datagram_jars=datagram/runtimelibs
--build-arg
spark_jars=assembly/target/scala-$SPARK_SCALA_VERSION/jars
)
else
IMG_PATH="kubernetes/dockerfiles"
BUILD_ARGS=(${BUILD_PARAMS})
fi
if [ -z "$IMG_PATH" ]; then
error "Cannot find docker image. This script must be run from a runnable distribution of Apache Spark."
fi
if [ -z "$IMAGE_REF" ]; then
error "Cannot find docker image reference. Please add -i arg."
fi
local BINDING_BUILD_ARGS=(
${BUILD_PARAMS}
--build-arg
base_img=$(image_ref $IMAGE_REF)
)
local BASEDOCKERFILE=${BASEDOCKERFILE:-"$IMG_PATH/spark/docker/Dockerfile"}
docker build $NOCACHEARG "${BUILD_ARGS[@]}"
-t $(image_ref $IMAGE_REF)
-f "$BASEDOCKERFILE" .
}
function push {
docker push "$(image_ref $IMAGE_REF)"
}
function usage {
cat <<EOF
Usage: $0 [options] [command]
Builds or pushes the built-in Spark Docker image.
Commands:
build Build image. Requires a repository address to be provided if the image will be
pushed to a different registry.
push Push a pre-built image to a registry. Requires a repository address to be provided.
Options:
-f file Dockerfile to build for JVM based Jobs. By default builds the Dockerfile shipped with Spark.
-p file Dockerfile to build for PySpark Jobs. Builds Python dependencies and ships with Spark.
-R file Dockerfile to build for SparkR Jobs. Builds R dependencies and ships with Spark.
-r repo Repository address.
-i name Image name to apply to the built image, or to identify the image to be pushed.
-t tag Tag to apply to the built image, or to identify the image to be pushed.
-m Use minikube's Docker daemon.
-n Build docker image with --no-cache
-b arg Build arg to build or push the image. For multiple build args, this option needs to
be used separately for each build arg.
Using minikube when building images will do so directly into minikube's Docker daemon.
There is no need to push the images into minikube in that case, they'll be automatically
available when running applications inside the minikube cluster.
Check the following documentation for more information on using the minikube Docker daemon:
https://kubernetes.io/docs/getting-started-guides/minikube/#reusing-the-docker-daemon
Examples:
- Build image in minikube with tag "testing"
$0 -m -t testing build
- Build and push image with tag "v2.3.0" to docker.io/myrepo
$0 -r docker.io/myrepo -t v2.3.0 build
$0 -r docker.io/myrepo -t v2.3.0 push
EOF
}
if [[ "$@" = *--help ]] || [[ "$@" = *-h ]]; then
usage
exit 0
fi
REPO=
TAG=
BASEDOCKERFILE=
NOCACHEARG=
BUILD_PARAMS=
IMAGE_REF=
while getopts f:mr:t:nb:i: option
do
case "${option}"
in
f) BASEDOCKERFILE=${OPTARG};;
r) REPO=${OPTARG};;
t) TAG=${OPTARG};;
n) NOCACHEARG="--no-cache";;
i) IMAGE_REF=${OPTARG};;
b) BUILD_PARAMS=${BUILD_PARAMS}" --build-arg "${OPTARG};;
esac
done
case "${@: -1}" in
build)
build
;;
push)
if [ -z "$REPO" ]; then
usage
exit 1
fi
push
;;
*)
usage
exit 1
;;
esac
๋์์ ๋ฐ์ Spark๋ฅผ ์ฌ์ฉํ์ฌ Pi๋ฅผ ๊ณ์ฐํ๊ธฐ ์ํ ํ ์คํธ ์์ ์ด ํฌํจ๋ ๊ธฐ๋ณธ Spark ์ด๋ฏธ์ง๋ฅผ ์กฐ๋ฆฝํฉ๋๋ค(์ฌ๊ธฐ์ {docker-registry-url}์ Docker ์ด๋ฏธ์ง ๋ ์ง์คํธ๋ฆฌ์ URL์ด๊ณ , {repo}๋ ๋ ์ง์คํธ๋ฆฌ ๋ด๋ถ ์ ์ฅ์์ ์ด๋ฆ์ ๋๋ค. OpenShift์ ํ๋ก์ ํธ์ ์ผ์นํฉ๋๋ค. {image-name} - ์ด๋ฏธ์ง ์ด๋ฆ(์๋ฅผ ๋ค์ด Red Hat OpenShift ์ด๋ฏธ์ง์ ํตํฉ ๋ ์ง์คํธ๋ฆฌ์์์ ๊ฐ์ด ์ด๋ฏธ์ง์ XNUMX๋จ๊ณ ๋ถ๋ฆฌ๊ฐ ์ฌ์ฉ๋๋ ๊ฒฝ์ฐ), {tag} - ์ด ํ๊ทธ ์ด๋ฏธ์ง ๋ฒ์ ):
./bin/docker-image-tool-upd.sh -f resource-managers/kubernetes/docker/src/main/dockerfiles/spark/Dockerfile -r {docker-registry-url}/{repo} -i {image-name} -t {tag} build
์ฝ์ ์ ํธ๋ฆฌํฐ๋ฅผ ์ฌ์ฉํ์ฌ OKD ํด๋ฌ์คํฐ์ ๋ก๊ทธ์ธํฉ๋๋ค(์ฌ๊ธฐ์ {OKD-API-URL}์ OKD ํด๋ฌ์คํฐ API URL์ ๋๋ค).
oc login {OKD-API-URL}
Docker ๋ ์ง์คํธ๋ฆฌ์์ ์ธ์ฆ์ ์ํด ํ์ฌ ์ฌ์ฉ์์ ํ ํฐ์ ๊ฐ์ ธ์ค๊ฒ ์ต๋๋ค.
oc whoami -t
OKD ํด๋ฌ์คํฐ์ ๋ด๋ถ Docker ๋ ์ง์คํธ๋ฆฌ์ ๋ก๊ทธ์ธํฉ๋๋ค(์ด์ ๋ช ๋ น์ ์ฌ์ฉํ์ฌ ์ป์ ํ ํฐ์ ๋น๋ฐ๋ฒํธ๋ก ์ฌ์ฉํฉ๋๋ค).
docker login {docker-registry-url}
์กฐ๋ฆฝ๋ Docker ์ด๋ฏธ์ง๋ฅผ Docker Registry OKD์ ์ ๋ก๋ํด ๋ณด๊ฒ ์ต๋๋ค.
./bin/docker-image-tool-upd.sh -r {docker-registry-url}/{repo} -i {image-name} -t {tag} push
์กฐ๋ฆฝ๋ ์ด๋ฏธ์ง๊ฐ OKD์์ ์ฌ์ฉ ๊ฐ๋ฅํ์ง ํ์ธํด ๋ณด๊ฒ ์ต๋๋ค. ์ด๋ ๊ฒ ํ๋ ค๋ฉด ํด๋น ํ๋ก์ ํธ์ ์ด๋ฏธ์ง ๋ชฉ๋ก์ด ์๋ ๋ธ๋ผ์ฐ์ ์์ URL์ ์ฝ๋๋ค. ์ฌ๊ธฐ์ {project}๋ OpenShift ํด๋ฌ์คํฐ ๋ด๋ถ์ ํ๋ก์ ํธ ์ด๋ฆ์ด๊ณ , {OKD-WEBUI-URL}์ OpenShift ์น ์ฝ์์ URL์ ๋๋ค. ) - https://{OKD-WEBUI-URL}/console /project/{project}/browse/images/{image-name}.
์์ ์ ์คํํ๋ ค๋ฉด ํฌ๋๋ฅผ ๋ฃจํธ๋ก ์คํํ ์ ์๋ ๊ถํ์ด ์๋ ์๋น์ค ๊ณ์ ์ ์์ฑํด์ผ ํฉ๋๋ค(์ด ๋ด์ฉ์ ๋์ค์ ์ค๋ช ํ๊ฒ ์ต๋๋ค).
oc create sa spark -n {project}
oc adm policy add-scc-to-user anyuid -z spark -n {project}
์์ฑ๋ ์๋น์ค ๊ณ์ ๊ณผ Docker ์ด๋ฏธ์ง๋ฅผ ์ง์ ํ์ฌ Spark-submit ๋ช ๋ น์ ์คํํ์ฌ OKD ํด๋ฌ์คํฐ์ Spark ์์ ์ ๊ฒ์ํด ๋ณด๊ฒ ์ต๋๋ค.
/opt/spark/bin/spark-submit --name spark-test --class org.apache.spark.examples.SparkPi --conf spark.executor.instances=3 --conf spark.kubernetes.authenticate.driver.serviceAccountName=spark --conf spark.kubernetes.namespace={project} --conf spark.submit.deployMode=cluster --conf spark.kubernetes.container.image={docker-registry-url}/{repo}/{image-name}:{tag} --conf spark.master=k8s://https://{OKD-API-URL} local:///opt/spark/examples/target/scala-2.11/jars/spark-examples_2.11-2.4.5.jar
ะะดะตัั :
โname โ Kubernetes ํฌ๋ ์ด๋ฆ ํ์ฑ์ ์ฐธ์ฌํ ์์ ์ ์ด๋ฆ์ ๋๋ค.
โclass โ ์์ ์ด ์์๋ ๋ ํธ์ถ๋๋ ์คํ ํ์ผ์ ํด๋์ค์ ๋๋ค.
โconf โ Spark ๊ตฌ์ฑ ๋งค๊ฐ๋ณ์;
Spark.executor.instances โ ์คํํ Spark ์คํ๊ธฐ ์์ ๋๋ค.
Spark.kubernetes.authenticate.driver.serviceAccountName - Pod๋ฅผ ์์ํ ๋ ์ฌ์ฉ๋๋ Kubernetes ์๋น์ค ๊ณ์ ์ ์ด๋ฆ์ ๋๋ค(Kubernetes API์ ์ํธ์์ฉํ ๋ ๋ณด์ ์ปจํ ์คํธ ๋ฐ ๊ธฐ๋ฅ์ ์ ์ํ๊ธฐ ์ํด).
Spark.kubernetes.namespace โ ๋๋ผ์ด๋ฒ ๋ฐ ์คํ๊ธฐ ํฌ๋๊ฐ ์์๋ Kubernetes ๋ค์์คํ์ด์ค์ ๋๋ค.
Spark.submit.deployMode โ Spark ์์ ๋ฐฉ๋ฒ(ํ์ค Spark-์ ์ถ์ ๊ฒฝ์ฐ "ํด๋ฌ์คํฐ"๊ฐ ์ฌ์ฉ๋๋ฉฐ Spark Operator ๋ฐ ์ดํ ๋ฒ์ ์ Spark "ํด๋ผ์ด์ธํธ"์๋)
Spark.kubernetes.container.image - ํฌ๋๋ฅผ ์์ํ๋ ๋ฐ ์ฌ์ฉ๋๋ Docker ์ด๋ฏธ์ง์ ๋๋ค.
Spark.master โ Kubernetes API URL(์ธ๋ถ๋ ๋ก์ปฌ ์์คํ ์์ ์ก์ธ์ค๊ฐ ๋ฐ์ํ๋๋ก ์ง์ ๋จ)
local://์ Docker ์ด๋ฏธ์ง ๋ด๋ถ์ Spark ์คํ ํ์ผ์ ๋ํ ๊ฒฝ๋ก์ ๋๋ค.
ํด๋น OKD ํ๋ก์ ํธ๋ก ์ด๋ํ์ฌ ์์ฑ๋ Pod(https://{OKD-WEBUI-URL}/console/project/{project}/browse/pods)๋ฅผ ์ฐ๊ตฌํฉ๋๋ค.
๊ฐ๋ฐ ํ๋ก์ธ์ค๋ฅผ ๋จ์ํํ๊ธฐ ์ํด Spark์ ๊ณตํต ๊ธฐ๋ณธ ์ด๋ฏธ์ง๊ฐ ์์ฑ๋๊ณ , ์คํํ ๋ชจ๋ ์์ ์์ ์ฌ์ฉ๋๋ฉฐ, ์คํ ํ์ผ์ ์ค๋ ์ท์ด ์ธ๋ถ ์ ์ฅ์(์: Hadoop)์ ๊ฒ์๋๊ณ ํธ์ถ ์ ์ง์ ๋๋ ๋ ๋ค๋ฅธ ์ต์ ์ ์ฌ์ฉํ ์ ์์ต๋๋ค. ๋งํฌ๋ก ์คํํฌ ์ ์ถ. ์ด ๊ฒฝ์ฐ WebHDFS ๋ฑ์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง๋ฅผ ๊ฒ์ํ๋ ๋ฑ Docker ์ด๋ฏธ์ง๋ฅผ ๋ค์ ๋น๋ํ์ง ์๊ณ ๋ ๋ค์ํ ๋ฒ์ ์ Spark ์์ ์ ์คํํ ์ ์์ต๋๋ค. ํ์ผ ์์ฑ ์์ฒญ์ ๋ณด๋ ๋๋ค. ์ฌ๊ธฐ์ {host}๋ WebHDFS ์๋น์ค์ ํธ์คํธ์ด๊ณ , {port}๋ WebHDFS ์๋น์ค์ ํฌํธ์ด๊ณ , {path-to-file-on-hdfs}๋ ์ํ๋ ํ์ผ ๊ฒฝ๋ก์ ๋๋ค. HDFS์์):
curl -i -X PUT "http://{host}:{port}/webhdfs/v1/{path-to-file-on-hdfs}?op=CREATE
๋ค์๊ณผ ๊ฐ์ ์๋ต์ ๋ฐ๊ฒ ๋ฉ๋๋ค(์ฌ๊ธฐ์ {location}์ ํ์ผ์ ๋ค์ด๋ก๋ํ๋ ๋ฐ ์ฌ์ฉํด์ผ ํ๋ URL์ ๋๋ค).
HTTP/1.1 307 TEMPORARY_REDIRECT
Location: {location}
Content-Length: 0
Spark ์คํ ํ์ผ์ HDFS์ ๋ก๋ํฉ๋๋ค(์ฌ๊ธฐ์ {path-to-local-file}์ ํ์ฌ ํธ์คํธ์ Spark ์คํ ํ์ผ์ ๋ํ ๊ฒฝ๋ก์ ๋๋ค).
curl -i -X PUT -T {path-to-local-file} "{location}"
๊ทธ๋ฐ ๋ค์ HDFS์ ์ ๋ก๋๋ Spark ํ์ผ์ ์ฌ์ฉํ์ฌ Spark ์ ์ถ์ ์ํํ ์ ์์ต๋๋ค(์ฌ๊ธฐ์ {class-name}์ ์์ ์ ์๋ฃํ๊ธฐ ์ํด ์์ํด์ผ ํ๋ ํด๋์ค์ ์ด๋ฆ์ ๋๋ค).
/opt/spark/bin/spark-submit --name spark-test --class {class-name} --conf spark.executor.instances=3 --conf spark.kubernetes.authenticate.driver.serviceAccountName=spark --conf spark.kubernetes.namespace={project} --conf spark.submit.deployMode=cluster --conf spark.kubernetes.container.image={docker-registry-url}/{repo}/{image-name}:{tag} --conf spark.master=k8s://https://{OKD-API-URL} hdfs://{host}:{port}/{path-to-file-on-hdfs}
HDFS์ ์ก์ธ์คํ๊ณ ์์ ์ด ์๋ํ๋์ง ํ์ธํ๋ ค๋ฉด Dockerfile ๋ฐ Entrypoint.sh ์คํฌ๋ฆฝํธ๋ฅผ ๋ณ๊ฒฝํด์ผ ํ ์๋ ์์ต๋๋ค. Dockerfile์ ์ง์๋ฌธ์ ์ถ๊ฐํ์ฌ ์ข ์ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ /opt/spark/jars ๋๋ ํฐ๋ฆฌ์ ๋ณต์ฌํ๊ณ ์ง์ ์ ์ SPARK_CLASSPATH์ HDFS ๊ตฌ์ฑ ํ์ผ์ ํฌํจํฉ๋๋ค.sh.
๋ ๋ฒ์งธ ์ฌ์ฉ ์ฌ๋ก - Apache Livy
๋ํ ์์ ์ด ๊ฐ๋ฐ๋๊ณ ๊ฒฐ๊ณผ๋ฅผ ํ ์คํธํด์ผ ํ๋ ๊ฒฝ์ฐ ์ด๋ฅผ CI/CD ํ๋ก์ธ์ค์ ์ผ๋ถ๋ก ์์ํ๊ณ ์คํ ์ํ๋ฅผ ์ถ์ ํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํฉ๋๋ค. ๋ฌผ๋ก ๋ก์ปฌ ์คํํฌ ์ ์ถ ํธ์ถ์ ์ฌ์ฉํ์ฌ ์คํํ ์ ์์ง๋ง CI ์๋ฒ ์์ด์ ํธ/์คํ๊ธฐ์ Spark๋ฅผ ์ค์น ๋ฐ ๊ตฌ์ฑํ๊ณ Kubernetes API์ ๋ํ ์ก์ธ์ค๋ฅผ ์ค์ ํด์ผ ํ๋ฏ๋ก CI/CD ์ธํ๋ผ๊ฐ ๋ณต์กํด์ง๋๋ค. ์ด ๊ฒฝ์ฐ ๋์ ๊ตฌํ์์๋ Kubernetes ํด๋ฌ์คํฐ ๋ด์์ ํธ์คํ ๋๋ Spark ์์ ์ ์คํํ๊ธฐ ์ํ REST API๋ก Apache Livy๋ฅผ ์ฌ์ฉํ๋๋ก ์ ํํ์ต๋๋ค. ๋์์ ๋ฐ์ผ๋ฉด CI ์๋ฃจ์ ์ ๊ธฐ๋ฐ์ผ๋ก ์ฝ๊ฒ ๊ตฌํ๋๋ ์ผ๋ฐ cURL ์์ฒญ์ ์ฌ์ฉํ์ฌ Kubernetes ํด๋ฌ์คํฐ์์ Spark ์์ ์ ์คํํ ์ ์์ผ๋ฉฐ Kubernetes ํด๋ฌ์คํฐ ๋ด๋ถ์ ๋ฐฐ์นํ๋ฉด Kubernetes API์ ์ํธ ์์ฉํ ๋ ์ธ์ฆ ๋ฌธ์ ๊ฐ ํด๊ฒฐ๋ฉ๋๋ค.
ํ
์คํธ ๋ฃจํ์ Kubernetes ํด๋ฌ์คํฐ์์ CI/CD ํ๋ก์ธ์ค์ ์ผ๋ถ๋ก Spark ์์
์ ์คํํ๋ ๋ ๋ฒ์งธ ์ฌ์ฉ ์ฌ๋ก๋ก ๊ฐ์กฐํ๊ฒ ์ต๋๋ค.
Apache Livy์ ๋ํ ์ ๋ณด - ํ์ํ ๋งค๊ฐ๋ณ์๋ฅผ ์ ๋ฌํ์ฌ ์๊ฒฉ์ผ๋ก ์คํํฌ ์ ์ถ์ ์์ํ ์ ์๋ ์น ์ธํฐํ์ด์ค์ RESTful API๋ฅผ ์ ๊ณตํ๋ HTTP ์๋ฒ๋ก ์๋ํฉ๋๋ค. ์ ํต์ ์ผ๋ก HDP ๋ฐฐํฌ์ ์ผ๋ถ๋ก ์ ๊ณต๋์์ง๋ง ์ ์ ํ ๋งค๋ํ์คํธ์ ๋ค์๊ณผ ๊ฐ์ Docker ์ด๋ฏธ์ง ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ OKD ๋๋ ๋ค๋ฅธ Kubernetes ์ค์น์ ๋ฐฐํฌํ ์๋ ์์ต๋๋ค.
FROM java:8-alpine
ENV SPARK_HOME=/opt/spark
ENV LIVY_HOME=/opt/livy
ENV HADOOP_CONF_DIR=/etc/hadoop/conf
ENV SPARK_USER=spark
WORKDIR /opt
RUN apk add --update openssl wget bash &&
wget -P /opt https://downloads.apache.org/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz &&
tar xvzf spark-2.4.5-bin-hadoop2.7.tgz &&
rm spark-2.4.5-bin-hadoop2.7.tgz &&
ln -s /opt/spark-2.4.5-bin-hadoop2.7 /opt/spark
RUN wget http://mirror.its.dal.ca/apache/incubator/livy/0.7.0-incubating/apache-livy-0.7.0-incubating-bin.zip &&
unzip apache-livy-0.7.0-incubating-bin.zip &&
rm apache-livy-0.7.0-incubating-bin.zip &&
ln -s /opt/apache-livy-0.7.0-incubating-bin /opt/livy &&
mkdir /var/log/livy &&
ln -s /var/log/livy /opt/livy/logs &&
cp /opt/livy/conf/log4j.properties.template /opt/livy/conf/log4j.properties
ADD livy.conf /opt/livy/conf
ADD spark-defaults.conf /opt/spark/conf/spark-defaults.conf
ADD entrypoint.sh /entrypoint.sh
ENV PATH="/opt/livy/bin:${PATH}"
EXPOSE 8998
ENTRYPOINT ["/entrypoint.sh"]
CMD ["livy-server"]
์์ฑ๋ ์ด๋ฏธ์ง๋ฅผ ๋น๋ํ๊ณ ๋ด๋ถ OKD ์ ์ฅ์์ ๊ฐ์ ๊ธฐ์กด Docker ์ ์ฅ์์ ์ ๋ก๋ํ ์ ์์ต๋๋ค. ๋ฐฐํฌํ๋ ค๋ฉด ๋ค์ ๋งค๋ํ์คํธ({registry-url} - Docker ์ด๋ฏธ์ง ๋ ์ง์คํธ๋ฆฌ์ URL, {image-name} - Docker ์ด๋ฏธ์ง ์ด๋ฆ, {tag} - Docker ์ด๋ฏธ์ง ํ๊ทธ, {livy-url} - ์ํ๋ URL์ ์ฌ์ฉํ์ธ์. ์๋ฒ๋ Livy์ ์ก์ธ์คํ ์ ์์ต๋๋ค. Red Hat OpenShift๊ฐ Kubernetes ๋ฐฐํฌ๋ก ์ฌ์ฉ๋๋ ๊ฒฝ์ฐ "๊ฒฝ๋ก" ๋งค๋ํ์คํธ๊ฐ ์ฌ์ฉ๋๊ณ , ๊ทธ๋ ์ง ์์ ๊ฒฝ์ฐ NodePort ์ ํ์ ํด๋น Ingress ๋๋ ์๋น์ค ๋งค๋ํ์คํธ๊ฐ ์ฌ์ฉ๋ฉ๋๋ค.
---
apiVersion: apps/v1
kind: Deployment
metadata:
labels:
component: livy
name: livy
spec:
progressDeadlineSeconds: 600
replicas: 1
revisionHistoryLimit: 10
selector:
matchLabels:
component: livy
strategy:
rollingUpdate:
maxSurge: 25%
maxUnavailable: 25%
type: RollingUpdate
template:
metadata:
creationTimestamp: null
labels:
component: livy
spec:
containers:
- command:
- livy-server
env:
- name: K8S_API_HOST
value: localhost
- name: SPARK_KUBERNETES_IMAGE
value: 'gnut3ll4/spark:v1.0.14'
image: '{registry-url}/{image-name}:{tag}'
imagePullPolicy: Always
name: livy
ports:
- containerPort: 8998
name: livy-rest
protocol: TCP
resources: {}
terminationMessagePath: /dev/termination-log
terminationMessagePolicy: File
volumeMounts:
- mountPath: /var/log/livy
name: livy-log
- mountPath: /opt/.livy-sessions/
name: livy-sessions
- mountPath: /opt/livy/conf/livy.conf
name: livy-config
subPath: livy.conf
- mountPath: /opt/spark/conf/spark-defaults.conf
name: spark-config
subPath: spark-defaults.conf
- command:
- /usr/local/bin/kubectl
- proxy
- '--port'
- '8443'
image: 'gnut3ll4/kubectl-sidecar:latest'
imagePullPolicy: Always
name: kubectl
ports:
- containerPort: 8443
name: k8s-api
protocol: TCP
resources: {}
terminationMessagePath: /dev/termination-log
terminationMessagePolicy: File
dnsPolicy: ClusterFirst
restartPolicy: Always
schedulerName: default-scheduler
securityContext: {}
serviceAccount: spark
serviceAccountName: spark
terminationGracePeriodSeconds: 30
volumes:
- emptyDir: {}
name: livy-log
- emptyDir: {}
name: livy-sessions
- configMap:
defaultMode: 420
items:
- key: livy.conf
path: livy.conf
name: livy-config
name: livy-config
- configMap:
defaultMode: 420
items:
- key: spark-defaults.conf
path: spark-defaults.conf
name: livy-config
name: spark-config
---
apiVersion: v1
kind: ConfigMap
metadata:
name: livy-config
data:
livy.conf: |-
livy.spark.deploy-mode=cluster
livy.file.local-dir-whitelist=/opt/.livy-sessions/
livy.spark.master=k8s://http://localhost:8443
livy.server.session.state-retain.sec = 8h
spark-defaults.conf: 'spark.kubernetes.container.image "gnut3ll4/spark:v1.0.14"'
---
apiVersion: v1
kind: Service
metadata:
labels:
app: livy
name: livy
spec:
ports:
- name: livy-rest
port: 8998
protocol: TCP
targetPort: 8998
selector:
component: livy
sessionAffinity: None
type: ClusterIP
---
apiVersion: route.openshift.io/v1
kind: Route
metadata:
labels:
app: livy
name: livy
spec:
host: {livy-url}
port:
targetPort: livy-rest
to:
kind: Service
name: livy
weight: 100
wildcardPolicy: None
์ด๋ฅผ ์ ์ฉํ๊ณ ํฌ๋๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์คํํ ํ http://{livy-url}/ui ๋งํฌ์์ Livy ๊ทธ๋ํฝ ์ธํฐํ์ด์ค๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค. Livy๋ฅผ ์ฌ์ฉํ๋ฉด Postman ๋ฑ์ REST ์์ฒญ์ ์ฌ์ฉํ์ฌ Spark ์์ ์ ๊ฒ์ํ ์ ์์ต๋๋ค. ์์ฒญ์ด ํฌํจ๋ ์ปฌ๋ ์ ์ ์๊ฐ ์๋์ ๋์ ์์ต๋๋ค(์คํ๋ ์์ ์ ์๋์ ํ์ํ ๋ณ์๊ฐ ํฌํจ๋ ๊ตฌ์ฑ ์ธ์๋ "args" ๋ฐฐ์ด๋ก ์ ๋ฌ๋ ์ ์์).
{
"info": {
"_postman_id": "be135198-d2ff-47b6-a33e-0d27b9dba4c8",
"name": "Spark Livy",
"schema": "https://schema.getpostman.com/json/collection/v2.1.0/collection.json"
},
"item": [
{
"name": "1 Submit job with jar",
"request": {
"method": "POST",
"header": [
{
"key": "Content-Type",
"value": "application/json"
}
],
"body": {
"mode": "raw",
"raw": "{nt"file": "local:///opt/spark/examples/target/scala-2.11/jars/spark-examples_2.11-2.4.5.jar", nt"className": "org.apache.spark.examples.SparkPi",nt"numExecutors":1,nt"name": "spark-test-1",nt"conf": {ntt"spark.jars.ivy": "/tmp/.ivy",ntt"spark.kubernetes.authenticate.driver.serviceAccountName": "spark",ntt"spark.kubernetes.namespace": "{project}",ntt"spark.kubernetes.container.image": "{docker-registry-url}/{repo}/{image-name}:{tag}"nt}n}"
},
"url": {
"raw": "http://{livy-url}/batches",
"protocol": "http",
"host": [
"{livy-url}"
],
"path": [
"batches"
]
}
},
"response": []
},
{
"name": "2 Submit job without jar",
"request": {
"method": "POST",
"header": [
{
"key": "Content-Type",
"value": "application/json"
}
],
"body": {
"mode": "raw",
"raw": "{nt"file": "hdfs://{host}:{port}/{path-to-file-on-hdfs}", nt"className": "{class-name}",nt"numExecutors":1,nt"name": "spark-test-2",nt"proxyUser": "0",nt"conf": {ntt"spark.jars.ivy": "/tmp/.ivy",ntt"spark.kubernetes.authenticate.driver.serviceAccountName": "spark",ntt"spark.kubernetes.namespace": "{project}",ntt"spark.kubernetes.container.image": "{docker-registry-url}/{repo}/{image-name}:{tag}"nt},nt"args": [ntt"HADOOP_CONF_DIR=/opt/spark/hadoop-conf",ntt"MASTER=k8s://https://kubernetes.default.svc:8443"nt]n}"
},
"url": {
"raw": "http://{livy-url}/batches",
"protocol": "http",
"host": [
"{livy-url}"
],
"path": [
"batches"
]
}
},
"response": []
}
],
"event": [
{
"listen": "prerequest",
"script": {
"id": "41bea1d0-278c-40c9-ad42-bf2e6268897d",
"type": "text/javascript",
"exec": [
""
]
}
},
{
"listen": "test",
"script": {
"id": "3cdd7736-a885-4a2d-9668-bd75798f4560",
"type": "text/javascript",
"exec": [
""
]
}
}
],
"protocolProfileBehavior": {}
}
์ปฌ๋ ์ ์ ์ฒซ ๋ฒ์งธ ์์ฒญ์ ์คํํ๊ณ OKD ์ธํฐํ์ด์ค๋ก ์ด๋ํ์ฌ ์์ ์ด ์ฑ๊ณต์ ์ผ๋ก ์์๋์๋์ง ํ์ธํฉ๋๋ค(https://{OKD-WEBUI-URL}/console/project/{project}/browse/pods). ๋์์ Livy ์ธํฐํ์ด์ค(http://{livy-url}/ui)์ ์ธ์ ์ด ํ์๋ฉ๋๋ค. ์ด ์ธ์ ์์ Livy API ๋๋ ๊ทธ๋ํฝ ์ธํฐํ์ด์ค๋ฅผ ์ฌ์ฉํ์ฌ ์์ ์งํ ์ํฉ์ ์ถ์ ํ๊ณ ์ธ์ ์ ์ฐ๊ตฌํ ์ ์์ต๋๋ค. ๋ก๊ทธ.
์ด์ Livy๊ฐ ์ด๋ป๊ฒ ์๋ํ๋์ง ๋ณด์ฌ๋๋ฆฌ๊ฒ ์ต๋๋ค. ์ด๋ฅผ ์ํด Livy ์๋ฒ(https://{OKD-WEBUI-URL}/console/project/{project}/browse/pods/{livy-pod-name)๋ฅผ ์ฌ์ฉํ์ฌ ํฌ๋ ๋ด๋ถ์ Livy ์ปจํ ์ด๋ ๋ก๊ทธ๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค. }?ํญ=๋ก๊ทธ. ์ฌ๊ธฐ์์ "livy"๋ผ๋ ์ปจํ ์ด๋์์ Livy REST API๋ฅผ ํธ์ถํ๋ฉด ์์์ ์ฌ์ฉํ ๊ฒ๊ณผ ์ ์ฌํ Spark-submit์ด ์คํ๋๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค(์ฌ๊ธฐ์ {livy-pod-name}์ ์์ฑ๋ ํฌ๋์ ์ด๋ฆ์ ๋๋ค) Livy ์๋ฒ์ ํจ๊ป). ์ด ์ปฌ๋ ์ ์๋ Livy ์๋ฒ๋ฅผ ์ฌ์ฉํ์ฌ Spark ์คํ ํ์ผ์ ์๊ฒฉ์ผ๋ก ํธ์คํ ํ๋ ์์ ์ ์คํํ ์ ์๋ ๋ ๋ฒ์งธ ์ฟผ๋ฆฌ๋ ๋์ ๋์์ต๋๋ค.
์ธ ๋ฒ์งธ ์ฌ์ฉ ์ฌ๋ก - Spark Operator
์ด์ ์์ ์ด ํ ์คํธ๋์์ผ๋ฏ๋ก ์ ๊ธฐ์ ์ผ๋ก ์คํํด์ผ ํ๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํฉ๋๋ค. Kubernetes ํด๋ฌ์คํฐ์์ ์ ๊ธฐ์ ์ผ๋ก ์์ ์ ์คํํ๋ ๊ธฐ๋ณธ ๋ฐฉ๋ฒ์ CronJob ์ํฐํฐ์ด๋ฉฐ ์ด๋ฅผ ์ฌ์ฉํ ์ ์์ง๋ง ํ์ฌ Kubernetes์์ ์ ํ๋ฆฌ์ผ์ด์ ์ ๊ด๋ฆฌํ๊ธฐ ์ํด ์ฐ์ฐ์๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ๋งค์ฐ ์ธ๊ธฐ๊ฐ ์์ผ๋ฉฐ Spark์ ๊ฒฝ์ฐ ์๋นํ ์ฑ์ํ ์ฐ์ฐ์๋ ์์ต๋๋ค. ์ํฐํ๋ผ์ด์ฆ ์์ค ์๋ฃจ์ (์: Lightbend FastData Platform)์ ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข์ต๋๋ค. Spark์ ํ์ฌ ์์ ๋ฒ์ (2.4.5)์ Kubernetes์์ Spark ์์ ์ ์คํํ๊ธฐ ์ํ ๊ตฌ์ฑ ์ต์ ์ด ๋ค์ ์ ํ๋์ด ์๋ ๋ฐ๋ฉด, ๋ค์ ์ฃผ์ ๋ฒ์ (3.0.0)์ Kubernetes์ ๋ํ ์์ ํ ์ง์์ ์ ์ธํ์ง๋ง ์ถ์ ๋ ์ง๋ ์์ง ์๋ ค์ง์ง ์์์ต๋๋ค. . Spark Operator๋ ์ค์ํ ๊ตฌ์ฑ ์ต์ (์: Hadoop ์ก์ธ์ค ๊ตฌ์ฑ์ด ํฌํจ๋ ConfigMap์ Spark ํฌ๋์ ํ์ฌ)๊ณผ ์ ๊ธฐ์ ์ผ๋ก ์์ฝ๋ ์์ ์ ์คํํ๋ ๊ธฐ๋ฅ์ ์ถ๊ฐํ์ฌ ์ด๋ฌํ ๋จ์ ์ ๋ณด์ํฉ๋๋ค.
์ด๋ฅผ ์ธ ๋ฒ์งธ ์ฌ์ฉ ์ฌ๋ก๋ก ๊ฐ์กฐํ๊ฒ ์ต๋๋ค. ์ฆ, ํ๋ก๋์
๋ฃจํ์ Kubernetes ํด๋ฌ์คํฐ์์ Spark ์์
์ ์ ๊ธฐ์ ์ผ๋ก ์คํํ๋ ๊ฒ์
๋๋ค.
Spark Operator๋ ์คํ ์์ค์ด๋ฉฐ Google Cloud Platform ๋ด์์ ๊ฐ๋ฐ๋์์ต๋๋ค.
- Lightbend FastData Platform/Cloudflow ์ค์น์ ์ผ๋ถ๋ก,
- ํฌ๊ตฌ ์ฌ์ฉ:
helm repo add incubator http://storage.googleapis.com/kubernetes-charts-incubator helm install incubator/sparkoperator --namespace spark-operator
- ๊ณต์ ์ ์ฅ์(https://github.com/GoogleCloudPlatform/spark-on-k8s-operator/tree/master/manifest)์ ๋งค๋ํ์คํธ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๋ค์ ์ฌํญ์ ์ฃผ๋ชฉํ ๊ฐ์น๊ฐ ์์ต๋๋ค. Cloudflow์๋ API ๋ฒ์ v1beta1์ ์ฐ์ฐ์๊ฐ ํฌํจ๋์ด ์์ต๋๋ค. ์ด๋ฌํ ์ ํ์ ์ค์น๋ฅผ ์ฌ์ฉํ๋ ๊ฒฝ์ฐ Spark ์ ํ๋ฆฌ์ผ์ด์
๋งค๋ํ์คํธ ์ค๋ช
์ ์ ์ ํ API ๋ฒ์ ์ด ํฌํจ๋ Git์ ์์ ํ๊ทธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํด์ผ ํฉ๋๋ค(์: "v1beta1-0.9.0-2.4.0"). ์ฐ์ฐ์ ๋ฒ์ ์ "๋ฒ์ " ์ฌ์ ์ ์ฐ์ฐ์์ ํฌํจ๋ CRD ์ค๋ช
์์ ์ฐพ์ ์ ์์ต๋๋ค.
oc get crd sparkapplications.sparkoperator.k8s.io -o yaml
Operator๊ฐ ์ฌ๋ฐ๋ฅด๊ฒ ์ค์น๋ ๊ฒฝ์ฐ Spark Operator๊ฐ ํฌํจ๋ ํ์ฑ ํฌ๋๊ฐ ํด๋น ํ๋ก์ ํธ์ ํ์๋๊ณ (์: Cloudflow ์ค์น๋ฅผ ์ํ Cloudflow ๊ณต๊ฐ์ cloudflow-fdp-sparkoperator) "sparkapplications"๋ผ๋ ํด๋น Kubernetes ๋ฆฌ์์ค ์ ํ์ด ํ์๋ฉ๋๋ค. . ๋ค์ ๋ช ๋ น์ ์ฌ์ฉํ์ฌ ์ฌ์ฉ ๊ฐ๋ฅํ Spark ์ ํ๋ฆฌ์ผ์ด์ ์ ํ์ํ ์ ์์ต๋๋ค.
oc get sparkapplications -n {project}
Spark Operator๋ฅผ ์ฌ์ฉํ์ฌ ์์ ์ ์คํํ๋ ค๋ฉด ๋ค์ 3๊ฐ์ง ์์ ์ ์ํํด์ผ ํฉ๋๋ค.
- ํ์ํ ๋ชจ๋ ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๊ตฌ์ฑ ๋ฐ ์คํ ํ์ผ์ด ํฌํจ๋ Docker ์ด๋ฏธ์ง๋ฅผ ๋ง๋ญ๋๋ค. ๋์ ์ฌ์ง์ CI/CD ๋จ๊ณ์์ ์์ฑ๋์ด ํ ์คํธ ํด๋ฌ์คํฐ์์ ํ ์คํธ๋ ์ด๋ฏธ์ง์ ๋๋ค.
- Kubernetes ํด๋ฌ์คํฐ์์ ์ก์ธ์คํ ์ ์๋ ๋ ์ง์คํธ๋ฆฌ์ Docker ์ด๋ฏธ์ง๋ฅผ ๊ฒ์ํฉ๋๋ค.
- "SparkApplication" ์ ํ๊ณผ ์์ํ ์์
์ ๋ํ ์ค๋ช
์ ์ฌ์ฉํ์ฌ ๋งค๋ํ์คํธ๋ฅผ ์์ฑํฉ๋๋ค. ์์ ๋งค๋ํ์คํธ๋ ๊ณต์ ์ ์ฅ์(์:
github.com/GoogleCloudPlatform/spark-on-k8s-operator/blob/v1beta1-0.9.0-2.4.0/examples/spark-pi.yaml ). ์ ์ธ๋ฌธ์ ๊ดํด ์ฃผ๋ชฉํด์ผ ํ ์ค์ํ ์ฌํญ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.- "apiVersion" ์ฌ์ ์ ์ฐ์ฐ์ ๋ฒ์ ์ ํด๋นํ๋ API ๋ฒ์ ์ ๋ํ๋ด์ผ ํฉ๋๋ค.
- "metadata.namespace" ์ฌ์ ์ ์ ํ๋ฆฌ์ผ์ด์ ์ด ์์๋ ๋ค์์คํ์ด์ค๋ฅผ ๋ํ๋ด์ผ ํฉ๋๋ค.
- โspec.imageโ ์ฌ์ ์๋ ์ก์ธ์ค ๊ฐ๋ฅํ ๋ ์ง์คํธ๋ฆฌ์ ์์ฑ๋ Docker ์ด๋ฏธ์ง์ ์ฃผ์๊ฐ ํฌํจ๋์ด์ผ ํฉ๋๋ค.
- "spec.mainClass" ์ฌ์ ์๋ ํ๋ก์ธ์ค๊ฐ ์์๋ ๋ ์คํ๋์ด์ผ ํ๋ Spark ์์ ํด๋์ค๊ฐ ํฌํจ๋์ด์ผ ํฉ๋๋ค.
- โspec.mainApplicationFileโ ์ฌ์ ์๋ ์คํ ๊ฐ๋ฅํ jar ํ์ผ์ ๋ํ ๊ฒฝ๋ก๊ฐ ํฌํจ๋์ด์ผ ํฉ๋๋ค.
- โspec.sparkVersionโ ์ฌ์ ์ ์ฌ์ฉ ์ค์ธ Spark ๋ฒ์ ์ ๋ํ๋ด์ผ ํฉ๋๋ค.
- "spec.driver.serviceAccount" ์ฌ์ ์ ์ ํ๋ฆฌ์ผ์ด์ ์ ์คํํ๋ ๋ฐ ์ฌ์ฉ๋ ํด๋น Kubernetes ๋ค์์คํ์ด์ค ๋ด์ ์๋น์ค ๊ณ์ ์ ์ง์ ํด์ผ ํฉ๋๋ค.
- โspec.executorโ ์ฌ์ ์ ์ ํ๋ฆฌ์ผ์ด์ ์ ํ ๋น๋ ๋ฆฌ์์ค ์๋ฅผ ๋ํ๋ด์ผ ํฉ๋๋ค.
- "spec.volumeMounts" ์ฌ์ ์ ๋ก์ปฌ Spark ์์ ํ์ผ์ด ์์ฑ๋ ๋ก์ปฌ ๋๋ ํฐ๋ฆฌ๋ฅผ ์ง์ ํด์ผ ํฉ๋๋ค.
๋งค๋ํ์คํธ ์์ฑ์ ์(์ฌ๊ธฐ์ {spark-service-account}๋ Spark ์์ ์ ์คํํ๊ธฐ ์ํ Kubernetes ํด๋ฌ์คํฐ ๋ด๋ถ์ ์๋น์ค ๊ณ์ ์ ๋๋ค):
apiVersion: "sparkoperator.k8s.io/v1beta1"
kind: SparkApplication
metadata:
name: spark-pi
namespace: {project}
spec:
type: Scala
mode: cluster
image: "gcr.io/spark-operator/spark:v2.4.0"
imagePullPolicy: Always
mainClass: org.apache.spark.examples.SparkPi
mainApplicationFile: "local:///opt/spark/examples/jars/spark-examples_2.11-2.4.0.jar"
sparkVersion: "2.4.0"
restartPolicy:
type: Never
volumes:
- name: "test-volume"
hostPath:
path: "/tmp"
type: Directory
driver:
cores: 0.1
coreLimit: "200m"
memory: "512m"
labels:
version: 2.4.0
serviceAccount: {spark-service-account}
volumeMounts:
- name: "test-volume"
mountPath: "/tmp"
executor:
cores: 1
instances: 1
memory: "512m"
labels:
version: 2.4.0
volumeMounts:
- name: "test-volume"
mountPath: "/tmp"
์ด ๋งค๋ํ์คํธ๋ ๋งค๋ํ์คํธ๋ฅผ ๊ฒ์ํ๊ธฐ ์ ์ Spark ์ ํ๋ฆฌ์ผ์ด์ ์ด Kubernetes API์ ์ํธ ์์ฉํ๋ ๋ฐ ํ์ํ ์ก์ธ์ค ๊ถํ์ ์ ๊ณตํ๋ ํ์ ์ญํ ๋ฐ์ธ๋ฉ์ ์์ฑํด์ผ ํ๋ ์๋น์ค ๊ณ์ ์ ์ง์ ํฉ๋๋ค(ํ์ํ ๊ฒฝ์ฐ). ์ฐ๋ฆฌ์ ๊ฒฝ์ฐ ์ ํ๋ฆฌ์ผ์ด์ ์๋ Pod๋ฅผ ์์ฑํ ์ ์๋ ๊ถํ์ด ํ์ํฉ๋๋ค. ํ์ํ ์ญํ ๋ฐ์ธ๋ฉ์ ๋ง๋ค์ด ๋ณด๊ฒ ์ต๋๋ค.
oc adm policy add-role-to-user edit system:serviceaccount:{project}:{spark-service-account} -n {project}
๋ํ ์ด ๋งค๋ํ์คํธ ์ฌ์์๋ "hadoopConfigMap" ๋งค๊ฐ๋ณ์๊ฐ ํฌํจ๋ ์ ์๋ค๋ ์ ๋ ์ฃผ๋ชฉํ ๊ฐ์น๊ฐ ์์ต๋๋ค. ์ด๋ฅผ ํตํด Docker ์ด๋ฏธ์ง์ ํด๋น ํ์ผ์ ๋จผ์ ๋ฐฐ์นํ ํ์ ์์ด Hadoop ๊ตฌ์ฑ์ผ๋ก ConfigMap์ ์ง์ ํ ์ ์์ต๋๋ค. ๋ํ ์ ๊ธฐ์ ์ผ๋ก ์์ ์ ์คํํ๋ ๋ฐ์๋ ์ ํฉํฉ๋๋ค. "schedule" ๋งค๊ฐ๋ณ์๋ฅผ ์ฌ์ฉํ๋ฉด ํน์ ์์ ์คํ ์ผ์ ์ ์ง์ ํ ์ ์์ต๋๋ค.
๊ทธ๋ฐ ๋ค์ ๋งค๋ํ์คํธ๋ฅผ Spark-pi.yaml ํ์ผ์ ์ ์ฅํ๊ณ ์ด๋ฅผ Kubernetes ํด๋ฌ์คํฐ์ ์ ์ฉํฉ๋๋ค.
oc apply -f spark-pi.yaml
๊ทธ๋ฌ๋ฉด "sparkapplications" ์ ํ์ ๊ฐ์ฒด๊ฐ ์์ฑ๋ฉ๋๋ค.
oc get sparkapplications -n {project}
> NAME AGE
> spark-pi 22h
์ด ๊ฒฝ์ฐ ์ ํ๋ฆฌ์ผ์ด์ ์ด ํฌํจ๋ ํฌ๋๊ฐ ์์ฑ๋๊ณ ํด๋น ์ํ๋ ์์ฑ๋ โsparkapplicationsโ์ ํ์๋ฉ๋๋ค. ๋ค์ ๋ช ๋ น์ ์ฌ์ฉํ์ฌ ๋ณผ ์ ์์ต๋๋ค.
oc get sparkapplications spark-pi -o yaml -n {project}
์์ ์ด ์๋ฃ๋๋ฉด POD๋ "์๋ฃ" ์ํ๋ก ์ด๋ํ๊ณ "sparkapplications"์์๋ ์ ๋ฐ์ดํธ๋ฉ๋๋ค. ์ ํ๋ฆฌ์ผ์ด์ ๋ก๊ทธ๋ ๋ธ๋ผ์ฐ์ ์์ ๋ณด๊ฑฐ๋ ๋ค์ ๋ช ๋ น์ ์ฌ์ฉํ์ฌ ๋ณผ ์ ์์ต๋๋ค(์ฌ๊ธฐ์ {sparkapplications-pod-name}์ ์คํ ์ค์ธ ์์ ์ Pod ์ด๋ฆ์ ๋๋ค).
oc logs {sparkapplications-pod-name} -n {project}
Spark ์์ ์ ํน์ํ Sparkctl ์ ํธ๋ฆฌํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ด๋ฆฌํ ์๋ ์์ต๋๋ค. ์ค์นํ๋ ค๋ฉด ์์ค ์ฝ๋๋ก ์ ์ฅ์๋ฅผ ๋ณต์ ํ๊ณ Go๋ฅผ ์ค์นํ ํ ๋ค์ ์ ํธ๋ฆฌํฐ๋ฅผ ๋น๋ํ์ธ์.
git clone https://github.com/GoogleCloudPlatform/spark-on-k8s-operator.git
cd spark-on-k8s-operator/
wget https://dl.google.com/go/go1.13.3.linux-amd64.tar.gz
tar -xzf go1.13.3.linux-amd64.tar.gz
sudo mv go /usr/local
mkdir $HOME/Projects
export GOROOT=/usr/local/go
export GOPATH=$HOME/Projects
export PATH=$GOPATH/bin:$GOROOT/bin:$PATH
go -version
cd sparkctl
go build -o sparkctl
sudo mv sparkctl /usr/local/bin
์คํ ์ค์ธ Spark ์์ ๋ชฉ๋ก์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
sparkctl list -n {project}
Spark ์์ ์ ๋ํ ์ค๋ช ์ ์์ฑํด ๋ณด๊ฒ ์ต๋๋ค.
vi spark-app.yaml
apiVersion: "sparkoperator.k8s.io/v1beta1"
kind: SparkApplication
metadata:
name: spark-pi
namespace: {project}
spec:
type: Scala
mode: cluster
image: "gcr.io/spark-operator/spark:v2.4.0"
imagePullPolicy: Always
mainClass: org.apache.spark.examples.SparkPi
mainApplicationFile: "local:///opt/spark/examples/jars/spark-examples_2.11-2.4.0.jar"
sparkVersion: "2.4.0"
restartPolicy:
type: Never
volumes:
- name: "test-volume"
hostPath:
path: "/tmp"
type: Directory
driver:
cores: 1
coreLimit: "1000m"
memory: "512m"
labels:
version: 2.4.0
serviceAccount: spark
volumeMounts:
- name: "test-volume"
mountPath: "/tmp"
executor:
cores: 1
instances: 1
memory: "512m"
labels:
version: 2.4.0
volumeMounts:
- name: "test-volume"
mountPath: "/tmp"
Sparkctl์ ์ฌ์ฉํ์ฌ ์ค๋ช ๋ ์์ ์ ์คํํด ๋ณด๊ฒ ์ต๋๋ค.
sparkctl create spark-app.yaml -n {project}
์คํ ์ค์ธ Spark ์์ ๋ชฉ๋ก์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
sparkctl list -n {project}
์์๋ Spark ์์ ์ ์ด๋ฒคํธ ๋ชฉ๋ก์ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
sparkctl event spark-pi -n {project} -f
์คํ ์ค์ธ Spark ์์ ์ ์ํ๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค.
sparkctl status spark-pi -n {project}
๊ฒฐ๋ก ์ ์ผ๋ก, Kubernetes์์ Spark์ ํ์ฌ ์์ ๋ฒ์ (2.4.5)์ ์ฌ์ฉํ ๋ ๋ฐ๊ฒฌ๋ ๋จ์ ์ ๊ณ ๋ คํ๊ณ ์ถ์ต๋๋ค.
- ์ฒซ ๋ฒ์งธ์ด์ ์๋ง๋ ์ฃผ์ ๋จ์ ์ ๋ฐ์ดํฐ ์ง์ญ์ฑ์ด ๋ถ์กฑํ๋ค๋ ๊ฒ์ ๋๋ค. YARN์ ๋ชจ๋ ๋จ์ ์๋ ๋ถ๊ตฌํ๊ณ ์ด๋ฅผ ์ฌ์ฉํ๋ฉด ์ฅ์ ๋ ์์์ต๋๋ค. ์๋ฅผ ๋ค์ด ๋ฐ์ดํฐ๋ฅผ ์ฝ๋๋ก ์ ๋ฌํ๋ ๊ฒ์ด ์๋๋ผ ์ฝ๋๋ฅผ ๋ฐ์ดํฐ๋ก ์ ๋ฌํ๋ ์๋ฆฌ๊ฐ ์์ต๋๋ค. ๋๋ถ์ ๊ณ์ฐ์ ๊ด๋ จ๋ ๋ฐ์ดํฐ๊ฐ ์์นํ ๋ ธ๋์์ Spark ์์ ์ด ์คํ๋์๊ณ , ๋คํธ์ํฌ๋ฅผ ํตํด ๋ฐ์ดํฐ๋ฅผ ์ ๋ฌํ๋ ๋ฐ ๊ฑธ๋ฆฌ๋ ์๊ฐ์ด ํฌ๊ฒ ๋จ์ถ๋์์ต๋๋ค. Kubernetes๋ฅผ ์ฌ์ฉํ ๋ ์์ ๊ณผ ๊ด๋ จ๋ ๋ฐ์ดํฐ๋ฅผ ๋คํธ์ํฌ๋ฅผ ํตํด ์ด๋ํด์ผ ํ๋ ํ์์ฑ์ ์ง๋ฉดํฉ๋๋ค. ํฌ๊ธฐ๊ฐ ์ถฉ๋ถํ ํฌ๋ฉด ์์ ์คํ ์๊ฐ์ด ํฌ๊ฒ ๋์ด๋ ์ ์์ผ๋ฉฐ ์์ ์ ์ฅ์ ์ํด Spark ์์ ์ธ์คํด์ค์ ํ ๋น๋ ์๋นํ ๋ง์ ์์ ๋์คํฌ ๊ณต๊ฐ์ด ํ์ํ ์๋ ์์ต๋๋ค. ์ด๋ฌํ ๋จ์ ์ Kubernetes์์ ๋ฐ์ดํฐ ์ง์ญ์ฑ์ ๋ณด์ฅํ๋ ํน์ ์ํํธ์จ์ด(์: Alluxio)๋ฅผ ์ฌ์ฉํ์ฌ ์ํํ ์ ์์ง๋ง ์ด๋ ์ค์ ๋ก Kubernetes ํด๋ฌ์คํฐ์ ๋ ธ๋์ ๋ฐ์ดํฐ์ ์ ์ฒด ๋ณต์ฌ๋ณธ์ ์ ์ฅํด์ผ ํจ์ ์๋ฏธํฉ๋๋ค.
- ๋ ๋ฒ์งธ ์ค์ํ ๋จ์ ์ ๋ณด์์ ๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก Spark ์์ ์คํ๊ณผ ๊ด๋ จ๋ ๋ณด์ ๊ด๋ จ ๊ธฐ๋ฅ์ ๋นํ์ฑํ๋์ด ์์ผ๋ฉฐ Kerberos ์ฌ์ฉ์ ๊ณต์ ๋ฌธ์์์ ๋ค๋ฃจ์ง ์์ต๋๋ค(ํด๋น ์ต์ ์ ๋ฒ์ 3.0.0์ ๋์ ๋์ด ์ถ๊ฐ ์์ ์ด ํ์ํจ). Spark(https://spark.apache.org/docs/2.4.5/security.html)๋ฅผ ์ฌ์ฉํ๋ฉด YARN, Mesos ๋ฐ Standalone Cluster๋ง ํค ์ ์ฅ์๋ก ๋ํ๋ฉ๋๋ค. ๋์์ Spark ์์ ์ด ์์๋๋ ์ฌ์ฉ์๋ฅผ ์ง์ ์ง์ ํ ์๋ ์์ต๋๋ค. ์์ ํ ์๋น์ค ๊ณ์ ๋ง ์ง์ ํ๊ณ ๊ตฌ์ฑ๋ ๋ณด์ ์ ์ฑ ์ ๋ฐ๋ผ ์ฌ์ฉ์๋ฅผ ์ ํํฉ๋๋ค. ์ด๋ฐ ์ ์์ ์์ฐ์ ์ธ ํ๊ฒฝ์์๋ ์์ ํ์ง ์์ ๋ฃจํธ ์ฌ์ฉ์๋ฅผ ์ฌ์ฉํ๊ฑฐ๋ ๋ฐ์ดํฐ์ ๋ํ ์ ๊ทผ๊ถํ์ ๋ถ๋ฐฐํ ๋ ๋ถํธํ ์์์ UID๋ฅผ ๊ฐ์ง ์ฌ์ฉ์๋ฅผ ์ฌ์ฉํฉ๋๋ค(์ด๋ PodSecurityPolicy๋ฅผ ์์ฑํ๊ณ ์ด๋ฅผ ํด๋น ์๋น์ค ๊ณ์ ). ํ์ฌ ํด๊ฒฐ์ฑ ์ ํ์ํ ๋ชจ๋ ํ์ผ์ Docker ์ด๋ฏธ์ง์ ์ง์ ๋ฐฐ์นํ๊ฑฐ๋ ์กฐ์ง์์ ์ฑํํ ๋น๋ฐ์ ์ ์ฅํ๊ณ ๊ฒ์ํ๋ ๋ฉ์ปค๋์ฆ์ ์ฌ์ฉํ๋๋ก Spark ์์ ์คํฌ๋ฆฝํธ๋ฅผ ์์ ํ๋ ๊ฒ์ ๋๋ค.
- Kubernetes๋ฅผ ์ฌ์ฉํ์ฌ Spark ์์ ์ ์คํํ๋ ๊ฒ์ ๊ณต์์ ์ผ๋ก ์์ง ์คํ ๋ชจ๋์ ์์ผ๋ฉฐ ์์ผ๋ก ์ฌ์ฉ๋๋ ์ํฐํฉํธ(๊ตฌ์ฑ ํ์ผ, Docker ๊ธฐ๋ณธ ์ด๋ฏธ์ง ๋ฐ ์์ ์คํฌ๋ฆฝํธ)์ ์๋นํ ๋ณ๊ฒฝ์ด ์์ ์ ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ค์ ๋ก ์๋ฃ๋ฅผ ์ค๋นํ ๋ ๋ฒ์ 2.3.0๊ณผ 2.4.5๋ฅผ ํ ์คํธํ๋๋ฐ ๋์์ด ํฌ๊ฒ ๋ฌ๋์ต๋๋ค.
์ ๋ฐ์ดํธ๋ฅผ ๊ธฐ๋ค๋ฆฌ๊ฒ ์ต๋๋ค. Spark์ ์ ๋ฒ์ (3.0.0)์ด ์ต๊ทผ ์ถ์๋์์ต๋๋ค. ์ด๋ Kubernetes์์ Spark ์์ ์ ์๋นํ ๋ณํ๋ฅผ ๊ฐ์ ธ์์ง๋ง ์ด ๋ฆฌ์์ค ๊ด๋ฆฌ์์ ๋ํ ์ง์์ ์คํ์ ์ํ๋ ์ ์งํ์ต๋๋ค. ์๋ง๋ ๋ค์ ์ ๋ฐ์ดํธ์์๋ ์์คํ ๋ณด์์ ๋ํ ๋๋ ค์์ด๋ ๊ธฐ๋ฅ ๊ตฌ์ฑ ์์๋ฅผ ๋ ๋ฆฝ์ ์ผ๋ก ์์ ํ ํ์ ์์ด YARN์ ํฌ๊ธฐํ๊ณ Kubernetes์์ Spark ์์ ์ ์คํํ๋๋ก ์์ ํ ๊ถ์ฅํ ์ ์๊ฒ ๋ ๊ฒ์ ๋๋ค.
์ง๋๋ฌ๋ฏธ.
์ถ์ฒ : habr.com