Spark 에서의 driver 가 무엇이고 어떤 역할을 하는지 간단하게 정리해 보려 한다. Spark 는 기본적으로 분산 처리 프레임워크다. 하지만 분산되지 않는것도 있는데, 그중 하나가 Driver 이다. Spark 애플리케이션에는 반드시 하나의 driver 프로세스가 존재한다. spark-submit 이나 spark-shell 을 실행하면 가장 먼저 driver JVM 이 올라간다. 이 프로세스가 엔지니어가 작성한 main 한수가 실행되는 공간이다. 즉, 엔지니어가 작성한 Spark 코드 자체는 driver 에서 실행된다. driver 의 가장 중요한 역할 중 하나는 작업 계획을 세우는 것이다. RDD나 DataFrame 에 대해 map, filter 같은 연산을 호출하면 즉시 실행되는 것이 아니라..