dag4 Airflow Serverless 환경에서 Kubernetes 클러스터 이전 가이드 워크플로우 관리 플랫폼인 Apache Airflow를 사용하면서 서버리스 환경에서 Kubernetes(K8S)로 이전하려는 경우가 많습니다. 이전 과정을 이해할 수 있도록 설명하고, 사전에 검토해야 할 사항과 발생할 수 있는 문제들의 해결책을 정리합니다.서버리스 환경의 장점자동 확장: 트래픽이나 작업량 증가에 따라 리소스가 자동으로 확장되어 성능을 유지합니다.관리 부담 감소: 인프라 관리에 드는 시간을 줄이고 애플리케이션 개발과 개선에 집중할 수 있습니다.비용 효율성: 사용한 만큼만 비용을 지불하므로, 리소스 낭비를 최소화하고 비용 관리가 용이합니다.하지만 특정한 요구사항이나 성능 최적화를 위해서는 Kubernetes로 이전하여 더 세밀한 제어와 확장성을 확보해야 할 때가 있습니다.사전 검토 사항 및 고.. 2024. 10. 17. 데이터 엔지니어링 엔드투엔드(End-to-End) 프로젝트 기술 스택 개요1. Apache Airflow개요: Apache Airflow는 워크플로우 자동화 및 스케줄링 도구로, 복잡한 데이터 파이프라인을 정의, 스케줄링 및 모니터링할 수 있습니다.활용 예시데이터 파이프라인을 정의하는 DAG(DAG: Directed Acyclic Graph) 생성DAG를 사용한 데이터 처리 작업 스케줄링Airflow UI를 통해 작업 상태 모니터링2. Apache Zookeeper개요: Apache Zookeeper는 분산 시스템을 위한 중앙 집중형 서비스로, 구성 정보를 관리하고, 분산 시스템의 동기화 및 그룹 서비스를 제공합니다.활용 예시Kafka 클러스터 설정 및 관리분산 시스템의 노드 상태 모니터링 및 구성 정보 저장3. Apache Kafka개요: Apache Kafk.. 2024. 7. 29. Airflow Workflow 관리 고도화 및 문제 대응 기술적인 전략과 노하우 Apache Airflow를 통한 데이터 파이프라인 관리는 고도의 기술적 이해와 운영 노하우를 요구합니다. 실제 운영 과정에서 발견되는 다양한 문제들에 대한 체계적이고 실용적인 대응 방안은 시스템의 안정성을 보장하고, 효율적인 운영을 가능하게 합니다. 아래는 Airflow 운영을 고도화하고, 주요 문제에 대응하는 방안에 대한 종합적인 유형입니다. Airflow 운영 고도화 및 문제 대응 전략 1. 리소스 관리 최적화 동적 리소스 할당: Airflow의 동적 리소스 할당 기능을 활용하여, 실행 중인 Task의 수와 유형에 따라 필요한 리소스를 동적으로 할당합니다. 이를 위해 KubernetesExecutor를 사용하면, 각 Task에 필요한 CPU와 메모리를 Task 정의 시 지정할 수 있습니다. Airf.. 2024. 4. 11. Apache Airflow 워크플로우 자동화 및 관리 시스템 Apache Airflow는 워크플로우를 작성, 예약 및 모니터링하기 쉽게 하는 오픈 소스 워크플로우 관리 시스템입니다. Airflow는 작업을 자동화하고 예약하며 종속성을 가진 작업을 연결하는 데 사용할 수 있는 워크플로우 오케스트레이터 및 스케줄러입니다. 워크플로우는 시작부터 끝까지의 연산 순서로, Airflow에서는 일반 Python 프로그래밍을 사용하여 Directed Acyclic Graphs (DAG)로 작성됩니다. DAG가 언제 실행을 시작하고 종료해야 하는지 구성할 수 있으며 매우 직관적인 Airflow UI를 통해 워크플로우 모니터링을 설정할 수 있습니다. Airflow를 쉽게 사용할 수 있으며 기본적인 Python 지식만 필요하므로 빠르게 시작할 수 있습니다. 또한 완전히 오픈 소스입니.. 2023. 11. 4. 이전 1 다음 728x90