본문 바로가기

pyspark2

Pandas 데이터 전처리 Series와 DataFrame의 이해 및 활용법 Pandas는 Python에서 데이터 분석 및 조작을 위한 강력한 라이브러리입니다. 데이터 과학자, 분석가, 엔지니어들이 데이터를 효과적으로 처리하고 분석하는 데 널리 사용됩니다. Pandas는 특히 테이블 형식의 데이터를 다루는 데 유용하며, 엑셀 스프레드시트와 유사한 방식으로 데이터를 조작할 수 있습니다.Pandas의 핵심 개념SeriesPandas의 가장 기본적인 데이터 구조입니다. Series는 일련의 데이터를 담는 1차원 배열로, 각 데이터에 인덱스(레이블)가 붙어 있습니다.예를 들어, 날짜별 주가 데이터가 Series에 저장될 수 있습니다.import pandas as pd# 간단한 Series 예제data = pd.Series([10, 20, 30, 40], index=['2024-08-01.. 2024. 11. 17.
데이터 엔지니어링 엔드투엔드(End-to-End) 프로젝트 기술 스택 개요1. Apache Airflow개요: Apache Airflow는 워크플로우 자동화 및 스케줄링 도구로, 복잡한 데이터 파이프라인을 정의, 스케줄링 및 모니터링할 수 있습니다.활용 예시데이터 파이프라인을 정의하는 DAG(DAG: Directed Acyclic Graph) 생성DAG를 사용한 데이터 처리 작업 스케줄링Airflow UI를 통해 작업 상태 모니터링2. Apache Zookeeper개요: Apache Zookeeper는 분산 시스템을 위한 중앙 집중형 서비스로, 구성 정보를 관리하고, 분산 시스템의 동기화 및 그룹 서비스를 제공합니다.활용 예시Kafka 클러스터 설정 및 관리분산 시스템의 노드 상태 모니터링 및 구성 정보 저장3. Apache Kafka개요: Apache Kafk.. 2024. 7. 29.
728x90