pandas4 Pandas 데이터 전처리 Series와 DataFrame의 이해 및 활용법 Pandas는 Python에서 데이터 분석 및 조작을 위한 강력한 라이브러리입니다. 데이터 과학자, 분석가, 엔지니어들이 데이터를 효과적으로 처리하고 분석하는 데 널리 사용됩니다. Pandas는 특히 테이블 형식의 데이터를 다루는 데 유용하며, 엑셀 스프레드시트와 유사한 방식으로 데이터를 조작할 수 있습니다.Pandas의 핵심 개념SeriesPandas의 가장 기본적인 데이터 구조입니다. Series는 일련의 데이터를 담는 1차원 배열로, 각 데이터에 인덱스(레이블)가 붙어 있습니다.예를 들어, 날짜별 주가 데이터가 Series에 저장될 수 있습니다.import pandas as pd# 간단한 Series 예제data = pd.Series([10, 20, 30, 40], index=['2024-08-01.. 2024. 11. 17. Orbit API 시각적 워크플로우 통한 보안 이벤트 모니터링 및 분석 자동화 Orbit API는 데이터를 수집하고 분석하기 위한 API로, 여러 소스에서 데이터를 통합하고 이를 분석할 수 있게 해줍니다. Orbit API를 이해하기 위해서는 다음과 같은 개념들을 알아야 합니다.Orbit API 개요Orbit API는 주로 데이터를 수집하고 분석하여 통찰력을 제공하는 데 사용됩니다. 이는 다양한 데이터 소스에서 정보를 가져와 통합하고, 이를 기반으로 유용한 분석 결과를 도출할 수 있게 해줍니다. 예를 들어, Orbit API는 소셜 미디어 활동, 웹사이트 트래픽, 사용자 행동 데이터 등을 수집하여 이를 분석하는 데 유용합니다.주요 기능데이터 수집: Orbit API는 여러 소스에서 데이터를 수집할 수 있습니다. 이는 RESTful API를 통해 이루어지며, JSON 형식으로 데이터.. 2024. 10. 22. 데이터 엔지니어링 엔드투엔드(End-to-End) 프로젝트 기술 스택 개요1. Apache Airflow개요: Apache Airflow는 워크플로우 자동화 및 스케줄링 도구로, 복잡한 데이터 파이프라인을 정의, 스케줄링 및 모니터링할 수 있습니다.활용 예시데이터 파이프라인을 정의하는 DAG(DAG: Directed Acyclic Graph) 생성DAG를 사용한 데이터 처리 작업 스케줄링Airflow UI를 통해 작업 상태 모니터링2. Apache Zookeeper개요: Apache Zookeeper는 분산 시스템을 위한 중앙 집중형 서비스로, 구성 정보를 관리하고, 분산 시스템의 동기화 및 그룹 서비스를 제공합니다.활용 예시Kafka 클러스터 설정 및 관리분산 시스템의 노드 상태 모니터링 및 구성 정보 저장3. Apache Kafka개요: Apache Kafk.. 2024. 7. 29. Jupyter Notebook 한글 Docker 환경 구성 및 테스트 Docker를 사용하여 Jupyter Notebook을 실행하면서 한글 폰트 문제를 해결하는 방법을 확인해 보겠습니다. Dockerfile 작성이 Dockerfile은 jupyter/datascience-notebook:latest 이미지를 기반으로하여 빌드됩니다. 우분투 패키지 소스를 한국 미러로 변경하고, 나눔 폰트를 설치한 다음, 폰트 캐시를 업데이트합니다. 먼저, Jupyter Notebook을 실행할 Docker 이미지를 빌드하기 위한 Dockerfile을 작성해야 합니다. 아래는 Dockerfile의 내용입니다. FROM jupyter/datascience-notebook:latest USER root # Ubuntu 패키지 소스를 한국 미러로 변경 RUN sed -i 's/archive.ub.. 2023. 9. 26. 이전 1 다음 728x90