□ PyTorch & PySpark
- PyTorch 는 딥러닝 모델 개발에 특화된 라이브러리
- PySpark 는 빅데이터를 분산 환경에서 처리하기 위한 도구
| 구분 | PyTorch | PySpark |
| 주요 목적 | 딥러닝 모델 개발 및 훈련 | 빅데이터 처리 및 분석 |
| 핵심 기능 | GPU 가속 텐서 연산, 동적 계산 그래프 | 분산 컴퓨팅, 대규모 데이터셋 처리 |
| 데이터 크기 | 단일 장비 메모리에 로드될 수 있는 데이터 | 메모리를 초과하는 초대규모 데이터셋 |
| 처리 방식 | 주로 단일 노드(Node)에서 훈련 및 추론 | 여러 컴퓨터 클러스터에 분산하여 병렬 처리 |
| 사용자 | 딥러닝 연구원, AI 개발자 | 데이터 엔지니어, 빅데이터 분석가 |
(*출처 : 구글 제미나이)
□ PyTorch & PySpark 사용
예를 들어, 수십억 개의 이미지를 분류하는 프로젝트를 실행한다고 가정한다면,
- PySpark 로 수십억 개의 이미지를 분산 환경에서 읽어와 크기를 조정하거나 정규화 등의 전처리 작업 수행
- PyTorch 로 전처리된 데이터를 사용해 이미지 분류를 위한 딥러닝 모델 훈
'DataAnalytics > Python' 카테고리의 다른 글
| [Python] NumPy 난수 생성 함수 (0) | 2025.10.02 |
|---|---|
| [Python] 조건 관련 메서드 (0) | 2025.10.01 |
| [Python] df.clip() / np.clip / torch.clamp() (0) | 2025.10.01 |
| [Python] 매직 명령어 : %%, % (0) | 2025.09.28 |