본문 바로가기

DataAnalytics/Python

[Python] PyTorch & PySpark

by NeotenyAn 2025. 10. 1.

□ PyTorch & PySpark

PyTorch 는 딥러닝 모델 개발에 특화된 라이브러리
PySpark 는 빅데이터를 분산 환경에서 처리하기 위한 도구

구분	PyTorch	PySpark
주요 목적	딥러닝 모델 개발 및 훈련	빅데이터 처리 및 분석
핵심 기능	GPU 가속 텐서 연산, 동적 계산 그래프	분산 컴퓨팅, 대규모 데이터셋 처리
데이터 크기	단일 장비 메모리에 로드될 수 있는 데이터	메모리를 초과하는 초대규모 데이터셋
처리 방식	주로 단일 노드(Node)에서 훈련 및 추론	여러 컴퓨터 클러스터에 분산하여 병렬 처리
사용자	딥러닝 연구원, AI 개발자	데이터 엔지니어, 빅데이터 분석가

(*출처 : 구글 제미나이)

□ PyTorch & PySpark 사용

예를 들어, 수십억 개의 이미지를 분류하는 프로젝트를 실행한다고 가정한다면,

PySpark 로 수십억 개의 이미지를 분산 환경에서 읽어와 크기를 조정하거나 정규화 등의 전처리 작업 수행
PyTorch 로 전처리된 데이터를 사용해 이미지 분류를 위한 딥러닝 모델 훈

저작자표시 비영리 변경금지 (새창열림)

'DataAnalytics > Python' 카테고리의 다른 글

[Python] NumPy 난수 생성 함수 (0)	2025.10.02
[Python] 조건 관련 메서드 (0)	2025.10.01
[Python] df.clip() / np.clip / torch.clamp() (0)	2025.10.01
[Python] 매직 명령어 : %%, % (0)	2025.09.28

티스토리툴바