본문 바로가기
DataAnalytics/Python

[Python] PyTorch & PySpark

by NeotenyAn 2025. 10. 1.

□ PyTorch & PySpark

  • PyTorch 는 딥러닝 모델 개발에 특화된 라이브러리
  • PySpark 는 빅데이터를 분산 환경에서 처리하기 위한 도구
구분 PyTorch PySpark
주요 목적 딥러닝 모델 개발 및 훈련 빅데이터 처리 및 분석
핵심 기능 GPU 가속 텐서 연산, 동적 계산 그래프 분산 컴퓨팅, 대규모 데이터셋 처리
데이터 크기 단일 장비 메모리에 로드될 수 있는 데이터 메모리를 초과하는 초대규모 데이터셋
처리 방식 주로 단일 노드(Node)에서 훈련 및 추론 여러 컴퓨터 클러스터에 분산하여 병렬 처리
사용자 딥러닝 연구원, AI 개발자 데이터 엔지니어, 빅데이터 분석가

(*출처 : 구글 제미나이)

 PyTorch & PySpark 사용

예를 들어, 수십억 개의 이미지를 분류하는 프로젝트를 실행한다고 가정한다면,

  • PySpark 로 수십억 개의 이미지를 분산 환경에서 읽어와 크기를 조정하거나 정규화 등의 전처리 작업 수행
  • PyTorch 로 전처리된 데이터를 사용해 이미지 분류를 위한 딥러닝 모델 훈

'DataAnalytics > Python' 카테고리의 다른 글

[Python] NumPy 난수 생성 함수  (0) 2025.10.02
[Python] 조건 관련 메서드  (0) 2025.10.01
[Python] df.clip() / np.clip / torch.clamp()  (0) 2025.10.01
[Python] 매직 명령어 : %%, %  (0) 2025.09.28