python 데이터 분석 시작하기
26 Jun 2019
파이썬 특징
파이썬은 동시다발적인 멀티스레드를 처리하거나 CPU에 집중된 많은 스레드를 처리하는 애플리케이션에 적합한 언어가 아니다. GIL(global interpreter lock)이 인터프리터가 한 번에 하나의 파이썬 명령만 실행하도록 하기 때문입니다. 네이티브 수준에서 멀티스레드를 활용하는 파이썬 C 확장을 통해 GIL에 구애받지 않고 병렬 코드를 실행할 수 있습니다.
파이썬 라이브러리
NumPy
Numerical Python의 줄임말로, 파이썬 산술 계산에 많이 사용됩니다. 자료구조, 알고리즘 산술 데이터를 다루는 대부분의 과학 계산 애플리케이션에서 필요한 라이브러리를 제공합니다.
Pandas
구조화된 데이터나 표 형식의 데이터를 빠르고 쉽고 표현적으로 다루도록 설계된 고수준의 자료구조와 함수를 제공합니다.
Pandas는 NumPy의 고성능, 배열 연산 아이디어에 스프레드시트와 관계형 데이터베이스의 유연한 데이터 처리 기능을 결합한 것입니다.
matplotlib
그래프나 2차원 데이터 시각화를 생성하는 유명한 파이썬 라이브러리입니다.
IPython과 Jupyter
IPython 대화형/탐색형 컴퓨팅 환경을 지원하는 주피터 오픈소스 프로젝트의 컴포넌트 중 하나입니다.
SciPy
과학 계산 컴퓨팅 영역의 여러 기본 다루는 패키지 모음입니다.
Scikit-learn
머신러닝 도구입니다. 다음과 같은 모델의 하위 모듈을 포함하고 있습니다.
- 분류
- 회귀
- 클러스터링
- 차원 축소
- 모델 선택
- 전처리
statsmodels
Scikit-learn과 비교하여 전통적인 통계와 계량경제학 알고리즘을 포함하고 있습니다. 다음과 같은 하위 모듈을 포함하고 있습니다.
- 회귀 모델
- 분산분석
- 시계열분석
- 비모수 기법
- 통계 모델 결과의 시각화