필수 파이썬 라이브러리
NumPy
NumPy(넘파이)는 Numerial Python의 줄임말로, 파이썬 산술 계산에서 중요 역할을 한다.
-
빠르고 효율적인 다차원 배열 객체 ndarray
-
배열 원소를 다루거나 배열 간의 수학 계산을 수행하는 함수
-
디스크로부터 배열 기반의 데이터를 읽거나 쓸 수 있는 도구
-
선형대수 계산, 푸리에 변환, 난수 생성기
-
파이썬 확장과 C, C++ 코드에서 NumPy의 자료구조에 접근하고 계산 기능을 사용할 수 있도록 해주는 C API
고속 배열 처리, 데이터 분석 알고리즘에 사용할 데이터 컨테이너의 역할.
pandas
판다스는 구조화된 데이터나 표 형식의 데이터를 빠르고 쉽게 다루도록 자료구조와 함수를 제공한다.
주된 자료구조는 표 형태의 row, column 이름을 가지는 DataFrame과 1차열 배열 객체인 Series 가 있다.
pandas는 Numpy의 고성능, 배열 연산에 스프레드시트와 관계형 데이터베이스(SQL같은)의 유연한 데이터 처리 기능을 결합한 것이다.
pandas의 많은 기능은 R 핵심 구현의 일부 또는 애드온 패키지에서 따왔다.
pandas 라는 이름은 다차원으로 구조화된 데이터를 의미하는 panel data와 python data analysis 에서 따온 이름이다.
matplotlib
맷플롭립은 그래프나 2차원 데이터 시각화를 생성하는 라이브러리다.
IPython과 Jupyter
Interactive Python 웹 노트북은 Jupyter Notebbook으로 이름을 바꾸었다.
Kernel(프로그래밍 언어 모드)로 역할을 변경했다.
SciPy
싸이파이는 과학 계산 컴퓨팅 영역의 여러 기본 문제를 다루는 패키지 모음이다.
scikit-learn
사이킷런은 범용 머신러닝 도구로 다음과 같은 하위 모듈을 포함한다.
-
분류 : SVM, 최근접 이웃, 랜덤 포레스트, 로지스틱 회귀
-
회귀 : 라소, 리지 회귀
-
클러스터링 : k-means, 스펙트럴 클러스터링
-
차원 축소 : PCA, 특징 선택, 행렬 인수분해
-
모델 선택 : 격자 탐색, 교차검증, 행렬
-
전처리 : 특징 추출, 정규화
statsmodels
다양한 R 언어용 회귀분석 모델을 구현한 통계분석 패키지다.
전통적인 토계(주로 빈도주의적 접근)와 계량경제학 알고리즘을 포함한다.
다음과 같은 하위모듈을 포함한다.
-
회귀 모델 : 선형회귀, 일반화 선형 모델, 로버스트 선형 모델, 선형 혼합효과 모델
-
분산분석 (ANOVA: analysis of variance)
-
시계열분석 : AR, ARMA, ARIMA, VAR
-
비모수 기법 : 커널밀도추정, 커널회귀
STATSMODELS는 통계추론에 좀 더 초점을 맞추고 있다. 인자를 위한 불확실성 예측치와 p value를 제공한다.
반면 scikit-learn은 예측에 좀 더 초점을 맞추고 있다.
'Python > Basic programming' 카테고리의 다른 글
GITHub push-pull 과정에서 오류 해결 방법 (0) | 2020.01.20 |
---|---|
GIT (0) | 2020.01.20 |
Jupyter Notebook (0) | 2020.01.20 |
마크다운 문법 (0) | 2020.01.20 |
아나콘다 설치 및 설정 (0) | 2020.01.20 |