- 비정형 데이터: 소셜 미디어, 로그파일, 클릭스트림
ERP(Enterprise Resource Planning, 전사적지원관리) 데이터는 정형 데이터이다. - 빅데이터는 컴퓨터 생산 기술의 발달보다 정보통신 기술(인터넷 등)의 발달, 컴퓨터 처리 속도의 성능 향상으로 인하여 전 분야로 확산되었다.
- 빅데이터 개념이 나온 배경은 1980 개인용 컴퓨터라기보다는 1990 인터넷의 확산이 적절하다.
- 자바 개발자는 응용 프로그램 개발을 담당하며, 빅데이터 분석을 위한 인력이 아니다.
- Hive 전문가는 분석용 데이터 소스를 처리한다.
- 빅데이터 분석 시 침착성, 창의성, 논리적 사고가 요구된다.
- 데이터 크기 단위: GB < TB < PB < EB < ZB < YB < BB < GeB
- 빅데이터에서는 제대로 정의된 데이터 모델, 상관관계 분석 미 데이터 처리 절차 등이 반드시 존재한다. (X)
- 수집 기술 중 ETL(Extract, Transform, Loading) : 데이터 공유를 위한 기법으로서 기존의 Legacy 시스템으로부터 데이터를 추출하여 비즈니스 데이터로 변환하고 저장하는 기능을 주로 담당한다. 도메인 생성(X) 도메인 검증(O), 데이터 요약, 논리적 데이터 변환 및 DBMS들 사이의 데이터 변환 기능이 처리된다.
- DB: stored, integrated, shared data
- 정보의 주요 특징: 정확성, 적시성, 관련성, 적당량, 비용가치. 균등성(X)
- 경험을 통해 정보를 통합한 형태 = 지식
- 데이터 확보 계획의 수립 절차: 분석목표 정의 - 요구사항 도출 - 예산안 수립 - 데이터 확보 계획 수립
- 데이터 분석 프로젝트 수행 과정: 분석과제 정의 - 준비 및 탐색 - 모델링 및 검증 - 산출물 정리
- 빅데이터 분석 프로세스: 요구사항 분석 - 모델링 - 검증 및 테스트 - 적용
- 빅데이터 분석을 위한 예산 수립 업무에 포함: 외부 컨설팅 비용(O), 거래처리 시스템 개발 비용(X)
'자격증 > 빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 필기 문제풀이 - 2과목 (0) | 2021.04.17 |
---|