-
데이터 분석은 유용한 정보를 발굴하고 결론 내용을 알리며 의사결정을 지원하는 것을 목표로 데이터를 정리, 변환, 모델링하는 과정이다.
-
- 디지털 환경에서 발생하는 대량의 모든 데이터
- 기존 데이터베이스 관리 도구의 능력을 넘어서 데이터에서 가치를 추출하고 결과를 분석하는 기술
- 빅데이터 플랫폼을 구성하는 하드웨어, 소프트웨어, 애플리케이션 간의 유기적 순환에 의해 가치를 창출
빅데이터 분석은 대량의 데이터분석을 통해 일반적으로는 볼 수 없었던 새로운 사실, 패턴 법칙을 발견하여 새로운 비즈니스 가치를 창출하는 기법이다.
-
-
분석 기획(Planning) -> 데이터 준비(Preparing) -> 데이터 분석(Analyzing) -> 시스템 구현(Developing) -> 평가 및 전개(Deploying) 필요할 경우 데이터 분석에서 -> 데이터 준비 로 돌아감 필요할 경우 데이터 분석에서 -> 평가 및 전개로 바로 감
-
수학의 한 부문으로, 사회 현상을 통계에 의하여 관찰·연구하는 학문. 집단에 관한 자료를 정리하여 그 특징을 나타내는 여러 가지 수치를 산출하고 그 자료가 가리키는 것을 알려고 하는 기술 통계학과 집단의 상태를 그로부터 추출한 표본에서 수리적으로 추측하는 추측 통계학으로 나뉨.
-
- 주어진 자료에서 합계나 평균과 같이 필요한 정보를 계산하는 등 자료를 수집·정리·요약하는 통계 기법
- 평균, 표준편차, 중위수, 최빈값, 그래프, 왜도, 첨도 등을 구하는 것을 의미한다.
- 분석의 초기 단계에서 데이터 분포의 특징을 파악하려는 목적으로 주로 산출한다.
-
기술 통계학에서의 데이터는 양적 자료와 질적 자료로 나뉨.
-
양적 자료 : 자료 그 자체가 숫자와 일대일로 대응
연속형 자료(Continuous Data) : 일정구간의 실수 값을 모두 취할 수 있는 자료 이산형 자료(Discrete Data) : 정수 값을 취하는 자료
-
질적 자료
명목형 자료(Nominal Data) : 구분을 위해 숫자를 대응 시킨 자료 ex) 예) 남 → 1, 여 → 0 순서형 자료(Ordinal Data) : 범주들이 순서의 개념을 가지는 자료 ex) 상 > 중 > 하 : 1, 2, 3 또는 3, 2, 1
-
-
(1)기초 통계량
-
평균(Mean)
- 자료를 모두 더한 후 자료 개수로 나눈 값이다. - 전부 같은 가중치를 두지만 이상 값에 민감한 단점이 있다
-
중위수(Median)
- 모든 데이터 값을 크기 순서로 오름차순 정렬하였을 때 중앙에 위치한 데이터 값으로 중앙값이라고도 한다. - 특이값에 영향을 받지 않는다. - 데이터값의 수가 홀수일 경우에는 중위수가 하나가 되지만 데이턱밧의 수가 짝수일 경우에는 중앙에 위치한 두개의 값을 평균으로 하여 중위수를 구한다.
-
최빈값(Mode)
- 데이터 값중에서 빈도수가 가장 높은 데이터 값이다.
-
-
-
수집된 자료를 이용해 대상 집단(모집단)에 대한 의사결정을 하는 것으로, Sample(표본)을 통해 모집단을 추정하는 통계 기법
-
기술 통계를 활용한 추론이 이루어짐
-
모수 추정(Estimation), 가설검정, 예측이 여기에 속함
모수추정 : 표본 집단으로부터 모집단의 특성인 모수(평균, 분산 등)를 분석하여 모집단을 추론한다. 가설검정 : 대상 집단에 대해 특정한 가설을 설정한 후에 그 가설이 옳은지 그른지에 대한 채택여부를 결정하는 방법론 예측 : 미래의 불확실성을 해결해 효율적인 의사결정을 하기 위해 활용한다.(예: 회귀분석, 시계열 분석등의 방법이 있다)
-
-
-
EDA(Exploratory Data Analysis)란 데이터분석의 첫번째 단계로,
데이터의 특징과 데이터에 내재된 관계를 알아내기 위해 그래프와 통계적 분석 방법을 활용하여 데이터를 탐구하는 것이다.
분석하고자 하는 자료들의 유형과 범위, 수준을 확인하고, 단독으로 혹은 여러 변수를 함께 사용하여 그 분포와 의미를 고찰한다.
분석 목적을 달성하기 위한 알고리즘을 결정하기 전 데이터를 전처리하는 방법과 적합한 알고리즘을 결정하기 위한 자료로 사용된다.-
- 저항성의 강조 : 이상치등 부분적 변동에 대한 민감성 확인
- 잔차계산 : 관찰 값들이 주 경향에서 벗어난 정도 파악
- 자료변수의 재표현 : 변수를 적당한 척도로 바꾸는 것
- 그래프를 통한 현시성 : 분석 결과를 이해하기 쉽게 시각화하는 것
-