Skip to content

Latest commit

 

History

History
94 lines (58 loc) · 5.41 KB

readme13.md

File metadata and controls

94 lines (58 loc) · 5.41 KB

Python

[ 2022-10-26 ]

목차


  • 인공지능

    인공지능과 머신러닝의 관계

    인공지능은 인간의 지능을 모방하여 사람이 하는 일을 컴퓨터(기계)가 할 수 있도록 하는 기술이다.   
    인공지능을 구현하는 방법으로 머신러닝이 있는 것이다.  
    

    image11111

  • 머신러닝의 목적

    분류목적: 레코드의 특정 속성의 값이 범주형으로 정해져 있으며 데이터의 실체가 어떤 그룹에 속하는지 예측하는 기법

    수치예측 : ex) 회귀분석

    • 지도 학습(Supervised Learning)

      지도 학습(Supervised Learning)이란 간단히 말해 선생님이 문제를 내고 그 다음 바로 정답까지 같이 알려주는 방식의 학습 방법이다.  
      즉, 여러 문제와 답을 같이 학습함으로써 미지의 문제에 대한 올바른 답을 예측하고자 하는 방법이다.  
      
      예를 들어, “장미꽃이 찍혀 있는 이미지 데이터”에 레이블로 “해당 장미꽃의 품종을 나타내는 텍스트“를 함께 입력하여 학습기를 지도 학습시키면,   
      다른 장미꽃이 찍힌 새로운 이미지를 받았을 때 해당 장미꽃의 품종이 무엇인지를 예측할 수 있게 되는 것이다.  
      
    • 비지도학습(Supervised Learning)

      선생님이 문제와 함께 정답(레이블)까지 알려주는 지도 학습과는 달리 
      비지도 학습(Unsupervised Learning)은 문제는 알려주되 정답까지는 알려주지 않는 학습 방식이다.   
        
      즉, 여러 문제를 학습함으로써 해당 데이터의 패턴, 특성 및 구조를 스스로 파악하여, 이를 통해 새로운 데이터에서 일정한 규칙성을 찾는 방법이다.  
      비지도 학습은 구체적인 결과에 대한 사전 지식은 없지만 해당 결과 데이터를 통해 유의미한 지식을 얻고자 할 때 사용되며,   
      사람도 제대로 알 수 없는 본질적인 문제나 데이터에 숨겨진 특징이나 구조 등을 연구할 때 많이 활용된다.  
      
      머신러닝에서 비지도 학습을 위한 모델로는 군집화(clustering)가 대표적이다.  
      

    비교적 한마디로 정리하자면 대량의 주어짂 데이터의 패턴, 규칙 찾아(fitting=학습)내어 예측한다고 볼 수 있다.

  • 오분류표(Confusion Matrix)

    image11111111

  • 의사결정트리

    의사결정트리(Decision Tree)란?

    • 분류 함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법으로, 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있다.

    • 의사결정트리는 일련의 분류 규칙을 통해 데이터를 분류, 회귀하는 지도 학습 모델 중 하나이며, 결과 모델이 Tree 구조를 가지고 있기 때문에 Decision Tree라는 이름을 가진다.

    아래 그림을 보면 더 쉽게 이해가 가능하다.

    image1111111111

    • 위 그림은 대표적인 의사결정트리의 예시로서, 타이타닉호의 탑승객의 생존여부를 나타내고 있다.

    • 이렇게 특정 기준(질문)에 따라 데이터를 구분하는 모델을 의사 결정 트리 모델이라고 한다.

    • 한번의 분기 때마다 변수 영역을 두 개로 구분한다.

    • 결정 트리에서 질문이나 정답은 노드(Node)라고 불린다.

      • 맨 처음 분류 기준을 Root Node라고 하고
      • 중간 분류 기준을 Intermediate Node
      • 맨 마지막 노드를 Terminal Node 혹은 Leaf Node라고 한다.
      • 결정 트리의 기본 아이디어는, Leaf Node가 가장 섞이지 않은 상태로 완전히 분류되는 것, 즉 복잡성(entropy)이 낮도록 만드는 것이다.
    • 불순도 (Impurity)

      위의 그림처럼 결정트리에서 분기기준을 선택하기 위해서는 불순도(impurity)라는 개념을 사용한다.

      • 복잡성을 의미하며, 해당 범주 안에 서로 다른 데이터가 얼마나 섞여 있는지를 뜻한다.
      • 다양한 개체들이 섞여 있을수록 불순도가 높아진다.

      분기기준 설정 시 현재노드의 불순도에 비해 자식노드의 불순도가 감소되도록 설정해야하며,
      현재 노드의 불순도와 자식노드의 불순도 차이를 Information Gain(정보 획득)이라고 한다.

      불순도를 수치적으로 나타낼 수 있는 대표적인 불순도 함수는 지니 지수와 엔트로피 지수, 두가지가 있다.