콘텐츠로 이동

Chapter 15: 3차시 머신러닝, 그 다음은?

한 줄 요약: 3차시 동안 배운 머신러닝의 전체 흐름을 정리하고, 더 넓은 AI 세계로 나아갈 다음 단계를 알아봅니다.


🎯 이 장에서 배우는 것

  • [ ] 3차시 동안 배운 머신러닝 개념들을 체계적으로 정리할 수 있다
  • [ ] 분류, 회귀, 군집의 차이를 명확히 설명할 수 있다
  • [ ] 딥러닝, 자연어처리 등 다음 단계를 이해할 수 있다
  • [ ] 머신러닝 학습을 계속할 구체적인 로드맵을 갖는다

💡 왜 이걸 배우나요?

🎓 3차시의 여정

1차시: "컴퓨터도 배울 수 있구나!" → 규칙 vs 학습의 차이
2차시: "분류, 회귀, 군집... 다 해봤다!" → 핵심 알고리즘 체험
3차시: "이걸로 뭘 만들 수 있지?" → 실전 프로젝트

그리고 지금: "다음은 뭘 배우지?" → 로드맵 정리

축하해! 🎉 정말 대단한 여정을 완주했어.

많은 사람들이 "AI 배우고 싶다"고 말하지만, 실제로 코드를 작성하고 모델을 학습시켜본 사람은 많지 않아. 너는 이미 그걸 해냈어.

하지만 머신러닝의 세계는 정말 넓어. 딥러닝, 자연어처리, 컴퓨터 비전, 강화학습... 앞으로 배울 수 있는 것들이 무궁무진해.

이 장에서는 두 가지를 할 거야: 1. 배운 것 정리 - 흩어진 조각들을 하나의 그림으로 2. 다음 단계 안내 - 어디로 갈지 로드맵 제시


📚 핵심 개념

개념 1: 머신러닝의 전체 지도

3차시 동안 배운 내용을 하나의 지도로 정리해보자.

┌─────────────────────────────────────────────────────────────┐
│                    🗺️ 머신러닝 전체 지도                      │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  ┌─────────────┐                                           │
│  │  문제 정의   │ "무엇을 예측/분류/발견하고 싶은가?"          │
│  └──────┬──────┘                                           │
│         │                                                   │
│         ▼                                                   │
│  ┌─────────────┐                                           │
│  │ 데이터 준비  │ 수집 → 정리 → 탐색 → 전처리                 │
│  └──────┬──────┘                                           │
│         │                                                   │
│         ▼                                                   │
│  ┌─────────────────────────────────────────┐               │
│  │            어떤 문제인가?                  │               │
│  ├─────────────┬─────────────┬─────────────┤               │
│  │    분류     │    회귀     │    군집      │               │
│  │  (카테고리)  │   (숫자)    │  (그룹발견)   │               │
│  │             │             │             │               │
│  │ "A인가 B인가"│"얼마인가"   │"어떤 패턴?"  │               │
│  └──────┬──────┴──────┬──────┴──────┬──────┘               │
│         │             │             │                       │
│         ▼             ▼             ▼                       │
│  ┌─────────────┐                                           │
│  │  모델 학습   │ 훈련 데이터로 패턴 학습                     │
│  └──────┬──────┘                                           │
│         │                                                   │
│         ▼                                                   │
│  ┌─────────────┐                                           │
│  │  모델 평가   │ 테스트 데이터로 성능 확인                   │
│  └──────┬──────┘                                           │
│         │                                                   │
│         ▼                                                   │
│  ┌─────────────┐                                           │
│  │  실전 활용   │ 새로운 데이터에 적용                        │
│  └─────────────┘                                           │
│                                                             │
└─────────────────────────────────────────────────────────────┘

쉽게 말하면: 머신러닝은 "문제 정의 → 데이터 준비 → 유형 선택 → 학습 → 평가 → 활용"의 사이클이야.


개념 2: 지도학습 vs 비지도학습

우리가 배운 것들을 두 가지 카테고리로 나눠볼 수 있어.

┌─────────────────────────────────────────────────────────────┐
│                  머신러닝의 두 가지 접근법                     │
├────────────────────────┬────────────────────────────────────┤
│      지도학습           │         비지도학습                  │
│   (Supervised)         │       (Unsupervised)               │
├────────────────────────┼────────────────────────────────────┤
│                        │                                    │
│  "정답을 알려주며 학습"   │    "정답 없이 패턴 발견"            │
│                        │                                    │
│  👨‍🏫 선생님이 있음       │    🔍 혼자서 탐험                  │
│                        │                                    │
│  ┌──────────────────┐  │  ┌──────────────────────────────┐ │
│  │ 분류 (Classification)│ │  │ 군집 (Clustering)             │ │
│  │ → 카테고리 예측    │  │  │ → 비슷한 것끼리 그룹          │ │
│  │                   │  │  │                              │ │
│  │ 회귀 (Regression) │  │  │ 차원축소 (Dimensionality      │ │
│  │ → 숫자 값 예측    │  │  │  Reduction) → 복잡한 데이터   │ │
│  └──────────────────┘  │  │   단순화 (다음 단계에서!)       │ │
│                        │  └──────────────────────────────┘ │
│  예시:                  │  예시:                            │
│  - 스팸 메일 분류       │  - 고객 세분화                     │
│  - 집값 예측           │  - 추천 시스템                      │
│  - 질병 진단           │  - 이상 탐지                       │
│                        │                                    │
└────────────────────────┴────────────────────────────────────┘

쉽게 말하면: 지도학습은 "정답지를 보며 공부", 비지도학습은 "스스로 규칙 발견"이야.


개념 3: 우리가 배운 알고리즘 정리

┌─────────────────────────────────────────────────────────────┐
│                   📊 알고리즘 총정리                          │
├─────────────────────────────────────────────────────────────┤
│                                                             │
│  🔵 분류 (Classification)                                    │
│  ├── 결정 트리 (Decision Tree)                              │
│  │   → "20 질문 게임"처럼 질문으로 분류                       │
│  │   → 장점: 이해하기 쉬움, 시각화 가능                       │
│  │                                                          │
│  ├── 랜덤 포레스트 (Random Forest)                          │
│  │   → 여러 결정 트리의 "다수결 투표"                         │
│  │   → 장점: 더 정확함, 과적합 방지                          │
│  │                                                          │
│  └── 로지스틱 회귀 (Logistic Regression)                    │
│      → 확률로 분류 (0~100% 스팸일 확률)                      │
│      → 장점: 확률값 제공, 빠름                               │
│                                                             │
│  ────────────────────────────────────────────────────────── │
│                                                             │
│  🔴 회귀 (Regression)                                        │
│  ├── 선형 회귀 (Linear Regression)                          │
│  │   → 데이터에 "최적의 직선" 긋기                           │
│  │   → 장점: 단순함, 해석 쉬움                               │
│  │                                                          │
│  └── 랜덤 포레스트 회귀                                      │
│      → 비선형 관계도 학습 가능                                │
│      → 장점: 복잡한 패턴 포착                                 │
│                                                             │
│  ────────────────────────────────────────────────────────── │
│                                                             │
│  🟢 군집 (Clustering)                                        │
│  └── K-Means                                                │
│      → K개의 중심점을 기준으로 그룹화                         │
│      → 장점: 간단함, 빠름                                    │
│                                                             │
└─────────────────────────────────────────────────────────────┘

개념 4: 평가 지표 총정리

"모델이 잘 작동하는지" 어떻게 알 수 있을까?

``` ┌─────────────────────────────────────────────────────────────┐ │ 📏 평가 지표 총정리 │ ├─────────────────────────────────────────────────────────────┤ │ │ │ 분류 문제용: │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ 정확도 (Accuracy) │ │ │ │ = 전체 중 맞춘 비율 │ │ │ │ → "100개 중 85개 맞춤 = 85%" │ │ │ │ │ │ │ │ 정밀도 (Precision) │ │ │ │ = "양성"이라고 예측한 것 중 실제 양성 비율 │ │ │ │ → "스팸이라고 한 것 중 진짜 스팸" │ │ │ │ │ │ │ │ 재현율 (Recall) │ │ │ │ = 실제 양성 중 양성으로 예측한 비율 │ │ │ │ → "진짜 스팸 중 찾아낸 스팸" │ │ │ │ │ │ │ │ F1 점수 │ │ │ │ = 정밀도와 재현율의 조화 평균 │ │ │ │ → 둘 다 중요할 때 사용 │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ │ 회귀 문제용: │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ MAE (Mean Absolute Error) │ │ │ │ = 예측값과 실제값 차이의 평균 │ │ │ │ → "평균적으로 5만원 정도 틀림" │ │ │ │ │ │ │ │ RMSE (Root Mean Square Error) │ │ │ │ = 큰 오차에 더 가중치를 주는 지표 │ │ │ │ → 큰 실수를 피하고 싶을 때 │ │ │ │ │ │ │ │ R² (결정계수) │ │ │ │ = 모델이 설명하는 변동의 비율 (0~1) │ │ │ │ → "1에 가까울수록 좋음" │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ │ 군집 문제용: │ │ ┌─────────────────────────────────────────────────────┐ │ │ │ 실루엣 점수 (Silhouette Score) │ │ │ │ = 군집이 얼마나 잘 분리되었는지 (-1 ~ 1) │ │ │ │ → "1에 가까울수록 잘 나뉨" │ │ │ │ │ │ │ │ 엘보우 방법 (Elbow Method) │ │ │ │ = 최적의 K(군집 수)를 찾는 방법 │ │ │ │ → 그래프에서 "팔꿈치" 지점 찾기 │ │ │ └─────────────────────────────────────────────────────┘ │ │ │ └─────────────────────