AI/Machine Learning 9

비지도학습과 차원 축소

비지도학습과 차원 축소: 데이터의 핵심만 남기기데이터가 많으면 많을수록 좋을까? 정답은 "아니요"다. 변수(Feature)가 너무 많아지면 오히려 모델이 길을 잃는 '차원의 저주'에 빠지게 된다. 오늘은 이 저주를 풀기 위한 차원 축소 기법과 정답 없이 학습하는 비지도학습의 정수를 정리해 본다.1. 비지도 학습: 정답 없이 묶어보기 (Clustering)정답(y)이 없을 때 데이터끼리의 유사성만으로 그룹을 묶는 방법이다.1) K-평균 (K-Means)데이터를 K개의 군집으로 묶는다.최적의 K 찾기: * 엘보우(Elbow) 방법: 군집 내 오차가 급격히 줄어들다가 완만해지는 '팔꿈치' 지점을 찾는다.실루엣 점수 (Silhouette Score): 군집 안에서는 얼마나 가깝고, 다른 군집과는 얼마나 먼지를 ..

AI/Machine Learning 2025.06.25

앙상블 학습 (Ensemble)

강력한 집단지성의 힘머신러닝 프로젝트를 하다 보면 하나의 모델만으로는 성능이 정체되는 순간이 옵니다. 이때 필요한 것이 바로 **앙상블(Ensemble)**입니다. "백지장도 맞들면 낫다"는 말처럼, 여러 개의 약한 모델을 결합해 하나의 강력한 모델을 만드는 기법을 파헤쳐 보겠습니다.1. 앙상블의 뿌리: 결정 트리 (Decision Tree)앙상블의 가장 기본이 되는 부품은 결정 트리입니다.구조: 루프 노드에서 시작해 특정 기준(Feature)으로 데이터를 스무고개하듯 나눕니다.원리: 자식 노드가 더 순수(Pure)해지도록 재귀적으로 분기합니다. 이때 **지니 불순도(Gini)**나 **엔트로피(Entropy)**가 낮아지는 방향을 선택합니다.불순도 지표:엔트로피(Entropy): 정보 이론에서 데이터의..

AI/Machine Learning 2025.06.24

과적합과 규제 (L1/L2)

과적합과 규제: 모델의 고집을 꺾고 일반화 성능 높이기머신러닝과 딥러닝 모델의 실력은 단순히 '정확도'로만 판단할 수 없다. 훈련 데이터에서는 100점인데 실제 데이터에서는 0점을 맞는다면, 그 모델은 학습을 한 것이 아니라 데이터를 '외워버린' 것이다. 오늘은 이런 과적합(Overfitting)을 막기 위한 강력한 제동 장치, 규제(Regularization) 기법들을 정리해 본다.1. 과소적합 vs 과적합 (Underfitting vs Overfitting)모델이 학습할 때 빠질 수 있는 두 가지 함정이 있다.과소적합 (Underfitting): 공부를 너무 안 한 상태. 모델이 너무 단순해서 데이터의 기본 패턴조차 파악하지 못한다. 훈련 점수도 낮고 테스트 점수도 낮다.과적합 (Overfitting..

AI/Machine Learning 2025.06.23

평가지표와 통계적 판단

내 모델은 정말 '진짜'일까?모델을 학습시켰다면 이제 점수를 매길 차례입니다. 하지만 시험 성적이 좋다고 해서 반드시 실무에서 잘하는 것은 아닙니다. 데이터의 결측치를 어떻게 메웠는지, 불균형한 상황에서 어떤 지표를 선택했는지에 따라 모델의 신뢰도가 결정됩니다.1. 분류 모델의 성적표: 혼동 행렬(Confusion Matrix)불균형 데이터(Imbalance Class) 문제를 해결하려면 단순 정확도(Accuracy) 너머의 지표를 봐야 합니다.지표설명비유정밀도(Precision)모델이 '참'이라 예측한 것 중 실제 '참'인 비율스팸 메일 분류 (중요 메일을 스팸으로 걸러내면 안 됨)재현율(Recall)실제 '참'인 것 중 모델이 '참'이라 맞춘 비율암 진단 (실제 환자를 놓치면 치명적임)F1-Score..

AI/Machine Learning 2025.06.22

전처리와 분석

데이터 전처리와 특징 공학: 모델의 성능을 멱살 잡고 하드캐리하기알고리즘이 '두뇌'라면, 데이터는 '체력'이다. 아무리 똑똑한 알고리즘도 부실한 데이터를 만나면 제 실력을 발휘하지 못한다. 오늘은 데이터를 탐색하고(EDA), 다듬고, 새로운 가치를 창조하는(Feature Engineering) 과정을 정리해 본다.1. EDA (탐색적 데이터 분석): 데이터와 낯가림 없애기본격적으로 모델을 돌리기 전, 데이터의 신상 정보를 파악하는 과정이다.변수 분포 확인: 데이터가 정규 분포를 따르는가? 아니면 한쪽으로 치우쳐 있는가? (필요시 로그 변환 등을 통해 대칭으로 만든다.)이상치(Outlier) 탐지: 말도 안 되게 크거나 작은 값이 있는가? 이를 제거할지, 상한선을 둘지 결정해야 한다.결측치(Missing ..

AI/Machine Learning 2025.06.21

경사하강법 (최적화)

경사하강법과 최적화: 모델의 지능을 결정하는 한 끗 차이모델을 만드는 것보다 중요한 것은 모델을 '최적화(Optimization)'하는 것이다. 오늘은 모델이 스스로 답을 찾는 원리인 경사하강법과, 그 과정을 더 똑똑하게 만드는 하이퍼파라미터 튜닝 기법들을 정리해 본다.1. 모델의 부품과 환경 설정 (Parameter vs Hyperparameter)본격적인 최적화에 앞서, 우리가 건드리는 두 가지 '값'의 차이를 명확히 해야 한다.파라미터 (Parameter): 모델 내부에 존재하며 데이터에 의해 스스로 학습되는 값. (예: 선형 회귀의 가중치 w와 절편 b)하이퍼파라미터 (Hyperparameter): 모델이 잘 학습할 수 있도록 사람이 밖에서 설정해주는 값. (예: 학습률, KNN의 k값, 훈련 횟..

AI/Machine Learning 2025.06.20

지도학습 Ⅱ (분류)

지도학습 Ⅱ: 분류(Classification)와 모델 평가지난번 회귀(Regression)가 연속적인 숫자를 맞히는 게임이었다면, 이번에 배울 분류(Classification)는 "이 데이터가 A그룹인가, B그룹인가?"를 결정하는 게임이다. 머신러닝 실무에서 가장 많이 쓰이는 알고리즘들과 내 모델의 실력을 검증하는 지표들을 정리해 본다. 1. 로지스틱 회귀 (Logistic Regression): "분류인데 왜 이름이 회귀일까?"이게 가장 헷갈리는 부분이다. 이름은 회귀지만, 사실은 분류(Classification) 알고리즘이다.1) 왜 그냥 선형 회귀를 쓰면 안 될까?선형 회귀는 결과가 -무한대부터 +무한대까지 쭉 뻗어 나간다. 하지만 "합격/불합격"을 판단할 때는 결과값이 0(불합격) 아니면 1(합..

AI/Machine Learning 2025.06.19

지도학습 Ⅰ (회귀)

지도학습 Ⅰ: 회귀(Regression) - 숫자를 예측하는 마법지난번 통계 공부를 통해 데이터가 어떻게 퍼져 있는지 확인하는 법을 배웠다. 이제 그 데이터를 바탕으로 "미래의 숫자를 예측"하는 단계인 '회귀'에 대해 알아보자.1. 선형 회귀 (Linear Regression): "최적의 선을 찾아라" 선형 회귀는 입력값(X)과 출력값(y)의 관계를 가장 잘 설명하는 단 하나의 직선을 찾는 과정이다.1) 기본 공식y = w*x + bw (Weight, 가중치/기울기): x가 변할 때 y가 얼마나 변하는지 결정한다. (예: 공부 시간이 늘 때 성적이 오르는 정도)b (Bias, 편향/절편): x가 0일 때의 기본값이다.2) 어떻게 '최적'의 선을 찾을까? (비용 함수)수많은 직선 중 어떤 게 정답일까? 정..

AI/Machine Learning 2025.06.19

머신러닝 시작

AI란 컴퓨터가 인간의 지능을 흉내내는것머신러닝이란 AI에 하나의 분야로 데이터로부터 일반화를 시켜서 패턴을 파악하고 AI를 학습시키는 통계적인 알고리즘(전략, 방식)딥러닝이란을 그 머신러닝의 일부분으로 Deep Neural Network을 이용하여 더 깊은 사고를 하는 도구(기술, 로직) 참고) 머신러닝과 딥러닝 구분1. 머신러닝: 학습의 '지도'이자 '전략'머신러닝은 "컴퓨터를 어떻게 학습시킬 것인가?"에 대한 거대한 방법론의 집합입니다.학습 전략: 정답을 줄지(지도), 스스로 찾게 할지(비지도), 보상을 줄지(강화) 결정하는 규칙입니다.해결 과제: 이 전략을 통해 무엇을 얻고 싶은지(분류, 회귀, 군집화 등)를 정의하는 단계까지가 머신러닝의 개념적 영역입니다.2. 알고리즘: 전략을 실행하는 '전통적..

AI/Machine Learning 2025.06.17