AI/Python

통계 개념

jumemory 2025. 6. 4. 17:52

평균

중앙값

평균값을 소수의 큰값이 평균을 크게 바꾸기 떄문에 신뢰도가 떨어질수있다(중앙값과 같이 사용)

이상치 평균에 큰 영향을 미치는값...???????/

편차 평균에서 데이터를 뺸값 편차 합은 0 편차를 제곱한게 분산 에 루트를 씌운게 표준편차(데이터 스켈링시 함ㅇ

수로 사용)

 

 

표준화(Standardization :평균이 0, 표준편차가 1이 되도록 바꿈값들이 -2 ~ +2 정도 범위로 바뀜

표준화는 "데이터의 기준을 맞추는 것"이다.

단위, 크기(스케일)가 다른 데이터를 같은 기준으로 맞춰서 비교 가능하게 만든다.

 

자연상수:

  1. e는 "숫자 2.718..."보다 '의미'가 더 중요한 수학 상수예요
    • 그냥 숫자가 아니라,
      "자연적인 변화"를 표현하는 도구처럼 쓰여요.
    • 그래서 대부분의 경우엔 e 자체를 계산하지 않아요.
  2. 실제 계산에서는 e를 기호처럼 남겨두는 경우가 많아요
    • 예: 시그모이드 식 → 11+e−x\frac{1}{1 + e^{-x}}
    • 예: 손실 함수 → −log⁡(ex)-\log(e^x)
  3. 파이썬에서도 np.exp()나 np.log() 같은 함수로 다루지
    👉 "e의 실제 값 2.718..."을 외워서 직접 곱하거나 계산하는 일은 거의 없어요.

 

정규분포 

1. 편차 (Deviation)

  • 편차는 어떤 데이터가 평균(평균값)에서 얼마나 떨어져 있는지를 나타내는 값이야.
  • 수식으로는,편차=데이터 값−평균\text{편차} = \text{데이터 값} - \text{평균}
  • 예를 들어,
    데이터가 [3, 5, 7]이고, 평균이 (3+5+7)/3 = 5라고 하면,
    각 데이터의 편차는
    • 3의 편차 = 3 - 5 = -2
    • 5의 편차 = 5 - 5 = 0
    • 7의 편차 = 7 - 5 = 2
  • 이렇게 편차는 각각의 데이터가 평균에서 얼마나 멀리 떨어졌는지를 의미해.

2. 분산 (Variance)

  • 편차는 그냥 빼기만 하면 +와 -가 섞여서 다 더하면 0이 되어 버려서, 데이터가 얼마나 퍼져 있는지 알기 어렵다.
  • 그래서 편차의 제곱을 모두 더한 후 데이터 개수로 나눈 값을 분산이라고 한다.
  • 분산 수식:분산=∑(데이터 값−평균)2n\text{분산} = \frac{\sum (\text{데이터 값} - \text{평균})^2}{n}
  • 분산은 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 값이다.

3. 표준편차 (Standard Deviation)

  • 분산은 제곱된 단위라서 원래 데이터 단위랑 달라서 해석하기 어려울 수 있다.
  • 그래서 분산에 **루트(제곱근)**를 씌운 것이 표준편차다.
  • 표준편차 수식:표준편차=분산=∑(데이터 값−평균)2n\text{표준편차} = \sqrt{\text{분산}} = \sqrt{\frac{\sum (\text{데이터 값} - \text{평균})^2}{n}}
  • 표준편차는 데이터가 평균에서 얼마나 떨어져 있는지를 평균 거리처럼 알려준다.
  • 작으면 데이터가 평균에 몰려있고, 크면 데이터가 넓게 퍼져 있다는 뜻.

'AI > Python' 카테고리의 다른 글

파이썬 기초(웹 크롤링)  (0) 2025.05.26
파이썬 기초(함수와 모듈)  (0) 2025.05.26
파이썬 기초(제어문)  (0) 2025.05.23
파이썬 기초(자료 구조의 핵심)  (0) 2025.05.21
Python 시작  (0) 2025.05.21