티스토리 뷰

[1] 사분위수

1. 정의

데이터를 정렬하고 4개의 동일한 부분으로 나눈 값

1) Q0: 최소값 (0% 지점) : 데이터셋의 최솟값

2) Q1: 1사분위수 (하위 25% 지점) : Q1의 위치: (n+1)/4

3) Q2: 중앙값 또는 2사분위수 (50% 지점) 

- 데이터셋의 개수(n)가 홀수인 경우: (n+1)/2 위치의 값

- 데이터셋의 개수(n)가 짝수인 경우: ( (n/2) + (n/2+1) ) / 2 위치의 값

4) Q3: 3사분위수 (하위 75% 지점, 즉 상위 25%) : 3/4 * (n+1)

5) Q4: 최대값 (100% 지점) : 데이터셋의 최댓값

 

2. 선형보간법

- 보간(Interpolation): 두 개의 값 사이에 있는 위치에서 값을 추정하는 방법

- 선형보간법 : 두 점 사이의 직선을 따라 중간값을 추정하는 보간 방법

두 점 (x0,y0)(x1,y1)사이의 중간점 (x,y)를 구하는 방법

y=y0+(x1x0)(y1y0)×(xx0)

 

3. 예시

데이터셋 a= [10,20,30,40,50,60,70,80,90,100] 일 경우

데이터셋의 크기 n 은 10

1) Q0: 최소값 (0% 지점) : 10

2) Q1: 1사분위수 (25% 지점) 

- Q1의 위치: (10+1)/4 = 2.75이므로 2번째 값(20)과 3번째 값(30) 사이에 있다.

소수부분 0.75을 이용해 보간값을 계산하면,

- Q1=20+0.75×(3020)=20+0.75×10=20+7.5=27.5

3) Q2: 중앙값 또는 2사분위수 (50% 지점)

- 데이터셋이 짝수이므로 (50+60)/2 = 55

4) Q3: 3사분위수 (75% 지점) 
- 3/4 * (n+1) = 3/4*11 = 8.25, Q3의 위치는 8번째 값(80)과 9번째 값(90) 사이에 있다.

보간 값을 계산하기 위해 소수부분 0.25를 이용하면

Q3 = a8+0.25 * (a9-a8) = 80 + 0.25*(90-80) = 82.5

5) Q4: 최대값 (100% 지점) : 100

 

[2] 표준편차

1. 정의

데이터가 평균을 중심으로 얼마나 퍼져 있는지를 측정합니다. 표준편차가 작을수록 데이터가 평균에 가깝게 몰려 있다.

 

2. 계산방법

표준편차= 분산(Variance)의 제곱근(루트, 또는 1/2제곱) = (데이터-평균)의 평균의 제곱근

1) 분산(Variance): 데이터가 평균으로부터 얼마나 떨어져 있는지의 제곱 평균

2) 분산 계산방법: 평균 계산 → 편차제곱(데이터-평균)^2 계산 편차제곱의 평균 계산

예시) 데이터셋: [10,20,30,40,50]

- 평균 = (10+20+30+40+50)/5 = 30

- 편차 제곱 = [(10-30)^2=400, (20-30)^2=100, (30-30)^2=0, (40-30)^2=100, (50-30)^2=400]

- 편차 제곱의 평균 = (400+100+0+100+400)/5 = 200

3) 표준편차 = 200^(1/2) = 약 14.14

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함