Soohyun’s Machine-learning

[statistic] : mean, median, mode 본문

Machine Learning/Math & Stats

[statistic] : mean, median, mode

Alex_Rose 2017. 10. 17. 12:38

khan academy 정리




1. mean


일반적인 의미의 average (전체 값을 sum한 것을, 전체 개수로 나눠준 것). specific하게 들어가면 좀 다른 것 같으나.. 일단 칸 아카데미 강의에서는 average 로 그냥 보는 듯


ex) 23, 29, 20, 32, 23, 21, 33, 25


mean : (23 + 29 + 20 + 32 + 23 + 21 + 33 + 25) / 8





2. median


                  ---------> median값의 개수가 even number (짝수)이면  sum( median numbers ) / 2 = 24    이렇게 24가 median이 된다.

ex) 20, 21, 23, 23, 25, 29, 32, 33

                   -------


                    ---

20, 21, 23, 24, 25, 29, 32

              --->      median 값의 개수가 odd number (홀수)이면 그냥 이걸로 쓴다. 






3. mode


most frequent. 최빈수. 가장 많이 등장하는 숫자




통계쪽에서 #은 number라는 뜻이다. 




e.g.) Ana played 5 rounds of golf, and her lowest score was an 80. The scores of the first 4 rounds and the lowest round are shown in the following dot plot.



●                                       ●     ●    ●       ●  

|------------------|------------------|------|-----|----|---|--------------|

80                  85                  90    92   94  95  96              100



median : 92

mean : 90 * 2/5



It was discovered that Ana broke some rules when she scored 80, so that score will be removed from the data set.



                                          ●     ●    ●       ●  

|------------------|------------------|------|-----|----|---|--------------|

80                  85                  90    92   94  95  96              100



그러면 mean과 median 값은 어떻게 변화할까? (dataset에서 최소값이 사라졌을 때)


median : 93  

mean : 93


Both of them increase





IMPACT ON MEDIAN & MEAN : increasing an outlier


e.g.) A group of 4 friends likes bowl together, and each friend keeps track of his all-time highest score in a single-game. Their high scores are all between 180 and 220, except for Adam, whose high score is 250.


Adam then bowls a great game and has a new high score of 290.


How will increasing Adam's high score affect the mean and median?



180    ?    220    250                base dataset

----  ----   ----    ----


180    ?    220    290                new dataset

----  ----  -----   -----



- median won't change

- mean will increase




INTERQUARTILE RANGE (IQR)


사분위간 범위, spread 정도를 측정하는 애.



e.g.)


10 

11 

15 

14 

12 


Find the Interquartile range of the dataset



1)

4, 4, 6, 7, 10, 11, 12, 14, 15                ----> 우선 정렬한다



2) 

4, 4, 6, 7,     10,     11, 12, 14, 15        ----> median을 찾는다.



3)

4, 4, 6, 7,     10,     11, 12, 14, 15        ----> median 값을 중심으로 나눠진 애들을 찾는다.

-----------             ---------------

first half                second half    



4) 

4, 4, 6, 7,     10,     11, 12, 14, 15        ----> 나눠진 애들에서 average 를 찾는다.

     ↓                          ↓

first half's                   second half's
average :                    average :
     5                              13

        <------------------->   How different between these numbers : IQR : 13 - 5


그래서 IQR은 8이 된다. 




만약에 median이 even number일 경우..


e.g.) Find the IQR of the data in the dot plot below.



songs on each album in Shane's collection


  ●

 ●    ●           ●

     ●          ●    ●    ●    ●          ●

|-----|-----|-----|-----|-----|-----|-----|-----|-----|

6    7     8     9     10    11   12   13   14    15


Number of songs



7    9    9    10    10    10    11    12    12    14



1)

7    9    9    10    10    10    11    12    12    14

 ---------
        median


2) 
-----------------------   -----------------------------

7    9    9    10    10    10    11    12    12    14

------------------------  -----------------------------

first half                   second half

average :                    average :

9                            12






y-intercept : y 절편, x=0이 되는 지점에서의 y값













Comments