1. 정규분포 : 이항분포에서 시행 횟수 n이 커지면, 그에 따라 이를 따르는 확률변수 X가 갖는 확률 (P(X=x)) - 종 모양의 형태 - 평균을 중심으로 좌우대칭 - 평균 주변에 많이 몰려 있으며, 양 끝으로 갈 수록 줄어ㄷ름 - 평균과 표준편차로 분포의 모양을 결정
2. 표준 정규분포 - 평균이 0이고 표준편차가 1인 정규분포 - 대문자 Z로 표기 - 모든 정규분포는 표준정규분포로 변환할 수 있음
- 공식 : 확률변수 X에 평균을 빼고 표준편차로 나누어주면 표준정규 분포를 따르는 Z를 구할 수 있다.
(참고) 공학단위로 사용되는 그리스 문자 - 뮤(Mu) : μ 통계학에서 모평균으로 사용 - 씨그마(Sigma) : σ 주로 모두 더하기. 표준편차 - 입실론(Epsilon) : ε 집합원소 또는 적다의 개념
3. 정규분포표
예시문제) 민식이의 수학점수 평균은 85점이다. 전체 학생 100명의 수학평균은 70점이고 표준편차가 9이면 민식이는 전체 학생 중 몇 등인가?
a값 = Y절편 b는 기울기(힘의 크기, 즉 영향력)B값 = 노동력(x) a, b 를 구하는 것이 1차 회귀함수
1) 가설설정 (연구가설)
: 노동력은 생산량에 영향을 줄 것이다. → 회귀분석을 통해 영향력을 알아볼 것
2) 회귀분석 결과
: 결정계수 0.95... → 95% 정확하다는 의미
→ 기울기가 0.84375 이므로, 노동력이 300일 때 생산량(추정치)은 457이다.
3) 회귀분석 해석 - 원인(독립변인)이 결과(종속변수)에 미치는 영향력을 분석하는 방법 - 기울기가 +면 긍정적 영향, -면 부정적 영향이 있다고 해석 - regression : 평균으로 돌아간다는 의미 - x에 변함에 따른 y의 변화가 기울기고, 그 기울기가 힘의 크기가 되는것이다
2. 다중회귀 분석 - Y = a+bX+cW
- 학력 1 : 대졸 / 학력 0 : 고졸
- 학력도 독립변수다 - 모델을 두개 만들어야 한다. 어떤 모델이 설명력이 더 좋은가를 따지는 것임 (결정계수가 높은 모형 찾기)
(참고) 엑셀로 데이터 분석하기 1. 데이터 탭 > 데이터 분석 2. 분석 방법 선택
3. 입력 범위 지정 (라벨과 함께 지정시, 이름표 체크) 4. 출력 범위 지정
(참고) 엑셀로 분산 구하는 함수 =VARP(분산 구할 범위)
- 다중회귀분석 결과 : 다중회귀로 분석한 결정계수(0.97)가 단순회귀분석의 결정계수(0.81)보다 우수함
1) 단순회귀분석 통계량2) 다중회귀분석 통계량
- 학력의 경우, 데이터 구조가 0과 1로 되어있다.
순서형처럼 크기가 커지는 것이 아니라 +이냐 -이냐가 중요한 것!
학력이 높으면 대졸의 경우 +이기 때문에, 대졸이 종속변수인 연봉에 더 긍정적인 영향을 준다. 만약 -라면, 고졸이 급여가 더 높다는 결과가 나온다.
- 학력이 +냐 -냐에 따라 해석이 다르게 나온다 = 다중회귀분석으로 인해 설명력이 좋아졌다고 말할 수 있다.