🤖 Education/2020AI BM과정(nipa)

[AI_BM과정] 2일차 : Multiple Regression/Open Source

데이터분석가SIENNA 2020. 5. 17. 17:37
[1] 확률/확률분포

 

1. 정규분포 
: 이항분포에서 시행 횟수 n이 커지면, 그에 따라 이를 따르는 확률변수 X가 갖는 확률
(P(X=x))
- 종 모양의 형태
- 평균을 중심으로 좌우대칭
- 평균 주변에 많이 몰려 있으며, 양 끝으로 갈 수록 줄어ㄷ름
- 평균과 표준편차로 분포의 모양을 결정

 

 

2. 표준 정규분포
- 평균이 0이고 표준편차가 1인 정규분포 
- 대문자 Z로 표기 
- 모든 정규분포는 표준정규분포로 변환할 수 있음

- 공식 : 확률변수 X에 평균을 빼고 표준편차로 나누어주면 표준정규 분포를 따르는 Z를 구할 수 있다.

(참고) 공학단위로 사용되는 그리스 문자
- 뮤(Mu) : μ 통계학에서 모평균으로 사용
- 씨그마(Sigma) : σ 주로 모두 더하기. 표준편차
- 입실론(Epsilon) : ε 집합원소 또는 적다의 개념

 

 

3. 정규분포표 

예시문제)
민식이의 수학점수 평균은 85점이다.
전체 학생 100명의 수학평균은 70점이고 표준편차가 9이면 

민식이는 전체 학생 중 몇 등인가? 

답)

(85 - 70) / 9 = 1.66666....
정규분포표에서 1.66을 찾으면 0.9515


전체 1 - 0.9515 = 0.0485 즉, 4.85등
→ 민식이는 5등이다 

 

 

[2] Multiple Regression

 

1. 단순회귀 분석
- 독립변수가 1개, 종속변수가 1개일 때

(예1) 연수 = 독립변수, 연봉 = 종속변수일 때, 연수가 오래되면 연봉이 많아진다 

 

- 추정치 구하는 공식 : Y=a+bX 

a값 = Y절편 
b는 기울기(힘의 크기, 즉 영향력) B값 = 노동력(x)
a, b 를 구하는 것이 1차 회귀함수

 

1) 가설설정 (연구가설)

: 노동력은 생산량에 영향을 줄 것이다. → 회귀분석을 통해 영향력을 알아볼 것

 

 

 

2) 회귀분석 결과

: 결정계수 0.95... → 95% 정확하다는 의미

 

→ 기울기가 0.84375 이므로, 노동력이 300일 때 생산량(추정치)은 457이다.

 

 

3) 회귀분석 해석
- 원인(독립변인)이 결과(종속변수)에 미치는 영향력을 분석하는 방법
- 기울기가 +면 긍정적 영향, -면 부정적 영향이 있다고 해석
- regression : 평균으로 돌아간다는 의미
- x에 변함에 따른 y의 변화가 기울기고, 그 기울기가 힘의 크기가 되는것이다

 

 

2. 다중회귀 분석
- Y = a+bX+cW

- 학력 1 : 대졸 / 학력 0 : 고졸

- 학력도 독립변수다
- 모델을 두개 만들어야 한다. 어떤 모델이 설명력이 더 좋은가를 따지는 것임 (결정계수가 높은 모형 찾기)

(참고) 엑셀로 데이터 분석하기
1. 데이터 탭 > 데이터 분석
2. 분석 방법 선택
3. 입력 범위 지정 (라벨과 함께 지정시, 이름표 체크)
4. 출력 범위 지정


(참고) 엑셀로 분산 구하는 함수
=VARP(분산 구할 범위)

 

- 다중회귀분석 결과 : 다중회귀로 분석한 결정계수(0.97)가 단순회귀분석의 결정계수(0.81)보다 우수함

 

1) 단순회귀분석 통계량
2) 다중회귀분석 통계량

 

- 학력의 경우, 데이터 구조가 0과 1로 되어있다.

순서형처럼 크기가 커지는 것이 아니라 +이냐 -이냐가 중요한 것!

학력이 높으면 대졸의 경우 +이기 때문에, 대졸이 종속변수인 연봉에 더 긍정적인 영향을 준다. 
만약 -라면, 고졸이 급여가 더 높다는 결과가 나온다. 

- 학력이 +냐 -냐에 따라 해석이 다르게 나온다 = 다중회귀분석으로 인해 설명력이 좋아졌다고 말할 수 있다.

 

 

 

[3] Open Source

 

1. 오픈소스

https://opensource.com/article/18/5/top-8-open-source-ai-technologies-machine-learning

 

 

2. 알아야 할 오픈소스들

: 4차 산업혁명 구현을 위한 기술 인프라는 과거와는 완전히 다른 새로운 인프라가 요구되어

대부분의 기업이 오픈소스를 전략적으로 활용

 

3. 인공지능 관련 오픈소스

: 인공지능 세부 기술 중에서 딥러닝, 시각 혹은 이미지(Computer Vision), 자연어 처리 분야(NLP)등에서 다양한 오픈소스 프로젝트가 진행중

 

 

4. Hadoop

- 간단한 프로그래밍 모델을 사용하여 여러대의 컴퓨터 클러스터에서 대규모 데이터 세트를 분산 처리 할 수있게 해주는 프레임워크

- 단일 서버에서 수천대의 머신으로 확장 할 수 있도록 설계되었다.

일반적으로 하둡파일시스템(HDFS)과 맵리듀스(MapReduce)프레임워크로 시작되었으나

여러 데이터저장, 실행엔진, 프로그래밍 및 데이터처리 같은 하둡 생태계 전반을 포함하는 의미로 확장 발전 되었다.