🤖 Education/2020AI BM과정(nipa)

[AI_BM과정] 1일차 : 데이터의 이해/머신러닝 알고리즘

데이터분석가SIENNA 2020. 5. 14. 09:28

(*참고) 데이터 분석도구 종류

1) R, Python, Excel (무료, 오픈 프로그램)

2) SPSS, Modeler (유료)

 

[1] 데이터의 이해/분석의 필요성

 

1. 과학적 데이터수집 기기 사례

1) 측우기

- 과학적 데이터수집 기기

- 과학적인 이유 : 빗물의 양을 재는 방법을 정확하게 제시했기 때문

강수량 (원인) : x축, 생산량 (결과) : y

=> 두 변수로 그래프로 그릴수있음

 

2) 8만대장경

- 비정형 데이터

- 글자수 5억자인데 오탈자(오류율)가 없음

 

(* 참고1)

- 정형 데이터 : 수치형 데이터

- 비정형 데이터 : text 데이터

 

(* 참고2)

딥러닝은 오류율의 싸움이다!

정확도 = 1 - 오류율

 

(* 참고3)

미분 : 예측, 기울기를 구하는 데 쓴다

 

 

 

2. 데이터 분석능력

: 4차 산업시대 생존을 위한 필수역량

 

1) 데이터

2) 분석 (통계)

3) 정보

4) 예측, 분류, 군집, 시각화

: 데이터를 보고 어느 것을 해야하는지 알고, 알고리즘만 잘 골라쓰면 데이터 분석이 어렵지 않다!

5) 의사결정

6) 경쟁우위

7) 생존

 

* 문제

성격유형, 혈액형은 둘 다 명목형 데이터이다. 혈액형과 성격유형의 관계를 표현할 때 알맞은 것은?

 

혈액형(__) 성격유형(__) ~

 

1) 영향을 미친다

2) 상관이 있다

3) 차이가 있다

4) 다 쓸 수 있다

 


* 정답 : 3번! 혈액형과 성격은 <분포의> 차이가 있다. 

→ 카이제곱 검증 chi-squared test

 
* 해석

1번 : 영향력(크기)을 미친다라고 표현하려면 데이터가 수치형이어야 한다.

→ Regression 회귀분석

 

2번 : 상관이 있다고 표현하려면, 상관계수로 표현이 되어야 하므로 수치형이어야 한다.

→ Correlation 상관분석

 

1, 2번 표현은 사용할 수 없다. 

분포의 차이란, 어떤 혈액형이 어떤 성격유형에 많이 분포하고 있느냐를 설명하는 것.

→ 카이제곱 검증(알고리즘)

→ 논문에서 단어 하나를 보더라도 이건 무슨 분석을 해야하는지 알아챌 수 있어야함!

 

(* 참고)

평균의 차이분석 : 독립표본 T검정 , 대응표본 T검정, 일원배치 분산분석(One way ANOVA)

 

 

 

[2] 빅데이터, 4차산업혁명

 

* 크림전쟁 당시 나이팅게일의 장미도표(Rose Diagram)

: 전투에 의한 사망자보다 열악한 병원환경에 의한 사망자가 더 많음을 밝힘.

환자에 대한 정확한 기록과 관리를 통해 병원 내 사망률을 획기적으로 줄임.

위생의 중요성을 데이터 분석으로 사회에 알림.

 

1. 통계학

1) 모집단과 표본

- 모집단

• 우리가 알고자 하는 대상 전체

• 조사 대상의 범위

• 전수조사 : 모집단 전체를 조사하는 방법

 

- 표본

• 모집단으로부터 조사하기 위해 선택된 조사대상

• 모집단 전체를 조사하는 것이 불가능하거나, 수류탄과 같이 조사하면 사라지는 특성을 가진 조사대상

시간적/공간적 제약이 있을 시 모집단을 잘 대표할 수 있는 조사대상으로 실제 조사대상이 됨

• 표본조사 : 표본을 조사대상으로 조사하는 방법

 

 

 

2) 통계에서의 데이터 예시

(척도 : 자료들을 측정하기 위한 측정 도구)

- 질적변수/양적변수

 

- 명목척도와 서열척도 : 각각 명목형 자료, 순서형 자료에 사용하는 척도

- 등간척도와 비율척도 : 양적변수에 사용되는 척도로 사칙연산이 가능

 

 

 

2. 가치창조를 위한 데이터 사이언스와 전략 INSIGHT

1) 왜 싸이월드는 페이스북이 되지 못했나?

- 데이터 분석 기반 경영 문화의 부재

: 데이터 분석에 기초해 전략적 통찰력을 얻고, 효과적인 의사결정을 내리고, 구체적인 성과를 만들어 내는 체계가 없었기 때문

 

- 싸이월드 : 웹로그 분석과 같은 일차적인 분석이 이뤄지고 있었지만, 이는 경영진의 직관력을 보조하는 일부로서 활용. 사업 상황 확인을 위한 협소한 문제들에 집중하는 경향

 

- 성공적 인터넷 기업(구글, 링크드인, 페이스북)들은 대부분 데이터 분석과 함께 시작되고 분석이 내부 의사결정에 결정적 정보를 제공

 

- 분석 기반 경영이 도입되지 못하는 이유 :

• 기존 관행 따를 뿐 중요한 시도를 하지 않음

• 경영진의 직관적인 결정을 귀한 재능으로 칭송

• 적절한 방법조차 제대로 익히지 못한 사람에게 분석 업무 할당

• 아이디어보다 아이디어를 낸 사람에게 관심을 두는 경향

 

* 참고도서 : 분석으로 경쟁하라

https://book.naver.com/bookdb/book_detail.nhn?bid=6612030

 

 

2) 빅데이터 분석, "BIG"이 핵심 아니다

- 직관에 기초한 의사결정보다 데이터에 기초한 의사결정이 중요(데이터 자체의 중요성)

 

 

3) 일차적인 분석 VS 전략도출을 위한 필요 역량

- 빅데이터는 가치 창출이 가능해야 하고, 그 시점이 빠를 수록 좋다.

- 전략적 인사이트를 주는 가치 기반 분석을 위해 우선 사업과 이에 영향을 미치는 트렌드에 대해 큰 그림을 그려야 함.

- 인구통계학적 변화, 경제사회 트렌드, 고객 니즈의 변화 등을 고려하고, 또한 대변화가 어디서 나타날 지 예측을 통해 트렌드에 대한 큰 그림을 도출

 

 

3. 데이터 분석기획/BM모델 분석

1) 비즈니스 모델 분석을 통한 Top-down 접근 방식

- 비즈니스 모델 이해

비즈니스 파악

고객니즈 파악

니즈 파악

경쟁요인 선택 및 제공가치 수준 설정

 

- 비즈니스 모델 상세화

전략테마/실행활동 관계분석

비즈니스 운영

시나리오 상세화

 

- Analytic use case 정의

Analytic use case 발굴

Analytic use case 정의

Analytic 평가

  

 

[3] 4차 산업 시대 기본 역량 (데이터 분석 능력)
(* 참고) 논문
국내기업의 빅데이터 이용의도에 미치는 영향요인 분석 : 공공데이터 활용여부를 기준으로
Analysis of Factors Affecting Big Data Use Intention of Korean Companies : Based on public data availability

 

1. 기업 경영에서의 데이터 분석

(Value chain, 가치 사슬 / Data Value chain, 데이터 가치사슬 : 데이터의 가치를 부가하는 활동)

 

1) 부가적 활동

- 기업 인프라

- 인적 자원 관리

- 기술 개발

- 구매, 조달

 

2) 이익을 얻기 위한 본원적 활동

- 입고 물류

- 생산

- 출하물류

- 마케팅/영업

- 서비스

 

 

2. 전문분야별 분석 기술 및 방법

- 데이터 기획, 데이터 수집, 데이터 분석(통계), 시각화, 모델링→ 데이터 사이언티스트

 

 

3. 데이터에 적합한 머신러닝 알고리즘 기법

 1) 지도학습(Supervised Learning)  :

훈련 데이터 세트로 주어진 데이터가 예측하고자 하는 목적변수(혹은 반응변수) (Y)를 가지고 있어,

새로운 데이터의 목적변수(혹은 반응변수) 값을 추정하거나 분류하고자 하는 머신러닝 기법

 

- 스팸메일 분류

기업 부도/정상 예측

고객 이탈/유지 예측

고객 신용등급 판별

특정 질병(ex/암, 심장병 등) 발생 여부 예측

특정 마케팅 이벤트에 대한 고객 반응 여부 예측

고객의 구매 여부 예측

 

2) 비지도학습(Unsupervised Learning) :

- 주어진 데이터에서 분류항목 표시나 목적변수(혹은 반응변수)가 없고 목적 값 예측을 시도하는 것이 아닐 경우.

분석 목적 및 방식에 따라, 군집(Clustering), 연관성분석(Association), 차원축소(Dimension Reduction) 등이 있음

 

 

* 이분형 로지스틱 회귀분석 : 0으로 갈 확률, 1로 갈 확률이 얼마인지 예측하는 것!

* PCA : 주성분분석, 군집 중의 하나

* 차원축소 : 비슷한 레이블끼리 모으다보니 차원이 축소가 됨

 

  

 

[4] 데이터를 보는 힘 (데이터/기초 통계)

 

1. 평균의 함정

https://youtu.be/7jABF0YYd8Q

 

 

2. 편차/분산/표준편차

1) 편차 :

평균 선에서 멀어진 거리, + 편차, -편차가 있으며, 그 차이를 줄이는 것이 목표이다.

편차의 합은 0이다.

 

2) 분산 : 편차 제곱의 합의 평균

 

3) 표준편차 : 분산에 루트를 씌워요 (루트분산)

- 표준편차가 1이라는 것은 (루트를 씌워도 1이라는 말은)

결국 분산도 1이라는 의미

예시) 어느 반을 가르치는 것이 낫겠는가?

→ 편차를 줄이는 것이 중요하므로, 2반을 가르치는 것이 낫다!

 

cf) 잔차! 정확도 관련해서 잔차는 반드시 구해야함

 

 

3. Linear Regression

- 원인(독립변인)이 결과(종속변수)에 미치는 영향력을 분석하는 방법

- 해석 : 기울기가 +면 긍정적 영향, -면 부정적 영향이 있다 해석

 

 

4. Mutiple Regression (다중회귀분석)

 

 

5. 민감도/특이도/정확도

1) 정확도 : 병이 있는 것을 양성으로 판단하고, 병이 없는 것을 병이 없다고 음성으로 판단하는 것.

민감도, 특이도를 올려서 정확도를 올려야 한다!

 

2) 민감도 : 병이 있는 것을 있다고 하는것

 

3) 특이도 : 병이 없는것을 없다고 하는것