🤖 Education/2020AI BM과정(nipa)

[AI_BM과정] 13일차 : 음성인식 개요

데이터분석가SIENNA 2020. 5. 26. 18:06
[1] 뭘 어떻게 공부해야하는가?


1) 동영상 무료 강의


- 부스트코스 
: 파이토치로 시작하는 딥러닝 기초
텐서플로우로 시작하는 딥러닝 기초
 

- 머신러닝 설명 강의(구글개발자)

https://www.youtube.com/watch?v=cKxRvEZd3Mw&list=PLOU2XLYxmsIIuiBfYad6rFYQU_jL2ryal

 

- 에드위드 (모두의 딥러닝 시즌2)

https://www.edwith.org/

 

- 인프런

https://www.inflearn.com/course/%EA%B8%B0%EB%B3%B8%EC%A0%81%EC%9D%B8-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EB%94%A5%EB%9F%AC%EB%8B%9D-%EA%B0%95%EC%A2%8C#

 

모두를 위한 딥러닝 - 기본적인 머신러닝과 딥러닝 강좌 - 인프런

더 많은 분들이 머신 러닝과 딥러닝에 대해 더 이해하고 본인들의 문제를 이 멋진 도구를 이용해서 풀수 있게 하기위해 비디오 강의를 준비하였습니다. 더 나아가 이론에만 그치지 않고 최근 구

www.inflearn.com

 

 

- 고급 강의 : deeplearning.ai

https://www.youtube.com/channel/UCcIXc5mJsHVYTZR1maL5l9w

 

Deeplearning.ai

Welcome to the official deeplearning.ai Youtube channel! Here you can find the videos from our Deep Learning specialization on Coursera. Visit our website: d...

www.youtube.com

 

- 오디오 관련 사례

 

① 음성인식

AI스피커(?) : https://www.youtube.com/watch?v=0i0nLlZIsIs

 

② 음성합성

음성 합성 관련 뉴스: https://www.youtube.com/watch?v=3DIb9F9ATNE

KT 개인화 음성 합성: https://www.youtube.com/watch?v=TtPWnDDrJ6k

네오 사피엔스 음성합성: https://www.youtube.com/watch?v=8qI3cKDqYqQ

 

③ 음악 생성

AI Duet

https://www.youtube.com/watch?v=0ZE1bfPtvZo

 

RNN Music Generation

https://www.youtube.com/watch?v=A2gyidoFsoI

 

④ 이미지 생성 : 

Zebra Transform

https://www.youtube.com/watch?v=9reHvktowLY

 

Deep Dream

https://www.youtube.com/watch?v=I2y6kS7396s

 

 


2) 수학(통계, 행렬, 미분)
3) 파이썬(numpy, pandas)
4) 데이터전처리(이미지, 텍스트, 오디오)
5) 딥러닝 라이브러리
- 텐서플로우, keras(구글), pytoch(페이스북), MxNet(아마존)
6) 운영
- 클라우드 서비스(아마존, 구글, MS 등)
7) 관련 서적

- 밑바닥부터 시작하는 딥러닝
- 모두의 딥러닝
- 프로그래머, 수학으로 생각하라
- 딥러닝 첫걸음
- 처음 배우는 딥러닝 수합
- Do it! 정직하게 코딩하며 배우는 딥러닝 입문

 

 

 

 

[2] 음성인식 개요



0. 딥러닝
A Neural Network Playground

http://playground.tensorflow.org/#activation=tanh&batchSize=10&dataset=circle&regDataset=reg-plane&learningRate=0.03&regularizationRate=0&noise=0&networkShape=4,2&seed=0.10300&showTestData=false&discretize=false&percTrainData=50&x=true&y=true&xTimesY=false&xSquared=false&ySquared=false&cosX=false&sinX=false&cosY=false&sinY=false&collectStats=false&problem=classification&initZero=false&hideText=false

 

Tensorflow — Neural Network Playground

Tinker with a real neural network right here in your browser.

playground.tensorflow.org

 

(빨간 점과 파란 점을 구분할 수 있는 선. 두 가지를 잘 구분하기 위해서 학습을 진행할 수록 선이 움직여 기울기가 바뀐다.)

 

* 딥러닝, 예측 모델의 가장 기본적인 가정 : 과거 데이터로 현재 모델링을 해서 미래를 예측하고자 하는 것

 

 


1. 오디오

* 데이터 
research.google.com/audioset

 

AudioSet

A sound vocabulary and dataset AudioSet consists of an expanding ontology of 632 audio event classes and a collection of 2,084,320 human-labeled 10-second sound clips drawn from YouTube videos. The ontology is specified as a hierarchical graph of event cat

research.google.com

 

 

1) 사람목소리

- 음성인식
- 화자인식 (예 : 구글스피커의 가족 인식)
- 음성합성

 

 

 

AudioSet

A sound vocabulary and dataset AudioSet consists of an expanding ontology of 632 audio event classes and a collection of 2,084,320 human-labeled 10-second sound clips drawn from YouTube videos. The ontology is specified as a hierarchical graph of event cat

research.google.com

 

AI 컴퍼니 kt, 영어 개인화 음성합성 기술 시연 youtu.be/TtPWnDDrJ6k

 

WAVENET
typecast : 인공지능 성우 서비스

https://typecast.ai/?gclid=CjwKCAjw_LL2BRAkEiwAv2Y3STjXlYTmfN3jca3K8MUAzSuj0Dm-NcWvjYl9gysbqdJYnEQIl70PPRoCo2kQAvD_BwE

 

typecast

AI voice casting service.

typecast.ai

 

 

 


2) 사람목소리가 아닌 경우

- 일반 sound (예 : 새 소리를 듣고 어떤 새인지 맞추는 것)

 

참고)

① urban sound classification : 도시에서 나타나는 10개의 소리
(드릴,아이들노는소리,지하철,자동차경적 등)

② soundly 서비스 : 아기가 우는 소리를 듣고 왜 우는지 분석. 

* 문제점 : 라벨을 정확히 붙일 수 있을까? NO
데이터 문제다? 아니면 모델 문제다? 

- 모델링 할 데이터 자체가 없다 → 아기의 울음 소리를 모은 데이터가 거의 없다.
- 데이터 라벨링의 문제 → 라벨을 어느정도까지 정확히 붙이느냐에 따라 모델의 성능이 달라진다. 

데이터를 어떻게 효율적으로 수집할지를 생각해야한다. 
산후조리원 같은 곳에서 수집 필요.
아기가 뭐 때문에 울었는지를 일일히 기록해야한다.
이것은 청각장애인에게 매우 유용한 정보였다. (청각장애인은 아기가 왜 우는지 알수없으므로)
투자자 입장에서는 시장규모가 무조건 큰 걸 원함 (스케일이 얼마나 나오느냐)
청각장애인이 아이를 키우는 부모 시장에서 얼마나 차지할까
이 서비스가 필수냐 옵션이냐를 고려해 보아야 한다


- 음악(악기)


2. 인식
- 노래제목인식
- Humming
- 음악 추천(멜론 등)


3. 생성
- 작곡 : 어떤 사람들이 여기에 관심이 있을까? 
→ 음반 레이블사, 편곡자

 

 

(* 참고) 경진대회 사이트
https://www.kaggle.com/
https://www.ldc.upenn.edu/
https://dacon.io/