🤖 Education 52

[패스트캠퍼스] 데이터시각화 강의 학습일지

1. 강의 학습 계기 - 우연찮게 유튜브에서 데이터 시각화 공모전에 대한 내용을 보게 되었고, 대상을 수상한 팀이 Tableau를 이용해 대쉬보드를 만든 것을 보고 나도 한 번 만들어봐야지 하는 생각을 가지고 있었다. - 데이터 시각화라면 파이썬에서 matplotlib, seaborn, plotly 라이브러리를 사용하는 것에 익숙한데, GUI환경에서 손쉽게 시각화를 할 수 있다는 점이 매력적인 것 같았다. 많은 양의 데이터에서도 빠르게 인터랙티브하게 시각화가 가능한지 궁금했고, 이를 구현해보고 싶었다. - 대학원생이라 Tableau를 학생 계정으로 이용할 수 있어서 일단 다운받아서 켜 봤다. 메뉴 하나하나 건드려가며 배울 수 있을 것 같았는데 그러기엔 시간이 너무 오래 걸려서 책을 하나 잡고 정독하거나,..

[자연어처리] 8. Sequence labeling and HMM part 3

Phrase Chunking : Partial Parsing 청킹 : 문장 안에 있는 의미있는 청크 (명사구, 동사구) 어떤 것은 한단어, 어떤 것은 여러단어로 이루어진 프레이즈도 있다. non-recursive 라는 것은 VP를 크게 보지 말자라는 것이다. 딱 [ ] 안의 것들만 VP, NP로 보자는 것이다. (문장의 단어들 사이에 의미있는 괄호 넣기라고 보면 된다.) 개체명 인식기도 phrase chunking이다. Phrase Chunking as Sequence Labeling sequential labeling 문제로 보는 것이다. 시퀀셜 입력이 들어왔을 때, 거기에 레이블을 달아주는 것이다. 일종의 형태소 분석기라고 생각하자. 형태소 분석기도 각 단어마다 품사라는 레이블을 달아주는 거니까. s..

[자연어처리] 7. Sequence labeling and HMM part 2

Sequence labeling and HMM part 2 HMM의 세 가지 기본 문제 1960년대 IDA의 잭 퍼거슨 문제 1 : (평가) 주어진 관찰 순서. observation 시퀀스(input 시퀀스)가 나타났을 때 주어진 HMM모델 람다=A,B (A : transition probability matrix, B : observation probability matrix) 하에서 이러한 (O=O1O2…OT)인풋 시퀀스가 나타날 확률 ⇒ 확률 값이 낮으면 잘못된 시퀀스이다. 결국 이 시퀀스가 맞느냐 안맞느냐는 확률 값으로 판단이 가능할 것. 만약 이 문제가 음성인식이라면, 인식해 낸 시퀀스가 여러 개 있을 때 시퀀스 확률 값이 높은 것을 선택하는 것이 맞겠죠. 더 그럴듯한 시퀀스니까 음성인식의 경우..

[자연어처리] 6. Sequence labeling and HMM part 1

Sequence labeling and HMM part 1 ! 들어가기 전에 : 시퀀스 라벨링 작업을 해봅시다! 품사태깅을 해봐서 알지만, 모호성이 굉장히 많다. 한 개의 단어가 여러개 품사로 태깅되는 경우가 많다. 어떻게 가장 가능성이 높은 태깅을 할 수 있을까하는 것이 하고자 하는 것이다! 품사(POS) 태깅 : 가장 낮은 수준의 구문 분석. 형태소 분석의 결과가 여러 개인 경우 가장 그럴듯한 하나의 결과를 찾아내는 작업 세종 Corpus : 총 46개의 tags 영어 POS Tagsets 브라운 코퍼스 (1962) 100만 단어 짜리 오늘날 NLP에서 가장 일반적인 것은 45개의 태그(표준이라고 생각하면 됨)로 구성된 Penn Treebank 세트이다. C5 tagset : 영국에서 만든 61개 태..

[자연어처리] 5. N-gram part2

N-gram part2 언어모델링 랭귀지 모델 : 한 문장이 나올 확률. 문장확률 : P(W) 그 언어에 맞는 문장이 나올 확률. 한 문장에 n개의 단어로 이루어진 문장으로 본다. → 네 개의 단어가 나온 다음에 다섯번째로 이 단어가 나올 확률 랭귀지 모델은 The Grammar와 같은 용어지만, 언어모델, LM이 더 표준적인 용어이다. chain rule the big red dog was의 확률을 구하자면 : = the가 나타날 확률 * the가 나타났을 때 big이 나타날 확률 * the big이 나타났을 때 red가 나타날 확률 * the big red가 나타났을 때 dog가 나타날 확률 * the big red dog가 나타났을 때 was가 나타날 확률 랭귀지 모델 구하기 : its water ..