전체 글 99

[자연어처리] 6. Sequence labeling and HMM part 1

Sequence labeling and HMM part 1 ! 들어가기 전에 : 시퀀스 라벨링 작업을 해봅시다! 품사태깅을 해봐서 알지만, 모호성이 굉장히 많다. 한 개의 단어가 여러개 품사로 태깅되는 경우가 많다. 어떻게 가장 가능성이 높은 태깅을 할 수 있을까하는 것이 하고자 하는 것이다! 품사(POS) 태깅 : 가장 낮은 수준의 구문 분석. 형태소 분석의 결과가 여러 개인 경우 가장 그럴듯한 하나의 결과를 찾아내는 작업 세종 Corpus : 총 46개의 tags 영어 POS Tagsets 브라운 코퍼스 (1962) 100만 단어 짜리 오늘날 NLP에서 가장 일반적인 것은 45개의 태그(표준이라고 생각하면 됨)로 구성된 Penn Treebank 세트이다. C5 tagset : 영국에서 만든 61개 태..

[자연어처리] 5. N-gram part2

N-gram part2 언어모델링 랭귀지 모델 : 한 문장이 나올 확률. 문장확률 : P(W) 그 언어에 맞는 문장이 나올 확률. 한 문장에 n개의 단어로 이루어진 문장으로 본다. → 네 개의 단어가 나온 다음에 다섯번째로 이 단어가 나올 확률 랭귀지 모델은 The Grammar와 같은 용어지만, 언어모델, LM이 더 표준적인 용어이다. chain rule the big red dog was의 확률을 구하자면 : = the가 나타날 확률 * the가 나타났을 때 big이 나타날 확률 * the big이 나타났을 때 red가 나타날 확률 * the big red가 나타났을 때 dog가 나타날 확률 * the big red dog가 나타났을 때 was가 나타날 확률 랭귀지 모델 구하기 : its water ..

[자연어처리] 4.Grammars and Parsing part2

4. Grammars and Parsing part2 결과물은 parse tree를 만들어내고, 그것은 문장 사이의 수식관계를 잘 드러낸다. CKY의 복잡성 모든 parse tree를 다 찾는다면 그 개수는 N! PP라는 것은 NP, VP를 다 수식할 수 있다. 어떨 때는 명사를, 어떤때는 동사를 수식(두 개의 규칙이 다 맞다) 뒤에 전치사구가 N개 붙는다고 하면, N의 팩토리얼 개수만큼의 가능성 개수가 나타나게 된다. ⇒ 기하급수적이다. exponential CNF 문법은 문법을 변형해야지만 CKY parser에서 가능하지만 큰 문제는 아니다. 문법적 모호성 : 우리가 모든 가능한 parse tree를 다 찾는다면… parsing 알고리즘 자체가 의미가 없다. 많은 parse tree 중에 맞는 하나를..

[자연어처리] 3. Grammars and Parsing part1

3. Grammars and Parsing part1 Chapter 12. Formal Grammars of English Chapter 13. Syntactic Parsing = 문법검사를 하는 구문분석 문법이란 것은 어떤 것이 어떤 것을 수식하는 수식관계이다. NP = Noun phrase 명사구 link = 트리의 가지 문법 : 다시 쓰는 규칙 세트 (예) S라는 심볼은 NP, VP로 rewrite하라. 계속 rewrite하다보면 아래처럼 분석 가능 CFG (context에 무관한 문법) - non-terminal symbols = NP, VP 같은 것. rewrite rule의 왼쪽편에 있는 것들 - terminal symbols = 품사 (POS) - R = rewrite rule. 알파 → 베..