전체 글 99

[혁펜하임의 Easy! 딥러닝] 책 리뷰

평소에 전공관련 서적이 나오면 도서관에서라도 꼭 찾아보는 편인데, 이번에 내가 관심있게 강의를 찾아 봐오던 강사님이 딥러닝 책을 내셨다!석사학위논문을 쓸 때 혁펜하임님의 강의 TTT를 들으며 트랜스포머 개념을 다잡았던 기억이 새록새록... 석사 학위를 위해 딥러닝을 공부해 가면서 내가 제일 막막했던 것은 너무 딱딱하게 느껴지던 교과서적인 개념들, 용어도 어렵고 머리 깨지게 몇 번을 읽어도 이해되지 않았던 수식들... 그리고 결국엔 빡빡한 논문을 찾아보고 스스로 정리해야 했던 내용들 ㅠㅠ 졸업과 동시에 급격하게 까먹고 있는 이론들을 제대로 복습할 겸 혁펜하임 강사님의 딥러닝 책을 찾게 되었다.이 책은 제목에서부터 알 수 있듯이 딥러닝의 구조와 작동방식을 다루고 있다. 이 책에서는 인공신경망의 기본 개념들부..

비전 트랜스포머(Vision Transformer, ViT)

비전 트랜스포머(Vision Transformer, ViT)는 자연어처리 분야에서 표준으로 자리 잡은 트랜스포머 모델을 이미지 처리에 적용한 모델이다. 합성곱 모델은 이미지를 분류하기 위해 지역 특징을 추출하는 반면, ViT는 셀프 어텐션을 사용해 전체 이미지를 한 번에 처리한다. 입력 이미지가 격자로 작은 단위의 이미지 패치로 나뉘어 순차적으로 입력되는 방식이다.  ViT 모델은 다음 (1)의 그림과 같이 입력 이미지를 트랜스포머 구조에 맞게 일정한 크기의 패치로 나눈 다음, 각 패치를 벡터 형태로 변환하는 패치 임베딩(Patch Embedding)과 (2)의 그림과 같이 각 패치와의 관계를 학습하는 인코더 계층으로 구성된다.  (1) Patch Embedding   패치 임베딩은 이미지를 작은 패치(..

트랜스포머(Transformer)

트랜스포머(Transformer)는 주로 자연어 처리 작업에 사용되는 딥러닝 모델로 RNN이나 LSTM과 같은 순환 신경망을 사용하지 않고, 입력 시퀀스의 중요한 부분에 초점을 맞춰 문맥을 파악하는 데 사용되는 어텐션 메커니즘에 완전히 의존한다. 이로 인해 긴 시퀀스도 효율적으로 처리할 수 있으며 병렬 처리가 가능하여 학습 속도가 빠르다.  트랜스포머 모델은 인코더(Encoder)와 디코더(Decoder)의 두 주요 구성요소로 나뉜다. 이들은 각각 N개의 트랜스포머 블록(Transformer Block)으로 구성된다. 이 블록은 멀티 헤드 어텐션(Multi-Head Attention)과 순방향 신경망(Feed-Forward Network)으로 이루어져 있다. 이러한 구성요소를 통해 입력 시퀀스의 복잡한 ..

어텐션 메커니즘(Attention Mechanism)

어텐션 메커니즘(Attention Mechanism)은 주로 시퀀스 데이터 처리에 사용되는 기술로 seq2seq(Sequence-to-sequence) 모델의 성능을 향상시키기 위해 도입된 기법이다.    seq2seq 모델은 위 그림의 예시와 같이 인코더(Encoder)와 디코더(Decoder)로 구성된 신경망 구조로, 입력 시퀀스를 인코더를 통해 고정된 길이의 벡터로 인코딩하여 문맥 벡터(Context Vector)를 생성하고, 디코더가 이를 다시 시퀀스로 변환하여 출력하는 딥러닝 모델이다. seq2seq는 기계번역 같은 많은 자연어처리 문제에서 유용하지만, 고정된 길이에 전체 입력 시퀀스를 압축하기 때문에 정보 손실이 발생한다. 또한 기울기 소실 문제가 발생하여 훈련이 불안정해진다. 이러한 seq2..

합성곱 신경망 기반 이미지 분류 모델 : ResNet, EfficientNet

합성곱 신경망 기반 이미지 분류 모델  합성곱 신경망(Convolutional Neural Network, CNN)은 주로 이미지 인식과 같은 컴퓨터비전 분야의 데이터를 분석하기 위해 사용되는 인공 신경망의 한 종류이다.    합성곱 신경망은 입력 데이터의 지역적인 특징을 추출하는 데 특화된 구조를 갖고 있으며 이를 위해 합성곱(Convolution) 연산을 사용한다. 합성곱 연산은 이미지의 특정 영역에서 입력 값의 분포 또는 변화량을 계산해 출력 노드를 생성한다. 특정 영역 안에서 연산을 수행하므로 지역 특징(Local Features)을 효과적으로 추출할 수 있다. [그림 2-1]과 같이 Convolution 층이 입력 이미지에서 작은 영역을 스캔하여 중요한 특징을 추출한다. 그 다음 Max-Pool..