NLP 2

[DL] Transformer 2편 (Transformer for Language, BERT & GPT)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다 이번 시간은 저번 시간에 계속해서 transformer를 배운다 지난 시간에는 attention을 배웠고그 attention이 transformer layer에서 어떻게 작동하는지를 배웠다 이번 시간에는 transformer가 어떻게 사용되는지즉, 우리가 사용하고 있는 language model에서 트랜스포머가 어떻게 사용되고있는지 배운다 일반적으로는 transformer = language model = NLP 이런 느낌인데우리가 지난 시간에 배운 Transformer layer는 상당히 general한 느낌이 강했다transformer에 input으..

[DL] Transformer 1편 (Residual Network, Multi-head Self Attention)

본 게시글은서울대학교 데이터사이언스대학원 오민환 교수님의데이터사이언스를 위한 머신러닝 및 딥러닝1 수업을학습을 목적으로 재구성하였습니다 이번 시간과 다음 시간에는 transformer에 대해서 배워본다우선 이번 시간에는 transformer에 대해서 배우기 이전에residual network라는 개념에 대해서도 배워본다 우선 Residual network에 대해서 살펴보자우리가 지난 시간에 CNN에 대해서 살펴봤는데레이어의 숫자가 큰 것과 작은 것을 상대적으로 비교해보자 왼쪽은 test 에러의 그래프이고 오른쪽은 train error의 그래프이다test error건 train error건 레이어의 숫자가 더 큰 것이퍼포먼스가 안좋게 나오는 것을 확인할 수 있다 종종 이런경우가 나오긴하는..