분류 전체보기 172

[NLP] Interpretability - Mechanistic Interpretability

이 게시글은 서울대학교 데이터사이언스대학원 조요한 교수님의거대언어모델과 대화형 인공지능 강의를학습을 위해 재구성하였습니다 현재 우리 수업에서 와 있는 부분이다 alignment와 관련되어 있는 알고리즘은 이제 끝이났고이제부터는 학습이 된 모델을 어떻게 해석할수있는지를 다루는 interpretability이다 Motivation이다 언어모델에는 black box라고 하는 특징이 있는데언어모델이 잘 작동을 하는건 알고있는데 왜 작동을 하고있는건지그 내부의 로직을 알기가 굉장히 어렵다그래서 나온 분야가 mechanistic interpretability이다언어모델을 reverse engineering하는 과학의 영역이다 언어모델에게 task를 주었을 때 이 언어모델이 task를 풀어나가기 위해서내..

강의/NLP 2026.04.26

[NLP] Alignment - Learning from AI Feedback

이 게시글은 서울대학교 데이터사이언스대학원 조요한 교수님의거대언어모델과 대화형 인공지능 강의를학습을 위해 재구성하였습니다 지난 시간에는 RLHF와 DPO에 대해서 봤는데이번엔 AI feedback을 이용해서 어떻게 alignment를 시켰는지에 대한 내용이다AI가 스스로 피드백을 하는 것에 대한 내용이다조금 가벼운 내용이라 간단하게 정리하고 넘어가보려한다 우리가 이전에 배운 내용들에서는 학습 데이터로 human annotation을 사용했는데이게 되게 비싸고, 느리고, 스케일링하기가 어려웠다LLM은 계속해서 발전해오고 있었는데 그게 스스로 evaluate를 하고 improve를 하는 단계까지 왔다따라서 AI feedback을 사용해서 그들이 스스로 alignment를 할 수 있지않을까 하던 것이었..

강의/NLP 2026.04.26

[NLP] Alignment - Advanced Algorithms

이 게시글은 서울대학교 데이터사이언스대학원 조요한 교수님의거대언어모델과 대화형 인공지능 강의를학습을 위해 재구성하였습니다 오늘 배울 내용은 alignment에서 advanced algorithm 위 부분에 대한 내용이다 우리가 지금까지 배운 RLHF와 DPO가 성공적인 알고리즘이었다특히 DPO같은 경우는 preference learning algorithm의 대명사인데단순하고 간단하면서도 효과가 좋기 때문이다그런데 이런 DPO와 같은 방법들도 문제점이 있다그래서 이를 해결하는 방법들이 나오기 시작했다 그중 첫 번째는 IPO이다 실제로 우리가 preference data를 이용해서 학습을 할 때현실세계에서는 preference data가 충분히 많지가 않다이 학습 데이터가..

강의/NLP 2026.04.13

[NLP] Alignment - Direct Preference Optimization

이 게시글은 서울대학교 데이터사이언스대학원 조요한 교수님의거대언어모델과 대화형 인공지능 강의를학습을 위해 재구성하였습니다 오늘 수업에 들어가기에 앞서서 지난 시간에 배운InstructGPT와 PPO 내용을 다시 한 번 복습해보고 못다한 부분을 마무리해보자 지난 시간의 내용이었다총 3가지의 스텝이 있었는데일반적인 SFT model을 만들고리워드 모델을 만들고학습된 리워드 모델을 바탕으로 강화학습을 시키는 과정이었다 강화학습은 크게 3가지의 objective가 있었다 expected reward를 단순히 높이는 방식으로만 하면 모델이 reward hacking을 수행한다단순히 리워드를 잘 받기 위해서 의미없는 텍스트를 내뱉는 경향이 생기기 때문에기존에 SFT를 시켜놓은 모델로부터 너무 멀어지..

강의/NLP 2026.04.12

[NLP] Alignment - Reinforcement Learning from Human Feedback (InstructGPT)

이 게시글은 서울대학교 데이터사이언스대학원 조요한 교수님의거대언어모델과 대화형 인공지능 강의를학습을 위해 재구성하였습니다 오늘 배울 내용은 reinforcement learning from human feedback 전체 수업 과정 중에서 이정도까지 왔는데 이 부분은 언어모델의 학습의 일부분인데 가장 마지막 단계에 해당된다 사람의 value와 좀 더 align을 잘 시키기 위한 과정인데크게 2가지 주제가 있다첫 번째는 alignment로 실제 학습하는 부분이고저 ppt에 나와있는 3개 부분의 내용이 굉장히 techinical한 내용이다 두번째 주제는 interpretability인데 해석가능성이다 위에서 말했지만 이 내용은 기술적인 내용이라 수식이 많아서조금 어렵게 느껴질 수 있다 이 Re..

강의/NLP 2026.04.11

[NLP] Supervised Fine-tuning (Instruction Tuning and Reasoning)

이 게시글은 서울대학교 데이터사이언스대학원 조요한 교수님의거대언어모델과 대화형 인공지능 강의를학습을 위해 재구성하였습니다 이번 시간에 배운 내용은 instruction tuning and reasoning이다 사용자와 언어 모델간의 interaction을 하기 위한 부분인데오늘은 instruction tuning과 reasoning과 관련된 부분이다 위 논문의 내용을 살펴보자 기존에 training 한 것 자체는 그대로 유지를 하되데이터를 약간 다른 format으로 바꾸서 해보자는 것이다이걸 하는 이유는 사람들이 묻는 것에 대답을 할 수 있게 하기 위함이다 user의 instruction이 들어왔을 때 모범 답안으로 뭘 뱉어야하는가를 학습한다이렇게 실제 instruction에 대..

강의/NLP 2026.04.11

[NLP] Supervised Fine-tuning (Dialogue Fine-tuning)

이 게시글은 서울대학교 데이터사이언스대학원 조요한 교수님의거대언어모델과 대화형 인공지능 강의를학습을 위해 재구성하였습니다 위는 이번 자연어처리 수업에서 다루고 있는 토픽들이다앞의 3개가 언어모델을 학습시키는 과정에 대한 내용이다 저번시간까지 GPT3와 decoding methods를 마지막으로pre-training이 끝나고 이제 supervised learning으로 들어간다 사전학습 된 모델을 바탕으로 user와 티키타카를 하기 위한 interaction을 하는 과정인데dialogue를 왔다갔다 할 수 있게 하는 dialogue finetuning이다 pretraining은 주로 text autocomplete에 가까웠다다음 단어를 그럴싸하게 예측하고 텍스트를 자동완성하는 것이..

강의/NLP 2026.04.05

[NLP] Language Models - GPT2, GPT3 and Decoding Methods

이 게시글은 서울대학교 데이터사이언스대학원 조요한 교수님의거대언어모델과 대화형 인공지능 강의를학습을 위해 재구성하였습니다 이번 수업은 저번시간에 이어서 GPT2, 3를 배우고decoding methods를 배운다 GPT2의 목적은 GPT1의 성능을 극대화하는 것이었다 언어모델의 성능을 측정하는 여러가지 메트릭이 있는데NLP에서 가장 많이 쓰는 방식 중 한개가 바로 perplexity이다 평가자하고자 하는 모델이 얼마나 자연스러운 텍스트를 생성할 확률이 높은지를 재고싶은 것인데위 식에서 w1부터 wN까지가 텍스트들이다모델이 계산한 확률에 마이너스 N분의 1제곱이 perplexity의 정의이다각각의 단어의 자리에서 conditional probability를 다 곱해주면 된다이 값은 ..

강의/NLP 2026.03.31

[NLP] Language Models - GPT

이 게시글은 서울대학교 데이터사이언스대학원 조요한 교수님의거대언어모델과 대화형 인공지능 강의를학습을 위해 재구성하였습니다 이번에 정리해 볼 내용은 GPT이다 지난 시간에 배운 내용을 살짝 복습해보자 지난 시간에는 transformer의 encoder와 decoder를 배웠고좋은 foundation model로 거듭나기위한 pretraining 과정을 배웠다 그리고 BERT를 배웠는데이 BERT에서 transformer 구조를 잘 활용하기 위해 2가지 pretraining을 수행한다첫 번째가 Masked Language Modeling과Next Sentence Prediction이었다 그 결과로 각각의 attention head가 linguistic property를 담당하는 역할을..

강의/NLP 2026.03.30

[NLP] Language Models - BERT

이 게시글은 서울대학교 데이터사이언스대학원 조요한 교수님의거대언어모델과 대화형 인공지능 강의를학습을 위해 재구성하였습니다 오늘의 내용은 BERT 지난 시간 내용에 대해서 살짝 복습해보자지난 시간에는 트랜스포머 아키텍처에 대해서 배웠었다 그 중에서도 주로 인코더 부분에 대해서 배웠는데트랜스포머의 인코더에서는토큰들이 입력으로 들어가면 embedding matrix와 position matrix를 거쳐서하나의 initial vector로 변환을 했었다 그 이후 각각의 Transformer layer에 대해서 self attention을 수행한다multi-head attention head가 3개가 있다고 가정했을 때Wq, Wk, Wv라는 matrix를각 token의 query, k..

강의/NLP 2026.03.22