이 게시글은 서울대학교 데이터사이언스대학원 조요한 교수님의거대언어모델과 대화형 인공지능 강의를학습을 위해 재구성하였습니다 현재 우리 수업에서 와 있는 부분이다 alignment와 관련되어 있는 알고리즘은 이제 끝이났고이제부터는 학습이 된 모델을 어떻게 해석할수있는지를 다루는 interpretability이다 Motivation이다 언어모델에는 black box라고 하는 특징이 있는데언어모델이 잘 작동을 하는건 알고있는데 왜 작동을 하고있는건지그 내부의 로직을 알기가 굉장히 어렵다그래서 나온 분야가 mechanistic interpretability이다언어모델을 reverse engineering하는 과학의 영역이다 언어모델에게 task를 주었을 때 이 언어모델이 task를 풀어나가기 위해서내..