생성형 인공지능 1주차

트랜스포머 디코더 모델인 생성형 사전 학습 트랜스포머를 기반으로 한다.

BERT에서 GPT로 모델이 진화하였다.

사용자 쿼리를 기반으로 텍스트 응답을 생성한다.

대규모 언어 데이터 세트로 사전학습을 하고(Pre-training), 강화학습을 통한 사용자 피드백(RLHF)으로 미세조정(Fine-Tuning)을 한다. (크게 2단계)

텍스트, 이미지, 음악등의 콘텐츠 생성을 중점으로 하는 인공지능의 분야

데이터에 대한 요구가 높아, 데이터의 품질이 좋지 않으면 성능에 영향을 미친다.

VAE: 데이터의 숨겨진 특징(잠재 변수)을 학습하는 모델, 잠재공간을 학습하여 새로운 이미지를 생성하는 방식이다.(영상의 잠재 변수 분포를 학습, 이 분포를 기반으로 새 이미지를 생성)

예를 들어, 잠재 공간에 고양이의 귀모양, 눈크기, 털 색깔, 등의 특징이 압축되어 저장되며 그 특징들을 조합하여 새로운 고양이 사진을 생성하는 방식

텍스트 코퍼스란? 언어 데이터를 모아둔 집합을 의미한다.