생성형 인공지능 강의 정리본

1주차

1. ChatGpt란 무엇인가?

ChatGPT는 OpenAI가 개발한 초거대 언어 모델(LLM)로, GPT(Generative Pre-trained Transformer)를 기반으로 한다. 사용자의 질문을 입력받아 자연스러운 텍스트를 생성하며 ==Transformer의 Decoder 구조==를 사용한다.

2. ChatGPT는 어떻게 학습되는가?

ChatGPT는 대규모 언어 데이터셋을 이용하여 사전학습을 수행한 후, 인간의 피드백을 이용한 강화학습(RLHF)을 통해 미세조정(Fine-tuning)된다.

사전학습 -> 인간의 피드백을 통한 강화학습(RLHF) -> 미세조정

3. ChatGPT의 한계

ChatGPT는 최신 정보가 제한될 수 있으며, 사실에 근거하지 않은 답변을 생성할 수 있다. 또한 모호한 질문에 대해서는 추측에 의한 응답을 생성할 가능성이 있다.

4. 인코더와 디코더

생성형 AI는 Encoder와 Decoder로 구성된다. ==Encoder는 입력 데이터를 해석하여 특징 정보를 추출==하고, Decoder는 이를 바탕으로 새로운 출력을 생성한다.

5. 생성형 AI의 대표적인 네트워크 구조

GAN: 생성기(Generator)와 판별기(Discriminator)로 구성된다.
VAE: 인코더와 디코더를 이용하여 데이터를 생성한다.
Flow-based Model: 데이터의 확률분포를 학습한다.
**Diffusion Model: 노이즈를 추가하고 제거하는 과정을 반복하여 데이터를 생성한다.**

6. 인지 인공지능과 생성형 인공지능의 차이

인지 인공지능은 데이터를 이해하고 분석하는 데 주력하는 반면, 생성형 인공지능은 새로운 콘텐츠를 생성하는 데 중점을 둡니다.

2주차

1. 재귀 신경망(RNN)이 필요한 이유

자연어 데이터는 **단어 간의 순서와 문맥이 중요하므로 이전 정보를 기억할 수 있는 메모리 기능**이 필요하다. 이를 위해 ==순차 데이터를 처리할 수 있는 재귀 신경망(RNN)==이 사용된다.

2. RNN 구조

RNN은 ==이전 시점의 정보를 은닉 상태==에 저장하여 현재 입력과 함께 처리함으로써 ==시계열 데이터나 자연어와 같은 순차 데이터==를 효과적으로 처리할 수 있다.

3. 양방향 RNN(Bidirectional RNN)

양방향 RNN은 순방향과 역방향 정보를 모두 이용하여 전체 입력 시퀀스를 활용하므로 단방향 RNN보다 문맥 정보를 더 효과적으로 학습할 수 있다.

4. RNN의 문제점

RNN은 긴 시퀀스를 학습할 때 ==기울기 소실(Vanishing Gradient)과 기울기 폭주(Exploding Gradient)==가 발생할 수 있다. 이로 인해 장기 의존성을 학습하기 어렵고 학습 과정이 불안정해지는 문제가 있다. 가변길이 벡터를 사용하는 아키텍처나 주의 매커니즘을 통해 해결할 수 있다.

5. RNN 개선 방법

RNN의 기울기 소실과 폭주 문제를 해결하기 위해 LSTM과 GRU가 제안되었다.

6. LSTM(Long Short-Term Memory)

LSTM은 ==포겟 게이트, 입력 게이트, 출력 게이트==를 이용하여 정보를 선택적으로 저장하고 제거한다. 또한 Cell State를 통해 장기 기억을 유지함으로써 RNN의 장기 의존성 문제를 완화한다.

7. GRU(Gated Recurrent Unit)

GRU는 LSTM을 단순화한 구조로, Update Gate와 Reset Gate를 사용하여 정보를 조절한다. 별도의 Cell State 없이 Hidden State가 기억 기능을 수행한다.

8. Encoder-Decoder 구조

Encoder는 입력 시퀀스를 벡터로 변환하고 Decoder는 이를 이용하여 출력 시퀀스를 생성한다. 이 구조는 기계 번역 등에 활용된다.

9. Attention Mechanism

Attention 메커니즘은 ==입력 문장의 모든 정보 중 중요한 부분에 가중치를 부여==하여 필요한 정보에 집중하도록 한다. 이를 통해 긴 문장에서 발생하는 정보 손실 문제를 개선할 수 있다.

10. Bahdanau Attention

Bahdanau(바다나우) Attention은 **디코더가 출력 단어를 생성할 때마다 인코더의 모든 은닉 상태를 참조하여 적절한 정보를 선택하는 방법**이다.

11. Seq2Seq

Seq2Seq 모델은 입력 시퀀스를 인코더가 벡터로 변환하고, 디코더가 이를 이용하여 새로운 출력 시퀀스를 생성하는 모델로 기계 번역 등에 활용된다.

3주차: Deep Learning (딥러닝)

1. 머신러닝과 딥러닝의 차이는 무엇인가?

머신러닝은 특징 추출 과정과 분류 과정이 분리되어 있지만, 딥러닝은 다층 신경망을 이용하여 특징 추출과 분류를 동시에 수행하며 데이터를 통해 자동으로 특징을 학습한다.

2. 컨볼루션(Convolution)이란 무엇인가?

컨볼루션은 필터를 입력 데이터에 적용하여 특징을 추출하는 연산으로, 이미지의 중요한 정보를 나타내는 특징 맵을 생성한다.
==컨볼루션 신경망 레어어 구성요소: 컨볼루션 레이어, 풀링 레이어, 완전 연결 레이어
==

3. Stride란 무엇인가?

==Stride는 필터가 가로와 세로 방향으로 이동하는 간격을 의미==하며, 값이 커질수록 출력 특성 맵의 크기는 작아진다.

4. Padding이란 무엇인가?

Padding은 입력 데이터의 가장자리에 값을 추가하여 출력 크기가 지나치게 감소하는 것을 방지하고 경계 정보를 보존하기 위한 기법이다.

5. 다층 신경망(ANN)은 어떻게 구성되는가?

다층 신경망은 입력층, 은닉층, 출력층으로 구성되며, 은닉층을 통해 데이터의 복잡한 특징을 학습한다.

6. 활성화 함수(Activation Function)의 역할은 무엇인가?

활성화 함수는 **신경망에 비선형성을 부여하여 복잡한 패턴을 학습할 수 있도록 한다.**
활성화 함수의 기능: 쌍곡탄젠트, 정류된 선형 단위, 시그모이드

7. 손실 함수(Loss Function)의 역할은 무엇인가?

손실 함수는 모델의 예측값과 실제값의 차이를 측정하여 학습의 기준을 제공한다.

8. 최적화 알고리즘의 역할은 무엇인가?

최적화 알고리즘은 손실 함수를 최소화하도록 가중치를 갱신하는 방법이다.

9. 역전파(Backpropagation)란 무엇인가?

역전파는 **출력층에서 발생한 오차를 입력 방향으로 전달하면서 가중치를 갱신**하는 학습 방법이다.

10. Pooling Layer의 역할은 무엇인가?

Pooling Layer는 특징 맵의 크기를 줄여 계산량을 감소시키고 중요한 특징만 유지한다.

11. 이동 불변성(Translation Invariance)이란 무엇인가?

이동 불변성이란 입력 객체의 위치가 일부 변하더라도 동일한 객체로 인식할 수 있는 성질이다.

12. 적대적 공격(Adversarial Attack)이란 무엇인가?

적대적 공격은 입력 데이터에 미세한 변화를 주어 인공지능 모델이 잘못된 결과를 출력하도록 만드는 공격 기법이다.

4주차: 트랜스포머1

1. 워드 임베딩(Word Embedding)이란 무엇인가?

워드 임베딩은 단어를 **고차원 벡터 공간상의 연속적인 숫자 벡터로 표현하는 기술**이다. 단어 간 의미적 관계를 벡터의 거리와 방향으로 표현하여 의미가 비슷한 단어들이 유사한 벡터를 갖도록 학습한다. NLP 기술이다.

2. One-Hot Encoding의 특징과 한계에 대해 설명하시오.

One-Hot Encoding은 단어 집합에서 해당 단어의 위치만 1이고 나머지는 0으로 표현하는 방법이다. 구현이 간단하지만 단어 간 의미 관계를 표현할 수 없으며, 어휘 수가 많아질수록 벡터 차원이 커져 계산 효율이 떨어진다는 한계가 있다.

3. Bag-of-Words(BoW)에 대해 설명하시오.

Bag-of-Words는 ==문서에서 단어의 빈도를 계산하여 문장이나 문서를 벡터로 표현하는 방법==이다. 단어의 순서와 문맥은 무시하고 단어의 출현 빈도만 고려하므로 단순하고 효율적이지만 단어 간 의미 관계를 반영하지 못한다.

4. TF-IDF(Term Frequency-Inverse Document Frequency)에 대해 설명하시오.

TF-IDF는 문서에서 자주 등장하지만 전체 문서에서는 드물게 나타나는 단어에 높은 가중치를 부여하는 방법이다. 이를 통해 특정 문서에서 중요한 단어를 파악할 수 있으며 문서의 특징을 효과적으로 표현할 수 있다.

5. Word2Vec의 특징에 대해 설명하시오.

Word2Vec은 단어를 연속적인 벡터 공간으로 표현하여 단어 간 의미적 관계를 학습하는 방법이다. Skip-Gram과 CBOW 구조를 사용하며, ==의미가 비슷한 단어들이 비슷한 벡터를 가지도록 학습==하여 단어 간 유사성과 관계를 표현할 수 있다.

6. Self-Attention이란 무엇인지 설명하시오.

Self-Attention은 입력 문장 내 각 단어가 다른 단어들과의 관련성을 계산하여 중요한 단어에 집중하는 메커니즘이다. 이를 통해 문맥 정보를 효과적으로 반영할 수 있으며, 트랜스포머 모델의 핵심 구성 요소로 사용된다. 딥러닝과 자연어처리의 메커니즘이다.

6-1. Self-Attention의 장점

7. Query, Key, Value의 역할에 대해 설명하시오.

Query는 현재 단어가 찾고자 하는 정보를 나타내고, Key는 각 단어가 가진 특징을 나타내며, Value는 실제 전달되는 정보를 담고 있다. Query와 Key의 유사도를 계산하여 주의 점수를 얻고, 이를 이용해 Value를 가중합함으로써 문맥 정보를 반영한 표현을 생성한다.

8. Attention Mask의 역할에 대해 설명하시오.

Attention Mask는 모델이 특정 위치의 정보를 보지 못하도록 제한하는 기능이다. 특히 디코더에서는 미래 단어를 미리 참조하지 못하도록 마스킹하여 순차적인 문장 생성이 가능하도록 한다.

9. Multi-Head Attention의 장점에 대해 설명하시오.

Multi-Head Attention은 **여러 개의 Attention을 동시에 수행하여 서로 다른 관점에서 단어 간 관계를 학습하는 방법**이다. 이를 통해 문장의 다양한 의미적, 문법적 관계를 효과적으로 파악할 수 있으며 모델의 표현력을 향상시킨다.

10. 트랜스포머의 인코더와 디코더의 역할을 설명하시오.

==인코더는 입력 문장의 정보를 이해하여 문맥 정보를 포함한 표현으로 변환하는 역할을 수행==한다. 디코더는 **인코더의 출력과 이전에 생성한 단어들을 바탕으로 다음 단어를 예측하여 최종 출력 문장을 생성**한다.

11. 포지션 인코딩(Position Encoding)이 필요한 이유를 설명하시오.

트랜스포머는 단어를 순차적으로 처리하지 않기 때문에 단어의 위치 정보를 알 수 없다. 따라서 포지션 인코딩을 사용하여 각 단어의 위치 정보를 추가함으로써 문장 내 순서를 반영할 수 있도록 한다.

12. Linear와 Softmax 층의 역할을 설명하시오.

디코더의 출력은 Linear 층을 거쳐 각 단어에 대한 점수로 변환된다. 이후 ==Softmax 함수를 적용하여 각 단어가 다음 단어가 될 확률 분포를 생성==하며, 가장 높은 확률을 가진 단어가 최종적으로 선택된다.

5주차: 트랜스포머2

1. 영상 패치 임베딩(Image Patch Embedding)이란 무엇인가?

영상 패치 임베딩은 이미지를 작은 패치 단위로 분할한 뒤, 각 패치를 고정된 차원의 벡터로 변환하는 과정이다. 이를 통해 트랜스포머가 이미지를 입력으로 처리할 수 있으며, 지역적 특징과 전체적인 특징을 함께 학습할 수 있다.

2. 영상 패치 임베딩 과정에 대해 설명하시오.

영상 패치 임베딩은 이미지를 일정한 크기의 패치로 분할한 후 각 패치를 1차원 벡터로 펼치고, 이를 임베딩 차원 공간으로 매핑하는 과정으로 이루어진다. 이렇게 생성된 벡터들이 트랜스포머의 입력으로 사용된다.

3. Vision Transformer(ViT) 모델에 대해 설명하시오.

Vision Transformer(ViT)는 ==이미지를 여러 개의 패치로 나누어 각 패치를 임베딩한 후 트랜스포머 인코더를 이용해 특징을 추출하고, 최종적으로 MLP Head를 통해 이미지를 분류하는 모델==이다.

4. Flatten Patch란 무엇인가?

Flatten Patch는 이미지를 일정한 크기의 패치로 나눈 뒤 각 패치를 1차원 벡터 형태로 펼치는 과정이다. 이를 통해, 2차원 이미지 데이터를 트랜스포머가 처리할 수 있는 형태로 변환한다.

5. Class Embedding이란 무엇인가?

Class Embedding은 패치 임베딩 시퀀스 앞에 추가되는 학습 가능한 벡터로, 트랜스포머 인코더의 출력에서 이미지 전체를 대표하는 정보로 사용되며 최종 이미지 분류에 활용된다.

6. Positional Embedding이 필요한 이유를 설명하시오.

트랜스포머는 입력 데이터의 위치 정보를 자체적으로 알 수 없기 때문에, 각 패치의 위치 정보를 제공하기 위해 Positional Embedding을 추가한다. 이를 통해 모델은 패치 간의 공간적 관계를 학습할 수 있다.

7. U-Net 모델에 대해 설명하시오.

U-Net은 Encoder와 Decoder 구조로 이루어진 모델로, Encoder에서 특징을 추출하고 Decoder에서 해상도를 복원하여 픽셀 단위의 예측을 수행한다. 주로 이미지 분할(Segmentation) 작업에 사용된다.

8. U-Net의 장점을 설명하시오.

U-Net은 적은 양의 데이터에서도 우수한 성능을 보이며, Encoder와 Decoder를 연결하는 Skip Connection을 통해 세밀한 위치 정보를 보존하여 정확한 이미지 분할이 가능하다는 장점이 있다.

9. U-Net의 한계 및 단점을 설명하시오.

U-Net은 구조가 복잡하여 계산량과 메모리 사용량이 많으며, 다양한 환경에 대한 일반화 성능에 한계가 있을 수 있다.

10. Multi-Head Attention이란 무엇인가?

Multi-Head Attention은 여러 개의 Attention을 병렬로 수행하여 입력 데이터의 다양한 관계를 동시에 학습하는 방법이다. 이를 통해 여러 관점에서 특징을 추출할 수 있어 표현력이 향상된다.

11. Soft Attention과 Hard Attention의 차이를 설명하시오.

Soft Attention은 모든 입력에 가중치를 부여하여 정보를 활용하는 방식이며, Hard Attention은 특정 영역이나 정보만 선택적으로 집중하는 방식이다.

12. Multi-Head Attention의 장점을 설명하시오.

Multi-Head Attention은 입력 데이터의 다양한 특징과 관계를 여러 관점에서 동시에 학습할 수 있으며, 모델의 표현력과 성능을 향상시킨다.

13. 트랜스포머가 컴퓨터 비전 분야에 활용되는 예를 설명하시오.

트랜스포머는 **영상 분류(Image Classification), 물체 감지(Object Detection), 이미지 분할(Image Segmentation) 등 다양한 컴퓨터 비전 분야에 활용**될 수 있으며, 대표적인 모델로 Vision Transformer(ViT)가 있다.

14. Vision Transformer(ViT)의 한계 및 단점을 설명하시오.

Vision Transformer는 많은 양의 학습 데이터가 필요하며 계산량이 크다. 또한 CNN에 비해 지역적인 특징을 학습하는 능력이 부족할 수 있다는 한계가 있다.

6주차: 언어 모델

1. BERT 모델이란 무엇인가?

BERT(Bidirectional Encoder Representations from Transformers)는 ==Transformer의 인코더 구조를 기반으로 한 양방향 언어 모델==이다. 문장의 앞뒤 문맥을 동시에 고려하여 단어의 의미를 이해하며, 사전학습을 통해 얻은 지식을 다양한 자연어 처리 작업에 활용할 수 있다.

2. BERT와 GPT의 차이를 설명하시오.

BERT는 양방향 문맥 정보를 활용하여 문장의 의미를 이해하는 데 강점을 가진 모델이며, GPT는 이전 단어를 바탕으로 다음 단어를 예측하는 단방향 생성 모델이다. 따라서 BERT는 문장 분류나 질의응답 등에 적합하고, GPT는 텍스트 생성과 대화 시스템 등에 적합하다.

3. BERT의 사전학습(Pre-training) 작업에 대해 설명하시오.

**BERT는 사전학습 단계에서 Masked Language Model(MLM)과 Next Sentence Prediction(NSP)을 이용**한다. MLM은 가려진 단어를 예측하는 작업이며, NSP는 두 문장이 연속된 문장인지 판단하는 작업이다. 이를 통해 문맥 정보를 효과적으로 학습할 수 있다.

4. Masked Language Model(MLM)에 대해 설명하시오.

Masked Language Model은 입력 문장의 일부 단어를 가린 뒤 주변 문맥을 이용하여 원래 단어를 예측하도록 학습하는 방법이다. 이를 통해 모델은 단어 간의 의미적 관계와 문맥 정보를 효과적으로 학습할 수 있다.

5. Fine-Tuning(미세조정)이란 무엇인가?

Fine-Tuning은 대규모 데이터로 사전학습된 모델을 특정 작업에 맞도록 추가 학습시키는 과정이다. 적은 양의 데이터로도 높은 성능을 얻을 수 있으며, 문장 분류, 질의응답, 개체명 인식 등 다양한 자연어 처리 작업에 활용된다.

6. GPT 모델이란 무엇인가?

GPT(Generative Pre-trained Transformer)는 Transformer 구조를 기반으로 한 생성형 언어 모델이다. 대량의 텍스트 데이터를 이용해 사전학습을 수행하며, 이전 단어들을 바탕으로 다음 단어를 예측하여 자연스러운 문장을 생성한다.

7. GPT 모델의 장점을 설명하시오.

GPT는 자연스러운 문장 생성 능력이 뛰어나며, 텍스트 생성, 번역, 요약, 질의응답 등 다양한 자연어 처리 작업에 활용될 수 있다. 또한 대규모 사전학습을 통해 적은 추가 학습만으로도 높은 성능을 얻을 수 있다.

8. GPT 모델의 단점 및 한계를 설명하시오.

GPT는 잘못된 정보를 사실처럼 생성할 수 있으며, 학습 데이터에 포함된 편향을 반영할 수 있다. 또한 많은 연산 자원이 필요하며, 최신 정보나 사실에 대한 정확성이 부족할 수 있다는 한계를 가진다.

9. Interactive GPT Model에 대해 설명하시오.

Interactive GPT Model은 사용자와 상호작용하면서 입력에 적절한 응답을 생성하는 모델이다. 챗봇, 가상 비서, 교육 시스템, 게임 스토리 생성 등 다양한 분야에서 활용될 수 있다.

10. 인간 피드백 학습(RLHF)이란 무엇인가?

인간 피드백 학습(Reinforcement Learning from Human Feedback)은 ==사람이 모델의 응답을 평가하거나 선호도를 제공==하고, 이를 바탕으로 모델이 더 적절한 답변을 생성하도록 학습시키는 방법이다. 이를 통해 인공지능은 사람의 의도와 가치에 더욱 부합하는 응답을 생성할 수 있다.

11. 인간 피드백 학습의 장점을 설명하시오.

인간 피드백 학습은 인공지능이 사람의 선호와 의도를 반영한 응답을 생성할 수 있도록 하여 답변의 품질과 사용자 만족도를 향상시킨다. 또한 보다 안전하고 자연스러운 대화가 가능하도록 돕는다.

12. 인간 피드백 학습의 문제점을 설명하시오.

인간 피드백 학습은 많은 시간과 비용이 필요하며, 피드백을 제공하는 사람의 주관이나 편향이 모델에 반영될 수 있다는 한계가 있다. 또한 일관된 품질의 피드백을 수집하기 어렵다는 문제점이 존재한다.

13. 생성형 인공지능 모델이 전이학습을 통해 얻는 이점

사전 학습된 모델을 기반으로 새로운 다운스트림 테스크를 빠르게 학습 할 수 있다.

7주차: 대결형 생성 네트워크(GAN)

1. GAN(Generative Adversarial Network)이란 무엇인가?

==GAN은 생성자(Generator)와 판별자(Discriminator)==가 서로 경쟁하며 학습하는 생성 모델이다. 생성자는 실제 데이터와 유사한 데이터를 생성하고, 판별자는 생성된 데이터와 실제 데이터를 구별한다. 이러한 적대적 학습 과정을 반복함으로써 고품질의 새로운 데이터를 생성할 수 있다.

2. 생성자(Generator)와 판별자(Discriminator)의 역할을 설명하시오.

생성자는 무작위 노이즈를 입력받아 새로운 데이터를 생성하는 역할을 수행한다. 판별자는 생성된 데이터와 실제 데이터를 비교하여 진짜인지 가짜인지를 판단한다. 두 모델은 경쟁적인 학습을 통해 서로의 성능을 향상시킨다.

3. GAN의 적대적 과정(Adversarial Process)을 설명하시오.

GAN의 적대적 과정은 생성자가 판별자를 속일 수 있는 데이터를 생성하고, 판별자는 생성된 데이터와 실제 데이터를 구별하려고 학습하는 과정이다. 이러한 경쟁이 반복되면서 생성자는 더욱 현실적인 데이터를 생성할 수 있게 된다.

4. GAN의 반복 훈련 과정에 대해 설명하시오.

GAN은 생성자가 가짜 데이터를 생성한 후, 판별자가 실제 데이터와 생성 데이터를 구별한다. 이후 판별자의 결과가 생성자에게 피드백으로 전달되어 생성자는 더 실제와 유사한 데이터를 만들도록 학습한다. 이러한 과정을 반복하면서 생성 데이터의 품질이 향상된다.

5. GAN에서 손실 함수(Loss Function)의 역할을 설명하시오.

손실 함수는 생성자와 판별자의 학습 방향을 결정하는 기준이 된다. ==생성자는 판별자를 속일 수 있도록 손실을 최소화==하고, 판별자는 실제 데이터와 생성 데이터를 정확하게 구별하도록 학습한다. 이를 통해 GAN의 성능이 점진적으로 향상된다.

6. GAN에서 내쉬 균형(Nash Equilibrium)이 의미하는 바를 설명하시오.

**내쉬 균형은 생성자와 판별자가 모두 최적의 상태에 도달하여 어느 한쪽도 일방적으로 성능을 개선하기 어려운 상태**를 의미한다. 이 상태에서는 생성된 데이터가 실제 데이터와 매우 유사하여 판별자가 구별하기 어려워진다.

7. 생성 모델과 판별 모델의 차이를 설명하시오.

판별 모델은 입력 데이터를 분류하는 데 목적이 있으며, 생성 모델은 데이터의 분포를 학습하여 새로운 데이터를 생성하는 데 목적이 있다. 따라서 판별 모델은 데이터의 종류를 구분하고, 생성 모델은 기존 데이터와 유사한 새로운 데이터를 만들어낸다.

8. 노이즈(Noise)의 역할을 설명하시오.

노이즈는 생성 모델의 입력으로 사용되는 무작위 값으로, 다양한 형태의 데이터를 생성할 수 있도록 한다. 노이즈를 이용함으로써 생성 모델은 창의적이고 다양한 결과를 만들어낼 수 있다.

9. 잠재 공간(Latent Space)이란 무엇인지 설명하시오.

==잠재 공간은 데이터의 중요한 특징들이 압축되어 표현된 공간==이다. 생성 모델은 잠재 공간의 정보를 활용하여 새로운 데이터를 생성하거나 데이터의 특성을 변화시킬 수 있다.
데이터에서 특징을 추출한 후의 공간

10. 대표적인 생성 모델인 오토인코더(Autoencoder), VAE, GAN, 확산 모델(Diffusion Model)의 특징을 설명하시오.

**오토인코더는 데이터를 압축하고 복원하는 구조**이며, **VAE는 확률 분포를 이용**하여 새로운 데이터를 생성한다. GAN은 생성자와 판별자의 경쟁을 통해 현실적인 데이터를 생성하고, 확산 모델은 노이즈를 점진적으로 제거하면서 데이터를 생성한다.

11. GAN의 한계와 고려 사항에 대해 설명하시오.

GAN은 학습이 불안정하고 모드 붕괴가 발생할 수 있으며, 생성자와 판별자 사이의 균형을 유지하기 어렵다. 또한 생성된 콘텐츠가 허위 정보나 악용에 사용될 가능성이 있어 윤리적 고려와 책임 있는 활용이 필요하다.

12. 조건부 이미지 생성(Conditional Image Generation)이란 무엇인가?

조건부 이미지 생성은 ==특정 조건이나 정보를 입력으로 사용하여 원하는 형태의 이미지를 생성==하는 기술이다. 이를 통해 사용자의 요구에 맞는 다양한 이미지를 생성할 수 있으며 의료 영상, 데이터 증강, 이미지 변환 등 여러 분야에 활용된다.

13. Diffusion 모델과 GAN을 비교하여, 데이터 생성의 안정성과 학습 난이도 측면에서 차이를 설명하시오.

Diffusion은 점진적으로 노이즈를 제거하며 학습한다. 훈련이 안정적이나 생성 속도는 느리다는 특징이 있다. **GAN은 생성자-판별자 경쟁 구조로 생성 속도는 빠르지만 모드 붕괴(mode collapse) 및 학습이 불안정하다는 문제가 있다. 모드 붕괴는 생성된 데이터가 모두 동일하게 학습된다는 문제점이 있다.

9주차: 스타일 GAN

1. 스타일 생성(Style Generation)이 무엇인지 설명하시오.

스타일 생성은 이미지나 영상에 예술적 표현과 창의적 시각 효과를 결합하는 기술이다. 특정 화가의 화풍이나 디자인 스타일을 적용하여 새로운 이미지를 생성하며, 창의성과 미적 감성을 재구성하는 데 활용된다.

2. 스타일 전환(Style Transfer)이 무엇인지 설명하시오.

스타일 전환은 한 이미지의 콘텐츠는 유지하면서 다른 이미지의 스타일을 결합하여 새로운 이미지를 생성하는 기술이다. (뉴런 스타일 전송) 콘텐츠 정보와 스타일 정보를 조합하여 원본의 구조를 유지하면서 새로운 시각적 표현을 만들어낸다.
DS와 DC라는 두가지 거리를 설정하는 것이 아이디어다.

3. 신경망 스타일 전환(Neural Style Transfer)의 원리를 설명하시오.

신경망 스타일 전환은 합성곱 신경망(CNN)을 이용하여 콘텐츠 정보와 스타일 정보를 분리한 후, 콘텐츠 손실과 스타일 손실을 최소화함으로써 콘텐츠 이미지의 구조와 스타일 이미지의 특징이 결합된 새로운 이미지를 생성하는 기술이다.

4. CycleGAN의 특징과 핵심 원리를 설명하시오.

CycleGAN은 짝지어진 학습 데이터가 없어도 두 도메인 사이의 이미지 변환을 학습할 수 있는 GAN 모델이다. 변환된 이미지를 다시 원래 도메인으로 복원했을 때 원본과 유사해야 한다는 순환 일관성(Cycle Consistency)을 이용하여 학습한다.
2개의 생성기 네트워크와 2개의 판별기 네트워크가 포함된다.

5. 예술적 렌더링(Artistic Rendering)이 무엇인지 설명하시오.

예술적 렌더링은 사진이나 이미지를 특정 화가의 작품 스타일처럼 변환하는 기술이다. 색상, 질감, 붓터치 등의 특징을 반영하여 현실 이미지와 예술적 표현이 조화를 이루는 새로운 이미지를 생성한다.

6. 맞춤형 디자인(Customized Designs)에 스타일 생성 기술이 어떻게 활용되는지 설명하시오.

맞춤형 디자인은 사용자의 목적이나 취향에 맞는 스타일을 적용하여 로고, 광고, 홍보 자료 등을 생성하는 기술이다. 이를 통해 브랜드 정체성을 강화하고 개인화된 창작물을 제작할 수 있다.

7. Neural Style Transfer에서 콘텐츠 손실(Content Loss)과 스타일 손실(Style Loss)의 역할을 설명하시오.

콘텐츠 손실은 생성 이미지가 원본 이미지의 구조와 형태를 얼마나 잘 유지하는지를 측정하며, 스타일 손실은 생성 이미지가 스타일 이미지의 색감과 질감 등의 특징을 얼마나 잘 반영하는지를 측정한다. 학습 과정에서는 두 손실을 동시에 최소화하여 콘텐츠와 스타일이 조화를 이루는 이미지를 생성한다.

8. DCGAN에서 생성기(Generator)와 판별기(Discriminator)의 역할을 설명하시오.

생성기는 무작위 노이즈로부터 실제와 유사한 이미지를 생성하는 역할을 수행한다. 판별기는 입력된 이미지가 실제 데이터인지 생성기가 만든 가짜 데이터인지를 구분하며, 두 네트워크가 경쟁적으로 학습하면서 생성 성능이 향상된다.

9. 모델 성능 평가 기준

민감도: 전체 실제 양성 샘플 중 ==올바르게 예측된 양성 샘플의 비율을 계산하여 오탐율을 최소화==하는데 중점을 둔다

10주차: 영상 주석 달기

1. 인코더-디코더 구조란 무엇인가?

인코더-디코더 구조는 입력 데이터를 인코더가 잠재 표현 또는 컨텍스트 벡터로 변환하고, 디코더가 이를 이용하여 원하는 출력 데이터를 생성하는 구조이다. 인코더는 중요한 특징을 추출하는 역할을 하며, 디코더는 이를 바탕으로 이미지나 문장 등의 결과를 생성한다.

2. 영상 인코더와 언어 인코더에 대해 설명하시오.

영상 인코더는 이미지나 영상에서 시각적 특징을 추출하여 고정된 크기의 벡터로 표현한다. 일반적으로 CNN이나 ViT가 사용된다. 언어 인코더는 단어나 문장을 벡터로 변환하여 의미 정보를 표현하며, 과거에는 LSTM이나 GRU가 사용되었고 최근에는 Transformer 기반 모델이 주로 사용된다.

3. 영상 디코더와 언어 디코더에 대해 설명하시오.

영상 디코더는 잠재 표현을 이용하여 이미지를 복원하거나 생성하는 역할을 수행한다. 언어 디코더는 컨텍스트 벡터를 기반으로 단어를 순차적으로 생성하여 문장을 만들어낸다. 최근에는 Transformer 기반 디코더가 많이 사용된다.

4. 특징 추출(Feature Extraction)이란 무엇인가?

특징 추출은 데이터에서 중요한 정보를 추출하여 표현하는 과정이다. 영상에서는 색상, 질감, 모양 등의 시각적 특징을 추출하며, 자연어 처리에서는 단어 간 의미 관계를 벡터 형태로 표현하여 데이터의 핵심 정보를 효과적으로 나타낸다.

5. 컨텍스트 벡터(Context Vector)의 역할을 설명하시오.

컨텍스트 벡터는 인코더가 입력 데이터로부터 추출한 핵심 정보를 압축하여 저장한 벡터이다. 디코더는 이 벡터를 이용하여 이미지, 문장 또는 캡션과 같은 출력 결과를 생성하며, 입력 데이터의 중요한 정보를 유지하는 역할을 수행한다.

6. 주의 메커니즘(Attention Mechanism)의 역할을 설명하시오.

주의 메커니즘은 디코더가 출력 결과를 생성할 때 입력 데이터의 중요한 부분에 선택적으로 집중하도록 도와준다. 이를 통해 정보 보존 능력을 향상시키고 긴 문장이나 복잡한 이미지에서도 더 정확한 결과를 생성할 수 있다.

7. 이미지 캡션(Image Captioning)의 생성 과정을 설명하시오.

이미지 캡션 생성은 먼저 영상 인코더가 이미지의 시각적 특징을 추출하고, 이후 언어 디코더가 이를 바탕으로 자연어 문장을 생성하는 과정으로 이루어진다. 이를 통해 이미지의 내용을 설명하는 문장을 자동으로 생성할 수 있다.

8. 손실 함수(Loss Function)의 역할을 설명하시오.

손실 함수는 모델의 예측 결과와 실제 정답 사이의 차이를 수치로 나타내는 함수이다. 텍스트 생성에서는 교차 엔트로피 손실 함수가 주로 사용되며, 이미지 생성에서는 평균 제곱 오차(MSE) 등이 사용된다. 모델은 손실 값을 최소화하는 방향으로 학습된다.

9. 이미지 캡션(Image Captioning)의 활용 분야를 설명하시오.

이미지 캡션 기술은 자동화된 보고서 작성, 의료 영상 분석, 교육용 콘텐츠 제작, 자동 감시 시스템, 시각적 질문 답변(VQA) 등 다양한 분야에서 활용된다.

10. 이미지 캡션(Image Captioning)의 한계점에 대해 설명하시오.

이미지 캡션은 객체 인식 오류, 문맥 이해 부족, 세부 상황 설명의 어려움 등의 한계를 가진다. 또한 학습 데이터의 편향으로 인해 부정확한 설명이 생성될 수 있으며, 복잡한 장면에서는 정확한 의미를 전달하지 못할 수 있다.

11. 레이어 평탄화

레이어 평탄화는 다차원 특징 맵을 1차원 백터로 변화하는데 사용한다.

11주차: 언어 명령을 이용한 영상 생성

1. 언어 명령 기반 영상 생성 구조를 설명하시오.

언어 명령 기반 영상 생성은 사용자의 텍스트 명령을 Language Encoder가 이해하고, Visual Encoder가 시각 정보를 처리한 뒤, 트랜스포머 인코더가 언어 정보와 시각 정보를 결합하고 디코더가 최종 영상이나 이미지를 생성하는 구조이다.

2. Language Encoder의 역할을 설명하시오.

Language Encoder는 입력된 자연어 명령을 벡터 형태로 변환하여 텍스트의 의미와 문맥 정보를 추출하는 역할을 수행한다. 추출된 언어 특징은 영상 생성 과정에 활용된다.

3. Visual Encoder의 역할을 설명하시오.

Visual Encoder는 이미지나 영상 데이터를 특징 벡터로 변환하는 부분이다. CNN이나 Vision Transformer 등을 이용하여 시각적 특징을 추출하고 이후 영상 생성 과정에 필요한 정보를 제공한다.

4. 트랜스포머 인코더와 디코더의 역할을 설명하시오.

트랜스포머 인코더는 언어 정보와 시각 정보를 결합하여 의미 있는 표현을 생성하며, 디코더는 이를 바탕으로 새로운 이미지나 영상 프레임을 생성한다.

5. 영상 생성에서 손실 함수의 역할을 설명하시오.

손실 함수는 생성된 영상과 실제 영상 사이의 차이를 계산하여 모델이 더욱 정확한 영상을 생성하도록 학습시키는 역할을 수행한다. 대표적으로 평균제곱오차(MSE), 적대적 손실, 지각 손실, KL 발산 손실 등이 사용된다.

5.1 자각 손실이란?

자각 손실(Perceptual Loss)은 ==신경망의 여러 레이어에서 추출된 특징 표현(feature representation)의 차이를 최소화하도록 학습하는 손실 함수==이다. 이를 통해 시각적 유사성과 사실감을 높일 수 있다.

6. 변형 자동 인코더(VAE)에 대해 설명하시오.

VAE는 인코더와 디코더 구조를 이용하여 데이터를 잠재 공간으로 압축한 뒤 복원하거나 새로운 이미지를 생성하는 생성 모델이다. 모델의 기본 구조를 유지하면서 다양한 해상도의 이미지를 생성할 수 있다.

7. 점진적 성장 GAN(PGGAN)에 대해 설명하시오.

PGGAN은 낮은 해상도에서 시작하여 학습이 진행됨에 따라 점진적으로 해상도를 높여 가며 이미지를 생성하는 GAN 모델이다. 이를 통해 고해상도의 세밀한 이미지를 생성할 수 있다.

8. 조건부 이미지 생성(Conditional Image Generation)에 대해 설명하시오.

조건부 이미지 생성은 특정 입력값이나 속성을 조건으로 사용하여 원하는 특징을 가진 이미지를 생성하는 방식이다. 조건 정보를 추가함으로써 다양한 형태의 이미지를 생성할 수 있다.

9. 멀티스케일 GAN에 대해 설명하시오.

멀티스케일 GAN은 여러 해상도의 이미지를 동시에 생성하도록 설계된 GAN 구조이다. 다양한 크기에서 일관성 있고 시각적으로 안정적인 영상을 생성할 수 있다. (해상도 유연성)

10.1 Diffusion 모델이란?

Diffusion Model은 무작위 노이즈로부터 시작하여 반복적으로 노이즈를 제거함으로써 사실적인 이미지를 생성하는 생성 모델이다.

순방향 Image → Noise: 이미지에 노이지를 추가하여 완전한 노이즈를 만드는 과정.
역방향 Noise → Image: 무작위 노이즈에서 노이즈를 제거하며 이미지를 생성하는 과정. 실제로 이미지를 생성하는 것은 역방향 과정이다.

10.2 Diffusion Model의 원리를 설명하시오.

==Diffusion Model은 원본 이미지에 점진적으로 노이즈를 추가하는 포워드 과정==과 노이즈가 포함된 이미지로부터 원본 이미지를 복원하는 역방향 과정을 학습하여 새로운 이미지를 생성하는 모델이다.

10.3 Diffusion 모델의 한계

한줄 요약: Diffusion 모델은 생성 품질은 뛰어나지만 추론 속도가 느리고 많은 계산 자원을 필요로 한다.

11. Diffusion Model의 장점과 한계를 설명하시오.

Diffusion Model은 고품질의 이미지를 안정적으로 생성할 수 있다는 장점이 있지만, 여러 단계의 반복적인 복원 과정을 수행해야 하므로 생성 속도가 느리다는 한계를 가진다.

12. 이전 학습(Transfer Learning)에 대해 설명하시오.

이전 학습은 이미 학습된 모델의 지식과 가중치를 새로운 문제에 활용하는 방법이다. 이를 통해 적은 데이터와 짧은 학습 시간으로도 높은 성능을 얻을 수 있다.

13. 동적 스케일링(Dynamic Scaling)에 대해 설명하시오.

동적 스케일링은 시스템의 부하나 데이터 규모에 따라 자원을 자동으로 조절하는 기법이다. 이를 통해 효율적인 학습과 안정적인 성능을 유지할 수 있다.

14. 영상 생성 모델의 성능 평가 지표를 설명하시오.

영상 생성 모델의 성능은 생성된 영상의 품질과 실제 영상과의 유사성을 기준으로 평가한다. 대표적인 지표로는 최대 신호 대 잡음비(PSNR), 구조적 유사도 지수(SSIM), 프레셰 인셉션 거리(FID) 등이 있다.

14-1. PSNR(Peak Signal-to-Noise Ratio)이란?

14-2. 프레쳇 인셉션 거리(FID)이란?

14-3. SSIM (Structural Similarity Index Measure)

15. Visual Language Navigation(VLN)에 대해 설명하시오.

VLN은 Visual Language Navigation의 약자로, 시각 정보와 자연어 명령을 함께 이해하여 목표 위치까지 이동하는 기술이다. 3차원 게임 환경이나 실제 환경에서 언어 기반 내비게이션에 활용된다.

12주차: 분산 기반 영상 생성

1. Stable Diffusion의 동작 원리를 설명하시오.

Stable Diffusion은 이미지를 직접 생성하는 대신 잠재 공간(Latent Space)에서 노이즈를 점진적으로 제거하여 이미지를 생성하는 확산 모델이다. VAE를 통해 이미지를 압축하고, U-Net이 노이즈 제거를 수행하며, 텍스트 인코더를 이용해 프롬프트 정보를 반영하여 원하는 이미지를 생성한다.

2. Stable Diffusion의 주요 구성 요소를 설명하시오.

Stable Diffusion은 VAE, U-Net, 텍스트 인코더로 구성된다. VAE는 이미지를 잠재 공간으로 압축하고 복원하며, U-Net은 노이즈를 제거하는 역할을 수행한다. 텍스트 인코더는 사용자가 입력한 프롬프트를 벡터로 변환하여 이미지 생성 과정에 반영한다.

3. 텍스트 기반 상태 조절(Text Conditioning)에 대해 설명하시오.

텍스트 기반 상태 조절은 사용자가 입력한 텍스트 프롬프트를 이미지 생성 과정에 반영하는 방법이다. CLIP과 같은 텍스트 인코더가 문장을 임베딩 벡터로 변환하며, 모델은 이를 이용해 텍스트 의미와 일치하는 이미지를 생성한다.

4. Stable Diffusion의 학습 과정을 설명하시오.

Stable Diffusion은 먼저 VAE를 이용해 이미지를 잠재 공간으로 압축한다. 이후 잠재 표현에 노이즈를 추가하고, U-Net이 원래의 잠재 표현을 복원하도록 학습한다. 마지막으로 VAE 디코더를 통해 잠재 공간의 정보를 실제 이미지로 복원하여 이미지를 생성한다.

5. DALL-E의 학습 과정을 설명하시오.

DALL-E는 텍스트와 이미지를 하나의 데이터 스트림으로 처리하는 트랜스포머 기반 모델이다. 이미지를 토큰으로 변환한 뒤 텍스트 토큰과 이미지 토큰의 관계를 학습하여 텍스트 설명에 대응하는 이미지를 생성한다. DALLE는 GPT3의 아키텍처를 기반으로 만들어졌다.

6. Stable Diffusion과 DALL-E의 차이점을 설명하시오.

DALL-E는 텍스트와 이미지 토큰 간의 관계를 학습하여 이미지를 생성하는 반면, Stable Diffusion은 잠재 공간에서 노이즈를 제거하는 확산 과정을 통해 이미지를 생성한다. Stable Diffusion은 ==잠재 공간을 사용하기 때문에 계산 효율성이 높다는 장점==이 있다.

7. DALL-E 2에서 CLIP의 역할을 설명하시오.

CLIP은 텍스트와 이미지를 동일한 임베딩 공간에 표현하여 의미적 관계를 학습하는 모델이다. DALL-E 2는 CLIP을 이용해 텍스트 정보를 이해하고, 프롬프트의 의미와 일치하는 이미지를 생성한다.

8. 생성형 이미지 모델의 활용 분야를 설명하시오.

생성형 이미지 모델은 콘텐츠 생성, 이커머스, 엔터테인먼트, 스토리텔링, 인테리어 설계, 패션 및 의류, 건축 시각화, 과학 연구, 밈(Meme) 생성, 개인 맞춤형 콘텐츠 제작 등 다양한 분야에 활용될 수 있다.

9. 잠재 공간(Latent Space)을 사용하는 이유를 설명하시오.

잠재 공간은 원본 이미지보다 차원이 낮은 공간으로, 계산량을 줄이고 효율적으로 학습할 수 있도록 해준다. Stable Diffusion은 잠재 공간에서 노이즈 제거 과정을 수행함으로써 적은 연산량으로 고품질 이미지를 생성할 수 있다.

10. 생성 모델의 확장성이 중요한 이유를 설명하시오.

생성 모델은 다양한 해상도와 입력 조건에 대응할 수 있어야 하며, 효율적인 자원 사용과 일관된 성능을 유지해야 한다. 높은 확장성은 다양한 응용 분야에 적용할 수 있게 하며, 점진적인 성능 향상과 품질 개선을 가능하게 한다.

13주차: 트랜스포머 기반 행동 생성

1. 강화학습이란 무엇인가?

강화학습은 에이전트가 환경과 상호작용하면서 상태를 관찰하고 행동을 선택한 뒤, 그 결과로 보상을 받아 누적 보상을 최대화하도록 학습하는 방법이다.

2. MDP(Markov Decision Process) 모델의 구성 요소는 무엇인가?

MDP 모델은 상태(State), 행동(Action), 전이 함수(Transition Function), 보상 함수(Reward Function)로 구성된다. 에이전트는 현재 상태에서 행동을 선택하고, 환경의 전이 함수에 따라 다음 상태로 이동하며 보상을 받는다.

3. 보상 함수의 역할은 무엇인가?

보상 함수는 에이전트가 수행한 행동의 좋고 나쁨을 수치로 평가하는 기준이다. 강화학습에서는 보상 함수를 통해 에이전트가 장기적인 누적 보상을 최대화하도록 학습한다.

4. 강화학습의 목표는 무엇인가?

강화학습의 목표는 현재 상태에서 적절한 행동을 선택하여 장기적인 누적 보상을 최대화하는 최적의 정책(Policy)을 찾는 것이다.

5. Value 함수와 Q 함수의 차이를 설명하시오.

Value 함수는 특정 상태가 얼마나 좋은 상태인지를 나타내는 함수이며, Q 함수는 특정 상태에서 특정 행동을 수행했을 때 얻을 수 있는 가치를 나타내는 함수이다. 즉 Value 함수는 상태를 평가하고, Q 함수는 상태와 행동의 쌍을 평가한다.

6. Policy Evaluation과 Policy Update를 설명하시오.

Policy Evaluation은 현재 정책에 대한 가치 함수를 계산하여 정책의 성능을 평가하는 과정이고, Policy Update는 평가 결과를 바탕으로 더 높은 보상을 얻을 수 있도록 정책을 개선하는 과정이다.

7. Decision Transformer란 무엇인가?

Decision Transformer는 강화학습 문제를 시퀀스 생성 문제로 변환하여 트랜스포머를 이용해 다음 행동을 예측하는 모델이다. ==상태, 행동, 보상 정보를 입력으로 사용하여 최적의 행동을 생성==한다.
보상 시퀀스를 기반으로 행동을 예측한다

8. 트랜스포머 기반 강화학습의 특징을 설명하시오.

트랜스포머 기반 강화학습은 기존의 가치 함수 기반 접근 대신 상태와 행동의 시퀀스를 학습하여 다음 행동을 예측한다. 이를 통해 장기적인 의존성을 효과적으로 학습할 수 있다.

9. 행동 궤적(Trajectory)을 위한 트랜스포머란 무엇인가?

행동 궤적을 위한 트랜스포머는 상태, 행동, 보상으로 구성된 연속적인 궤적 데이터를 학습하여 미래의 행동을 생성하는 모델이다. 로봇 제어와 자율주행 등 다양한 분야에 활용될 수 있다.

10. Behavior Transformer(BT)란 무엇인가?

Behavior Transformer는 관찰된 상태 정보를 바탕으로 적절한 행동을 생성하는 트랜스포머 기반 모델이다. 연속적인 행동 공간을 여러 행동 모드로 나누어 학습함으로써 복잡한 행동 생성 문제를 해결할 수 있다.

11. Behavior Transformer의 학습 과정에 대해 설명하시오.

Behavior Transformer는 행동 데이터를 여러 개의 행동 군집으로 나눈 뒤, 트랜스포머를 이용해 각 행동 군집의 확률과 세부적인 행동 값을 학습한다. 이를 통해 다양한 행동 패턴을 효과적으로 생성할 수 있다.

12. Behavior Transformer의 활용 분야를 설명하시오.

Behavior Transformer는 로봇 조작, 자율주행, Text-to-Behavior, Text-to-Driving 등 다양한 분야에서 활용된다. 입력된 정보나 텍스트를 바탕으로 실제 행동을 생성할 수 있다는 특징을 가진다.

13. 디지털 다이닝(Digital Dining)이란 무엇인가?

디지털 다이닝은 생성형 AI와 로봇 기술을 활용하여 음식의 제작과 서비스 과정을 자동화하는 개념이다. 생성형 AI 기반 요리 로봇과 결합하여 새로운 형태의 외식 서비스를 제공할 수 있다.

14. 생성형 AI 기반 요리 로봇의 특징을 설명하시오.

생성형 AI 기반 요리 로봇은 다양한 요리 데이터를 학습하여 상황에 맞는 행동을 생성할 수 있으며, 조리 과정의 자동화와 효율성 향상에 기여한다.

15. 동작 생성(Motion Generation)이란 무엇인가?

동작 생성은 인공지능이 환경이나 목표에 따라 적절한 움직임과 행동을 생성하는 기술이다. 로봇, 자율주행, 게임 캐릭터, 디지털 휴먼 등 다양한 분야에서 활용된다.

16. 행동 생성 기술의 활용 분야를 설명하시오.

행동 생성 기술은 로봇 제어, 자율주행 자동차, 게임 캐릭터, 디지털 휴먼, 산업 자동화 등 다양한 분야에서 활용되며, 인간과 유사한 행동을 생성하는 데 사용된다.

17. 행동 생성 기술의 도전 과제와 향후 발전 방향을 설명하시오.

행동 생성 기술은 복잡한 환경에서의 일반화, 데이터 부족, 안전성 확보 등의 문제를 해결해야 한다. 향후에는 생성형 AI와 트랜스포머 기술의 발전을 통해 더욱 정교하고 다양한 행동 생성이 가능해질 것으로 기대된다.

18. 강화 학습에서 모델 기반 접근법

에이전트가 환경을 모델링하고, 이를 기반으로 결정을 내리는 방법

14주차: 트랜스포머 기반 행동 생성 2

1. 자율주행이란 무엇인가?

자율주행은 인간 운전자의 개입 없이 차량이 주변 환경을 감지하고 상황을 판단하여 스스로 의사결정과 제어를 수행하는 기술이다.

2. 자율주행의 기본 요건은 무엇인가?

자율주행의 기본 요건은 주변 환경 인지, 주행 도로 판단 및 선정, 안전한 기능 제어이다. 차량은 카메라, 레이더, 라이다 등의 센서를 이용해 정보를 수집하고 이를 바탕으로 주행 전략을 수립한다.

3. 자율주행 생성 모델이란 무엇인가?

자율주행 생성 모델은 센서 데이터를 바탕으로 차량이 주변 환경을 인식하고 의사결정 및 움직임을 제어하도록 학습하는 모델이다. 이를 통해 자율주행 차량의 행동과 움직임을 예측할 수 있다.

4. ChauffeurNet에 대해 설명하시오.

ChauffeurNet은 전문가의 주행 데이터를 학습하여 차량의 경로, 속도, 방향 등을 예측하는 자율주행 모델이다. 이를 통해 안전하고 효율적인 주행 행동을 생성할 수 있다. 강화학습 기반이다.

5. BEV와 Transformer를 결합한 모델에 대해 설명하시오.

BEV는 차량 주변 환경을 위에서 내려다본 형태로 표현하는 방식이며, Transformer는 입력 데이터 간의 관계를 학습하는 모델이다. 두 기술을 결합하면 차량, 보행자, 도로 구조 등의 정보를 통합적으로 이해하여 자율주행 의사결정을 수행할 수 있다.

BEV(Bird’s Eye View) 표현을 사용할 때의 장단점

장점: 차량 주변의 전체 상황을 한눈에 볼 수 있다.
단점: 2D 표현이므로 일부 3D 정보가 손실 될 수 있다.

6. DriveGPT의 특징을 설명하시오.

DriveGPT는 드라이브 언어를 이용하여 자율주행 계획과 추론을 수행하는 생성형 모델이다. 자율주행 장면을 텍스트 시퀀스로 표현하고 이를 기반으로 차량의 행동을 생성한다.

7. 자율주행 자동차의 행동 생성이란 무엇인가?

행동 생성은 자율주행 시스템이 주변 환경과 교통 상황을 고려하여 적절한 주행 행동과 경로를 결정하는 과정이다. 이를 통해 차량은 안전하게 목적지까지 이동할 수 있다.

8. 행동 생성이 중요한 이유를 설명하시오.

행동 생성은 차선 선택, 차선 변경, 가속 및 감속, 장애물 회피 등의 의사결정을 담당한다. 또한 교통 규칙을 준수하고 잠재적인 위험 상황에 대응하여 안전한 주행을 가능하게 한다.

9. 자율주행 생성 모델의 훈련 과정에 대해 설명하시오.

자율주행 생성 모델은 주행 데이터를 텍스트나 영상 데이터와 연결하여 학습한다. 이를 통해 주행 상황을 이해하고 적절한 주행 궤적과 행동을 예측하도록 훈련된다.

10. 트랜스포머가 행동 생성에 활용되는 이유를 설명하시오.

트랜스포머는 입력 데이터 사이의 관계를 효과적으로 학습할 수 있기 때문에 다양한 센서 정보와 시간적 흐름을 함께 고려하여 차량의 다음 행동을 예측하는 데 적합하다.

11. 언어모델로 자율주행차량을 작동시키는 과정

주행 영상 + 텍스트 명령 → 임베딩 → 트랜스포머(언어모델) → 주행 궤적 생성 → 조향,가속,제동 → 자율주행

언어모델을 이용한 자율주행 차량은 먼저 카메라를 통해 수집한 주행 영상과 내비게이션 명령과 같은 텍스트 정보를 입력으로 받는다. 텍스트 정보는 언어 인코더를 통해 처리되고, 영상 정보는 CLIP 모델을 이용하여 임베딩된다. 이후 트랜스포머 기반의 텍스트 유도 주행 궤적 생성 모델이 영상 정보와 텍스트 정보를 통합하여 주행 궤적을 생성한다. 생성된 주행 궤적을 바탕으로 차량은 조향, 가속, 제동 등을 수행하며 주변 환경에 맞추어 자율적으로 주행한다.

12. 트랜스포머를 강화학습에 적용하는 주요 이점

고차원 시퀀스 데이터를 효과적으로 처리할 수 있다.

지난 족보

1. ResNet의 핵심 아이디어와 기존 CNN보다 학습이 용이해진 이유를 설명하시오.

ResNet의 핵심 아이디어는 잔차 연결(Residual Connection)을 도입한 것이다. 이를 통해 깊은 신경망에서 발생하는 ==기울기 소실 문제를 완화==할 수 있다. 역전파 과정에서 정보 손실이 감소하여 학습이 안정적으로 이루어지며, 기존 CNN보다 더 깊은 네트워크를 효과적으로 학습할 수 있다.

2. Diffusion 모델과 GAN을 비교하여 데이터 생성의 안정성과 학습 난이도 측면의 차이를 설명하시오.

Diffusion 모델은 점진적으로 노이즈를 제거하면서 데이터를 생성하기 때문에 학습 과정이 안정적이지만 생성 속도가 느리다. 반면 GAN은 생성자와 판별자의 경쟁 구조를 이용하여 빠르게 데이터를 생성할 수 있으나, 모드 붕괴와 학습 불안정 문제가 발생할 수 있다.

3. 특징 추출(Feature Extraction)의 정의를 설명하고, 텍스트 생성과 이미지 생성에서의 활용 방법을 서술하시오.

특징 추출은 원본 데이터에서 중요한 정보나 패턴을 추출하여 의미 있는 벡터 형태로 변환하는 과정이다. 이를 통해 차원을 줄이고 핵심 정보를 강조하여 학습 효율을 높일 수 있다. 텍스트 생성에서는 문장의 의미를 나타내는 의미 벡터를 추출하여 사용자의 의도를 파악하고 적절한 답변 생성에 활용한다. 이미지 생성에서는 스타일 벡터와 내용 벡터를 추출하여 새로운 이미지를 생성하는 데 활용할 수 있다.

4. Diffusion 모델을 설명하고, 의료 영상(MRI/CT) 분야에서의 활용 방법을 두 가지 이상 설명하시오.

Diffusion 모델은 노이즈가 포함된 데이터에서 점진적으로 노이즈를 제거하면서 실제와 유사한 데이터를 생성하는 모델이다. 의료 영상 분야에서는 저화질 MRI, CT 영상의 노이즈 제거 및 화질 개선에 활용될 수 있다. 또한 희귀 질환 데이터 부족 문제를 해결하기 위해 가상의 의료 영상을 생성할 수 있으며, 적은 데이터만으로 완전한 영상을 재구성하여 검사 시간을 단축하는 데에도 활용된다.

5. GPT 환각(Hallucination)이 무엇인지 설명하고, 이를 해결하기 위한 기술적 방법을 세 가지 이상 설명하시오.

GPT 환각은 언어 모델이 사실과 다른 내용을 실제 정보인 것처럼 생성하는 현상을 의미한다. 이를 해결하기 위한 방법으로는 첫째, 외부 지식 검색을 활용하는 RAG(Retrieval-Augmented Generation)를 적용하는 방법이 있다. 둘째, 정확하고 신뢰할 수 있는 고품질 데이터로 학습시키는 방법이 있다. 셋째, RLHF와 같은 인간 피드백 기반 강화학습을 통해 답변 품질을 향상시킬 수 있다. 넷째, 별도의 사실 검증 모듈을 추가하여 생성된 내용을 외부 지식과 비교·검증할 수 있다.

6. CNN과 Transformer의 특징과 장단점을 비교하고, Transformer가 최근 컴퓨터 비전 분야에서 주목받는 이유를 설명하시오.

CNN은 합성곱 연산을 이용하여 이미지의 지역적인 특징을 효과적으로 학습하며 계산량이 비교적 적다는 장점이 있다. 그러나 이미지 전체의 전역적인 관계를 파악하는 데에는 한계가 있다. ==Transformer는 Self-Attention 메커니즘을 이용하여 이미지 전체의 관계와 장거리 의존성을 효과적으로 학습==할 수 있다. 다만 많은 데이터와 높은 연산 비용이 필요하다. 최근 컴퓨터 비전 분야에서 Transformer가 주목받는 이유는 이미지 전체의 문맥과 전역적인 정보를 효과적으로 학습할 수 있기 때문이다.

7. 경사하강법(Gradient Descent)과 확률적 경사하강법(SGD)의 작동 원리와 장단점을 설명하고, SGD가 대규모 데이터셋에 적합한 이유를 설명하시오.

경사하강법은 전체 학습 데이터를 이용하여 손실 함수의 기울기를 계산한 후 파라미터를 갱신하는 방법이다. 안정적으로 수렴하지만 데이터가 많을수록 계산량이 증가하여 학습 속도가 느리다. 반면 확률적 경사하강법(SGD)은 무작위로 선택된 하나의 샘플을 이용해 기울기를 계산하고 파라미터를 갱신한다. 계산 속도가 빠르고 지역 최솟값에 빠질 가능성이 낮지만, 수렴 과정이 불안정할 수 있다. 따라서 SGD는 계산량이 적고 효율적이어서 대규모 데이터셋 학습에 적합하다.

8. VAE와 GAN의 차이를 설명하시오.

VAE는 잠재 공간을 확률 분포로 모델링하여 샘플링을 수행하는 생성 모델이며, 명시적인 확률 분포를 학습한다. 반면 GAN은 생성자와 판별자가 경쟁하면서 데이터 분포를 학습하는 구조로, 명시적인 확률 분포를 추정하지 않고 데이터를 직접 생성한다. VAE는 생성 품질이 비교적 부드럽고 안정적이며, GAN은 더욱 선명한 이미지를 생성할 수 있지만 학습이 불안정하고 모드 붕괴 문제가 발생할 수 있다.

9. BERT와 GPT의 차이를 설명하시오.

BERT는 Masked Language Model(MLM)을 이용하여 양방향 문맥 정보를 학습하는 모델이다. 반면 GPT는 이전 토큰 정보를 기반으로 다음 단어를 예측하는 자기회귀(Auto-Regressive) 방식의 단방향 언어 모델이다. 따라서 BERT는 문장의 의미 이해에 강점을 가지며, GPT는 자연스러운 텍스트 생성에 강점을 가진다.

10. CNN과 RNN의 차이를 설명하시오.

CNN은 합성곱 연산을 이용하여 이미지와 같은 데이터의 공간적 특징을 추출하는 데 강점을 가진다. 또한 파라미터 공유를 통해 계산량을 줄일 수 있다. 반면 RNN은 순차적인 데이터를 처리하기 위해 이전 정보를 기억하며 시퀀스 데이터를 학습하는 데 적합하다. 따라서 자연어 처리나 음성 데이터와 같은 순차 데이터 처리에 주로 사용된다.