MLDL_정리/용어, 메모장

Self-supervised VS Transfer, Generative, Data Aug

KimTory 2023. 10. 29. 15:28

1. Self-Supervised Learning vs. Data Augmentation

Self-supervised learning과 데이터 증강은 기계 학습의 두 가지 다른 접근 방식입니다. 이 두 방법은 데이터를 활용하는 방식에서 중요한 차이점을 가집니다.

Self-Supervised Learning:

  1. Learning Task Creation: Self-supervised learning은 레이블이 없는 데이터에서 학습 과제를 만들어냅니다. 예를 들어, 이미지에서 일부분을 가리고 그 부분을 예측하게 하는 것과 같은 작업을 통해, 모델이 데이터의 내재된 구조나 패턴을 학습하도록 합니다.
  2. Feature Learning: 이 접근 방식의 주요 목표는 데이터의 유용한 특성이나 표현을 학습하는 것입니다. 이렇게 학습된 특성은 다양한 다운스트림 작업에 활용될 수 있습니다.
  3. Dependency on Data Structure: 자기 지도 학습은 데이터 자체의 구조와 패턴에 의존합니다. 이를 통해 모델은 본질적인 데이터 특성을 파악합니다.

Data Augmentation:

  1. Data Variation: 데이터 증강은 기존의 레이블이 있는 데이터셋을 변형시켜 데이터의 다양성을 높이는 기법입니다. 예를 들어, 이미지를 회전하거나 뒤집는 것과 같은 방법으로 데이터셋의 크기를 확장합니다.
  2. Generalization Improvement: 데이터 증강의 목적은 모델의 일반화 능력을 향상시키는 것입니다. 더 다양한 데이터에 노출됨으로써, 모델이 실제 세계의 변화에 더 잘 대응할 수 있도록 합니다.
  3. Leveraging Existing Labels: 데이터 증강은 기존 레이블을 유지하면서 데이터의 변형을 추가합니다. 즉, 원래 데이터에 부여된 레이블 정보가 그대로 활용됩니다.

2. Self-Supervised Learning vs. Transfer Learning

Self-supervised learning과 transfer learning은 둘 다 기존 데이터와 학습된 모델을 재사용하는 기법이지만, 그 목적과 방식에서 차이가 있습니다.

Self-Supervised Learning:

  1. Learning from Unlabeled Data: Self-supervised learning은 레이블이 없는 데이터에서 시작하여, 데이터 자체에서 학습 과제를 생성합니다.
  2. Feature Extraction Focus: 이 방법은 데이터로부터 유용한 특성이나 표현을 추출하는 데 중점을 둡니다. 이렇게 학습된 특성은 다양한 작업에 적용될 수 있습니다.
  3. Task-Agnostic: 자기 지도 학습은 특정 작업에 구애받지 않고, 일반적인 데이터의 특성을 학습하는 것을 목표로 합니다.

Transfer Learning:

  1. Learning from Labeled Data: Transfer learning은 이미 레이블이 지정된 데이터셋에서 학습된 모델을 새로운 작업에 적용합니다. 이는 종종 다른, 하지만 관련된 작업에서 수행됩니다.
  2. Knowledge Transfer: 기존에 학습된 모델의 지식을 새로운 문제에 전이하는 것이 핵심입니다. 이 과정에서 모델은 종종 새로운 데이터에 맞게 미세 조정됩니다.
  3. Task-Specific Adaptation: Transfer learning은 특정 작업에 모델을 적응시키는 것을 목표로 합니다. 이를 통해 새로운 작업에서 모델의 성능을 최적화합니다.

종합하면, self-supervised learning은 데이터의 내재된 특성을 이해하기 위해 레이블이 없는 데이터를 사용하는 반면, 데이터 증강은 기존 레이블이 있는 데이터의 다양성을 높이고, transfer learning은 이미 학습된 모델을 새로운 문제에 적용하는 방식으로 각각 차별화됩니다.

3. Generative vs. Self-Supervised Learning

Generative learning과 self-supervised learning은 머신 러닝의 두 다른 접근 방식이며, 각각의 핵심 목표와 사용 방식에서 차이가 있습니다.

Generative Learning:

  1. Data Generation: Generative 모델의 주요 목표는 새로운 데이터 인스턴스를 생성하는 것입니다. 이는 입력 데이터의 분포를 학습하여 새롭고 실제와 유사한 데이터 포인트를 생성할 수 있습니다.
  2. Model Type: Generative 모델, 예를 들어 Generative Adversarial Networks (GANs)나 Variational Autoencoders (VAEs)는 원본 데이터와 유사한 데이터를 생성하기 위해 훈련됩니다.
  3. Applications: 이러한 모델은 이미지, 음악, 텍스트 생성 등 다양한 분야에서 사용됩니다. 가상 이미지 생성, 스타일 변환, 데이터 증강 등에 유용합니다.
  4. Data Understanding: Generative 모델은 데이터의 분포를 내재적으로 이해하고 모방하려고 시도합니다. 이 과정에서 데이터의 기본 구조와 특징을 포착합니다.

Self-Supervised Learning:

  1. Feature Extraction: Self-supervised learning은 주로 특성 추출에 초점을 맞춥니다. 이 방식은 레이블이 없는 데이터에서 작업을 생성하여 데이터의 중요한 특성이나 패턴을 학습합니다.
  2. Learning from Internal Structure: 이 접근법은 데이터 자체의 내재된 구조를 이용하여 유용한 표현을 학습합니다. 예를 들어, 이미지에서 일부를 가리고 모델에게 그 부분을 예측하게 함으로써 학습합니다.
  3. Downstream Tasks: Self-supervised learning의 주요 목표는 효과적인 특성 추출입니다. 이러한 특성은 분류, 탐지, 추천 시스템 등 다양한 다운스트림 작업에 활용될 수 있습니다.
  4. Task Agnostic Learning: 이 방법은 일반적인 데이터의 특성을 학습하고, 다양한 작업에 활용할 수 있는 유연성을 제공합니다.

주요 차이점:

  • 목적: Generative learning은 데이터 생성에 초점을 맞춘 반면, self-supervised learning은 특성 추출과 이를 통한 다양한 작업의 향상에 중점을 둡니다.
  • Output: Generative 모델은 새로운 데이터 인스턴스를 생성하지만, self-supervised learning은 데이터의 특성을 이해하고 이를 활용합니다.
  • Usage in Downstream Tasks: Self-supervised learning은 추출된 특성을 다양한 작업에 적용하는 반면, generative 모델은 주로 생성적 작업에 사용됩니다.

두 방식 모두 데이터의 깊은 이해를 추구하지만, 그 목적과 적용 방식에서 중요한 차이를 가집니다. Generative learning은 새로운 데이터의 생성에 초점을 맞추고, self-supervised learning은 기존 데이터로부터 유용한 정보를 추출하고 이를 다양한 작업에 적용하는 데 중점을 둡니다

'MLDL_정리 > 용어, 메모장' 카테고리의 다른 글

Conditioning  (0) 2023.10.29
Gradient Descent  (0) 2023.10.29
Downstream Target Tasks  (1) 2023.10.29
Mask RCNN ROI Align  (0) 2023.06.05
Json Annotation file (ms coco data format)  (0) 2023.06.05