MLDL_정리/용어, 메모장

Conditioning

KimTory 2023. 10. 29. 16:03

"Full Stack Deep Learning - UC Berkeley Spring 2021”

Conditioning의 주요 요소

  1. 초기화 (Initialization)
    • 신경망의 가중치를 시작하기 전에 설정하는 방법입니다. 적절한 초기화는 학습 과정의 안정성과 속도에 큰 영향을 미칩니다. 예를 들어, Xavier 초기화나 He 초기화 등이 있습니다.
  2. 정규화 (Normalization)
    • 신경망의 학습을 안정화시키고 가속화하는 데 도움을 주는 기술입니다.
    • Batch Normalization: 미니배치의 출력값을 정규화하여 내부 공변량 변화(internal covariate shift)를 줄입니다.
    • Weight Normalization, Layer Normalization: 다른 차원의 정규화 방법으로, 특정 레이어나 가중치에 초점을 맞춥니다.
  3. 최적화 방법
    • 뉴턴 방법 (Newton's Method): 이차 도함수(헤시안)를 사용하여 파라미터를 업데이트합니다. 손실 함수의 곡률을 고려하여 더 정확한 업데이트가 가능하지만, 계산 비용이 많이 들 수 있습니다.
    • 자연 그래디언트 (Natural Gradient): 데이터 분포를 고려하여 최적화를 수행하는 방법으로, 특히 확률적 모델에서 유용합니다.
    • 근사 이차 방법 (Approximate Second Order Methods):
      • Adagrad, Adam, Momentum: 이들은 경사 하강법의 변형으로, 각 단계에서 가변적인 학습률을 적용하여 보다 효율적인 학습을 도모합니다.

"Conditioning"이라는 용어는 수치 계산에서 종종 사용되며, 주어진 문제의 수치적 안정성을 나타냅니다. 딥러닝의 맥락에서, 'Conditioning'은 주로 최적화 문제의 조건을 나타냅니다. 그림에서 보여주는 것은 경사 하강법 또는 그 변형을 사용하여 손실 함수를 최소화할 때 파라미터 업데이트의 수치적 안정성에 대한 것입니다.

대학원 수업 자료 일부 - 데이터 사이언스를 위한 AI (HY)

  1. Badly Conditioned (나쁘게 조건화된)
    • "Badly Conditioned" 영역에서는, 오차 표면의 한 방향이 다른 방향보다 훨씬 길게 늘어져 있습니다. 이렇게 되면, 경사 하강법을 사용할 때 파라미터 업데이트가 진동하며 수렴하기까지 많은 시간이 소요될 수 있습니다.
    • 이러한 상황에서는 학습률을 매우 작게 설정하지 않는 한 모델이 수렴하지 않을 수 있습니다.
  2. Well Conditioned (잘 조건화된)
    • "Well Conditioned" 영역에서는 오차 표면이 거의 원형입니다. 이는 모든 방향에서 변동성이 거의 동일하다는 것을 의미하며, 이 경우 경사 하강법은 훨씬 더 효율적으로 작동합니다.
    • 오차 표면이 원형이므로, 파라미터는 진동 없이 바로 최소값으로 수렴할 수 있습니다.

주요 포인트:

  • Zero Mean: 데이터의 평균이 0 주위에 위치해야 합니다. 이는 초기화와 정규화를 통해 달성할 수 있으며, 모델이 더 빠르게 학습되게 도와줍니다.
  • Equal Variance: 모든 입력 특성이 동일한 분산을 가져야 합니다. 이는 스케일링 및 정규화를 통해 달성할 수 있으며, 각 특성이 동등한 영향을 미치도록 합니다.

이러한 "Conditioning" 개념은 최적화 알고리즘이 원활하게 작동하도록 도와주며, 모델의 학습 속도와 수렴을 향상시키는 데 중요한 역할을 합니다. 딥러닝에서는 데이터 전처리, 가중치 초기화 및 정규화와 같은 기술을 사용하여 'Conditioning'을 개선할 수 있습니다.

'MLDL_정리 > 용어, 메모장' 카테고리의 다른 글

Bias and Variance - Tradeoff  (0) 2023.11.01
Graph Model - Transductive, Inductive  (1) 2023.10.29
Gradient Descent  (0) 2023.10.29
Self-supervised VS Transfer, Generative, Data Aug  (0) 2023.10.29
Downstream Target Tasks  (1) 2023.10.29