DL - #6, 가중치의 초깃값

Deep Learning/밑바닥부터 시작하는 딥러닝

DL - #6, 가중치의 초깃값

KimTory 2022. 2. 14. 00:52

▶ 가중치의 초깃값

신경망 학습에서 특히 중요한 것이 가중치의 초깃값이다.

가중치의 초깃값을 무엇으로 설정하느냐가 신경망 학습의 영향을 주고 있음

▶초깃값을 0으로 하면?

오버피팅을 억제해 범용 성능을 높이는 테크닉인 가중치 감소(weight decay) 기법이 존재함

가중치 감소는 간단히 말하면 가중치 매개변수의 값이 작아지도록 학습하는 방법입니다.

가중치 값을 작게 하여 오버피팅이 일어나지 않게 하는 것입니다.

가중치를 작게 만들고 싶으면 초깃값도 최대한 작은 값에서 시작해야 합니다.

가중치 초깃값을 0으로 하면 학습이 올바로 이뤄지지 않습니다.

→ 가중치의 초깃값은 0.01 * np.random.randn(10, 100)처럼 정규 분포에서 생성되는 값을

0.01배 한 작은 값(표준 편차가 0.01인 정규 분포)를 보통 사용

초깃값을 모두 0으로 설정하면 안 되는 이유는 오차역전파법에서 모든 가중치의 값이 똑같이 갱신되기 때문입니다.

→ 가중치를 균일한 값으로 설정 해도 안됨.

예를 들어 2층 신경망에서 첫 번째와 두 번째 층의 가중치가 0이라고 가정하겠습니다.

그럼 순전파 때는 입력층의 가중치가 0이기 때문에 두 번째 층의 뉴런에 모두 같은 값이 전달됩니다.

두 번째 층의 모든 뉴런에 같은 값이 입력된다는 것은 역전파 때 두 번째 층의 가중치가

모두 똑같이 갱신된다는 말입니다.

그래서 가중치들은 같은 초깃값에서 시작하고 갱신을 거쳐도 여전히 같은 값을 유지하는 것입니다.

이는 가중치를 여러 개 갖는 의미를 사라지게 합니다.

'가중치가 고르게 되어버리는 상황'을 막으려면(정확히는 가중치의 대칭적인 구조를 무너뜨리려면) 초깃값을 무작위로 설정해야 합니다.

은닉층의 활성화값 분포

은닉층의 활성화값 (활성화 함수의 출력 데이터)의 분포를 관찰하면 중요한 정보를 얻을 수 있다.

가중치의 초깃값에 따라 은닉층 활성화값들이 어떻게 변화하는지 실험을 해보겠다.

활성화 함수로 시그모이드 함수를 사용하는 5층 신경망에 무작위로 생성한 입력 데이터를 흘리며 각 층의 활성화값 분포를 히스토그램으로 표현 (아래 코드 및 출력 이미지 참고)

import numpy as np
import matplotlib.pyplot as plt


def sigmoid(x):
    return 1 / (1 + np.exp(-x))

x = np.random.randn(1000, 100) # 1000개의 데이터
node_num = 100  # 각 은닉층의 노드(뉴런) 수
hidden_layer_size = 5  # 은닉층이 5개
activations = {}  # 이곳에 활성화 결과를 저장 / 활성화 함수의 출력 데이터

for i in range(hidden_layer_size):
    if i != 0:
        x = activations[i-1]
        
    w = np.random.randn(node_num, node_num) * 1
    a = np.dot(x, w)
    z = sigmoid(a)
    activations[i] = z
    
    
# 히스토그램 그리기
for i, a in activations.items():
    plt.subplot(1, len(activations), i+1)
    plt.title(str(i+1) + "-layer")
    if i != 0: plt.yticks([], [])
    # flatten은 1행으로 만들고, range 0,1은 0 ~1 사이를 30등분한다는 뜻임
    plt.hist(a.flatten(), 30, range=(0,1))
plt.show()

→ 각 층의 뉴런은 100개, 입력 데이터 1,000개의 데이터를 정규분포로 무작위로 생성하여 5층 신경망에 전송

→ 활성화 함수는 Sigmoid 함수 사용, 표준 편차가 1인 정규 분포 사용

▶ 출력 결과

각 층의 활성화값들이 0과 1에 집중 분포되어 있으며, Sigmoide 함수는 출력이 0에 가까워지자 미분의 값은 0으로 표현

0과 1 사이에 치우쳐 분포하게 되면 역전파의 기울기 값이 점점 작아지다가, 아예 사라지게 된다

이러한 현상을 Gradient vanishing problem 이라고 한다.

▶ 표준 편차 값 변경

표준 편차를 0.01로 변경한 결과

w = np.random.randn(node_num, node_num) * 0.01 # 표준편차 기존 1 → 0.01로 변경

→ 활성화값들이 고르게 분포 되지 않고, 0.5 구간에 집중 분포 되어 있으며 기울기 손실에 대한 문제는 이전 표준 편차가 1인 것보단 나타나진 않았으나, 다수의 뉴런이 동일한 값을 출력하고 있어 여러 개의 망을 구축한 의미가 없어진다.

이러한 문제를 표현력 제한에 대한 문제라고 칭한다.

→ 이처럼 각 층의 활성화값들이 골고루 분포되지 않으며 여러 문제를 발생 시키며, 활성화값들은 고루 분포되어야 한다.

Xavier 초기값

사비에르 글로로트(Xavier Glorot)와 요슈아 벤지오(Yoshua Bengio)의 논문에서 권장하는 가중치 초깃값인 Xavier 초깃값

을 사용하여 TEST

현재 Xavier 초기값은 일반적인 딥러닝 프레임워크들이 표준적으로 이용하고 있다.

논문에서는 각 층의 활성화값들을 광범위하게 분포시킬 목적으로 가중치의 적절한 분포를 찾고자 했다.

결과적으로 앞 계층의 노드가 n개라면 표준편차가 1/√n인 분포를 사용하면 된다는 결론을 도출 시킴.

Xavier 초깃값을 사용하면 앞 층에 노드가 많을수록 대상 노드의 초깃값으로 설정하는 가중치가 좁게 퍼진다.

# w = np.random.randn(node_num, node_num) * 1
# w = np.random.randn(node_num, node_num) * 0.01
w = np.random.randn(node_num, node_num) / np.sqrt(node_num)

이 결과를 보면 층이 깊어지면서 형태가 다소 일그러지지만, 앞에서 본 방식보다는 확실히 넓게 분포됨을 알 수 있다.

각 층에 흐르는 데이터는 적당히 퍼져 있으므로, 시그모이드 함수의 표현력도 제한받지 않고 학습이 효율적으로 이뤄질 것이다.

위 그림은 오른쪽으로 갈수록 일그러진다. 이는 sigmoid 함수 대신에 tanh 함수(쌍곡선 함수)를 이용하면 개선된다.
tanh 함수도 sigmoid 함수와 같은 'S'자 모양 곡선 함수이다.
다만 tanh 함수가 원점 (0, 0)에서 대칭인 반면, sigmoid 함수는 (x,y) = (0, 0.5)에서 대칭인 S 곡선이다.
활성화 함수로는 원점에서 대칭인 함수가 바람직하다고 알려져 있다.

ReLU를 사용할 때의 가중치 초깃값

Xavier 초깃값은 활성화 함수가 선형인 것을 전제로 이끈 결과이다.

sigmoid 함수와 tanh 함수는 좌우 대칭이라 중앙 부근이 선형인 함수로 볼 수 있어서 Xavier 초깃값이 적당하다.

반면 ReLU를 이용할 때는 ReLU에 특화된 He 초깃값을 이용하라고 권장한다.

He 초깃값은 앞 계층의 노드가 n개일 때, 표준편차가 √(2/n)인 정규분포를 사용한다.

Xavier 초깃값이 √(1/n)이었던과 달리, ReLU는 음의 영역이 0이라서 더 넓게 분포시키기 위해 2배의 계수가 필요하다고 해석할 수 있음

결과를 보면 std = 0.01일 때의 각 층의 활성화값들은 아주 작은 값들이다.

신경망에 작은 데이터가 흐은다는 것은 역전파 때 가중치의 기울기 역시 작아진다는 뜻이다. 이는 중대한 문제이며, 실제로도 학습이 거의 이뤄지지 않는다.

MNIST 데이터셋으로 본 가중치 초깃값 비교

이번에는 실제 데이터를 가지고 가중치의 초깃값을 주는 방법이 신경망 학습에 얼마나 영향을 주는지 보겠다.

이 실험은 층별 뉴런 수가 100개인 5층 신경망에서 활성화 함수로 ReLU를 사용했다.

위 그림에서 보듯 std = 0.01일 때는 학습이 전혀 이뤄지지 않는다.

앞서 활성화값의 분포에서 본 것처럼 순전파 때 너무 작은 값(0근처로 밀집한 데이터)가 흐르기 때문이다.

그로 인해 역전파 때의 기울기도 작아져 가중치가 거의 갱신되지 않는 것이다.

반면 Xavier과 He 초깃값의 경우 학습이 제대로 이뤄지고 있다.

학습 진도는 He 초깃값 쪽이 더 빠르다.