분류 전체보기 169

Transformer - Key, Query, Value

Query (Q): 질의(쿼리)는 주로 현재 디코더의 타임 스텝에 해당하는 정보를 포함하고 있습니다. 쿼리는 인코더의 모든 key와 비교되어 어텐션 스코어를 생성합니다. 이 스코어는 인코더의 어느 부분이 현재 디코더의 타임 스텝에 가장 관련이 있는지를 결정하는 데 사용됩니다. Key (K): 키는 인코더의 각 타임 스텝에 대한 정보를 포함하고 있습니다. 쿼리와 비교되어 어텐션 스코어를 생성하는 데 사용됩니다. 쿼리와 키의 유사도는 어텐션 스코어를 결정하는 데 중요한 역할을 합니다. Value (V): 값은 인코더의 각 타임스텝에 대한 실제 정보를 포함하고 있습니다. 어텐션 스코어와 함께 가중 평균을 구하는 데 사용되어, 가중된 합을 생성합니다. 최종적으로, 이 가중된 합은 디코더의 현재 타임스텝에 대한 ..

Bias recipe for machine learning

"바이어스 레시피(Bias Recipe)"는 기계 학습에서 모델의 바이어스를 다루는 방법에 관한 지침이나 접근 방식을 의미합니다. 이는 모델이 훈련 데이터에 과도하게 적합되어 새로운 데이터에 대한 일반화 능력이 부족할 때 발생하는 높은 바이어스를 줄이는 데 중점을 둡니다. 여기에는 다양한 전략과 기법이 포함될 수 있습니다: 모델 복잡도 증가: 너무 간단한 모델은 데이터의 중요한 특성을 놓칠 수 있습니다. 따라서 모델의 복잡도를 적절히 증가시켜 데이터의 다양한 패턴과 관계를 더 잘 학습할 수 있도록 합니다. 예를 들어, 더 많은 층이나 뉴런을 가진 신경망을 사용하거나, 결정 트리에서 더 많은 분할을 허용하는 것 등이 있습니다. 특징 엔지니어링 (Feature Engineering): 데이터의 추가적인 정보..

Bias and Variance - Tradeoff

머신러닝과 통계 모델링에서, 바이어스(Bias)와 분산(Variance)을 이해하는 것은 모델 성능 문제를 진단하고 적절한 모델링 접근법 및 훈련 전략을 선택하는 데 필수적입니다. 바이어스 (Bias) 정의: 바이어스는 학습 알고리즘에서 과도하게 단순화된 가정에서 발생하는 오류입니다. 높은 바이어스는 알고리즘이 특성과 타겟 출력 사이의 중요한 관계를 놓치게 하여, 모델이 과소적합(underfitting)되는 결과를 초래할 수 있습니다. 특징: 높은 바이어스를 가진 모델은 일반적으로 데이터 구조에 대해 강한 가정을 합니다. 바이어스가 높은 경우, 모델은 훈련 데이터의 복잡성을 충분히 학습하지 못할 수 있습니다. 과소적합(underfitting)이 나타나는 경우, 훈련 데이터와 테스트 데이터 모두에서 낮은 ..

Graph Model - Transductive, Inductive

Transductive: 출력: 학습의 결과로 나오는 것은 주어진 그래프 내의 각 노드에 대한 고정된 임베딩 zv입니다. 특징: 학습 데이터셋 내의 노드에 대해 임베딩을 생성하는데 초점이 맞춰져 있습니다. 한계점: 트랜스덕티브 모델은 학습 데이터셋 외의 새로운 노드나 그래프에 대한 임베딩을 생성하는 능력이 없습니다. 따라서, 새로운 데이터에 대한 예측이나 표현을 생성하는 데에 제한이 있습니다. Inductive: 출력: 학습의 결과는 임베딩을 생성하는 인코더(encoder) 함수입니다. 특징: 노드나 그래프의 정보를 입력으로 받아 임베딩을 생성하는 능력을 갖추고 있습니다. 한계점: 인덕티브 접근 방식은 일반화 능력이 있기는 하지만, 이를 위한 적절한 학습 데이터와 인코더 구조가 필요합니다. 부족한 학습 ..

Conditioning

"Full Stack Deep Learning - UC Berkeley Spring 2021” Conditioning의 주요 요소 초기화 (Initialization) 신경망의 가중치를 시작하기 전에 설정하는 방법입니다. 적절한 초기화는 학습 과정의 안정성과 속도에 큰 영향을 미칩니다. 예를 들어, Xavier 초기화나 He 초기화 등이 있습니다. 정규화 (Normalization) 신경망의 학습을 안정화시키고 가속화하는 데 도움을 주는 기술입니다. Batch Normalization: 미니배치의 출력값을 정규화하여 내부 공변량 변화(internal covariate shift)를 줄입니다. Weight Normalization, Layer Normalization: 다른 차원의 정규화 방법으로, 특정 ..

Gradient Descent

경사 하강법(gradient descent)에서 말하는 '경사'는 손실 함수(loss function)의 경사, 즉 기울기를 의미합니다. 여기서 손실 함수란 모델의 예측이 얼마나 잘못되었는지를 측정하는 함수로, 모델의 성능을 수치적으로 나타내줍니다. 경사(Gradient)의 의미 손실 함수의 기울기: 경사는 손실 함수의 각 파라미터(또는 가중치)에 대한 기울기를 나타냅니다. 이 기울기는 함수의 현재 지점에서 파라미터를 약간 변경할 때 손실 함수가 얼마나 변하는지를 나타내는 수치입니다. 방향과 크기: 경사는 벡터의 형태로, 각 파라미터에 대한 손실 함수의 변화율을 방향과 크기로 나타냅니다. 이 벡터는 손실을 가장 빠르게 증가시키는 방향을 가리키는데, 경사 하강법은 이와 반대 방향으로 파라미터를 업데이트합니..

Self-supervised VS Transfer, Generative, Data Aug

1. Self-Supervised Learning vs. Data Augmentation Self-supervised learning과 데이터 증강은 기계 학습의 두 가지 다른 접근 방식입니다. 이 두 방법은 데이터를 활용하는 방식에서 중요한 차이점을 가집니다. Self-Supervised Learning: Learning Task Creation: Self-supervised learning은 레이블이 없는 데이터에서 학습 과제를 만들어냅니다. 예를 들어, 이미지에서 일부분을 가리고 그 부분을 예측하게 하는 것과 같은 작업을 통해, 모델이 데이터의 내재된 구조나 패턴을 학습하도록 합니다. Feature Learning: 이 접근 방식의 주요 목표는 데이터의 유용한 특성이나 표현을 학습하는 것입니다. 이..

Downstream Target Tasks

How to evaluate a self-supervised learning method ? -. We usually don’t care about the performance of the self-supervised learning task, e.g., we don’t care if the model learns to predict image rotation perfectly. -.Evaluate the learned feature encoders on downstream target tasks Downstream Target Tasks의 예시 Image Classification: 이미지 인식이나 분류 작업에서, 자기 지도 학습을 통해 학습된 특성 인코더를 사용하여 특정 객체나 장면을 분류합니다. O..

[해외 논문 리뷰] 메모, Tip

📌 타이틀은 핵심을 포착하라! - Abstract 논문의 주제와 가장 중요한 결과 혹은 발견을 간략하게 포함시켜 독자가 한 눈에 어떤 내용인지 파악 하게 작성📌 '소개'란에는 문제의 배경을 명확히! - Introduction 왜 이 문제가 중요한지, 어떤 도전과제들이 있었는지 간략하게 소개 (핵심적인 방법린 및 알고리즘)📌 '관련 연구'란에서는 다양성을! - Related works 여러 논문들의 주요 아이디어와 장단점을 간략하게 비교하며, 리뷰하는 논문이 어디에 위치하는지 티스토리 독자들에게 명확하게 작성📌 '방법론'란에서는 그림을 활용하자! - Method 복잡한 알고리즘, 구조 등은 그림, 플로우차트, 그림 설명 등을 활용해서 간단하게 표현해 주세요. 그림 하나가 긴 설명을 대체 가능하게...📌 '..