반응형
Notice
Recent Posts
Recent Comments
Link
«   2025/06   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Archives
Today
Total
관리 메뉴

테크매니아

Dark knowledge 본문

카테고리 없음

Dark knowledge

SciomageLAB 2024. 10. 18. 00:21
반응형

https://www.ttic.edu/dl/dark14.pdf

논문 Distilling the Knowledge in a Neural Network

학습과 사용의 상충되는 제약

  • 훈련 데이터에서 많은 지식을 추출하는 가장 쉬운 방법은 많은 다양한 모델을 병렬로 학습하는 것이다.
    • 모델을 최대한 다르게 만들어 오류 간의 상관 관계를 최소화하고자 한다.
    • 우리는 다른 초기화 또는 다른 아키텍처 또는 훈련 데이터의 다른 하위 집합을 사용할 수 있다.
    • 개별 모델을 지나치게 적합 시키는 것이 도움이 됩니다.
  • 테스트 시간 우리는 모든 모델 또는 서로 다른 오류를 만드는 좋은 모델의 선택된 하위 집합의 예측을 평균한다.
    • 거의 모든 ML 경쟁에서 승리하는 방식입니다. (예: 넷플릭스)

앙상블이 테스트 시간에 나쁜 이유

  • 큰 앙상블은 매우 중복적이다. 매개 변수당 지식이 거의 없습니다.
  • 테스트 시 계산량과 메모리 설치 공간을 최소화하고자 합니다.
    • 이러한 제약조건은 일반적으로 훈련 시간보다 시험 시간에 훨씬 더 심각하다.

비유

  • 잎사귀 -> 애벌레 -> 나비
  • 행성 -> paydirt -> 금
  • 훈련 데이터 -> 학습 된 모델의 큰 앙상블 -> 소규모 생산 모델

주요 아이디어

  • 앙상블은 입력에서 출력으로 기능을 구현합니다. 앙상블의 모델 및 모델 매개 변수화 방식을 잊고 기능에 집중합니다.
    • 앙상블을 배운 후, 우리는 그 기능을 손에 넣었습니다.
    • 함수의 지식을 하나의 작은 모델로 옮길 수 있습니까?

소프트 타깃: 기능을 전송하는 방법

  • 출력이 큰 N-way softmax인 경우 대상은 일반적으로 단일 1과 전체 0입니다.
    • 평균적으로 각 대상은 최대 로그 N비트의 제약 조건을 함수에 적용합니다.
  • 우리가 앙상블을 가지고 있다면, 우리는 훨씬 더 부드러운 분포를 얻기 위해 앙상블의 평균 로짓들을 “temperature”로 나눌 수 있다.
  • 이는 각 교육 사례의 기능에 대한 훨씬 더 많은 정보를 보여줍니다.

별개: 모델을 평균화하는 두 가지 방법

  • 모델의 출력 확률을 평균화 하여 모델을 결합할 수 있습니다.
  • 우리는 다음과 같은 출력 확률의 기하학적 방법을 사용하여 모델을 결합할 수 있다.

하드 및 소프트 타겟의 예

반응형