📢 검색 기능 추가 예정

AI 모델 붕괴 현상

현상과 문제

  • 모델에서 생성한 데이터로 학습된 모델에서 생성한 데이터로 다시 학습한 모델을 만들 경우
  • 출현 확률이 낮은 데이터는 학습을 계속 할수록 점점 사라지게 된다
  • 언어 모델에 위 과정을 적용하면 올바른 순서의 문장을 생성할 확률이 낮아진다

해결 방안

  • 학습 데이터의 분포를 사전에 확인해서 관리 할 수 있으면 좋겠다
  • 합성 데이터를 제작할 때 하나의 LLM을 통해 만들기 보다는 여러 LLM에서 나온 결과들을 종합하는 형태가 위 현상을 방지할 수 있겠다

기타 생각

  • 사람은 멀티모달에서 얻어진 데이터가 다양한 형태로 변환되어 저장된다
  • 이미지를 보고 텍스트를 기억에 저장하거나, 텍스트를 보고 이미지를 그려서 저장한다
  • 생활 속에서 감각 기관을 통해 끊임없이 들어오는 정보는 학습 데이터로 치환할 경우 그 용량이 어마어마하다
  • 그래서 뇌는 모두 저장하기 보다 선별해서 저장하는 기능이 특화되어 있는 듯하다

Great! You’ve successfully signed up.

Welcome back! You've successfully signed in.

You've successfully subscribed to zoomg.

Success! Check your email for magic link to sign-in.

Success! Your billing info has been updated.

Your billing was not updated.