현상과 문제
- 모델에서 생성한 데이터로 학습된 모델에서 생성한 데이터로 다시 학습한 모델을 만들 경우
- 출현 확률이 낮은 데이터는 학습을 계속 할수록 점점 사라지게 된다
- 언어 모델에 위 과정을 적용하면 올바른 순서의 문장을 생성할 확률이 낮아진다
해결 방안
- 학습 데이터의 분포를 사전에 확인해서 관리 할 수 있으면 좋겠다
- 합성 데이터를 제작할 때 하나의 LLM을 통해 만들기 보다는 여러 LLM에서 나온 결과들을 종합하는 형태가 위 현상을 방지할 수 있겠다
기타 생각
- 사람은 멀티모달에서 얻어진 데이터가 다양한 형태로 변환되어 저장된다
- 이미지를 보고 텍스트를 기억에 저장하거나, 텍스트를 보고 이미지를 그려서 저장한다
- 생활 속에서 감각 기관을 통해 끊임없이 들어오는 정보는 학습 데이터로 치환할 경우 그 용량이 어마어마하다
- 그래서 뇌는 모두 저장하기 보다 선별해서 저장하는 기능이 특화되어 있는 듯하다
Share this article
Share
Share
Email
Read next
엑셀로 2일 만에 만든 서비스, 2년 만에 매각까지 | 마이루틴 옥민송″제가 지금도 뼈 아픈 게 마인딩포미를 만드는 데 7개월이 걸렸고
ChatGPT 아무나 만들자TestingLLM/ChatGPT_NER.ipynb at main · ritun16/TestingLLMContribute to ritun16/TestingLLM development by creating an account on GitHub.
″시선 추적해 문해력 분석”…레서, 베타 다운로드 1만건 달성인공지능(AI) 활용 에듀테크 스타트업 아티피셜소사이어티가 문해력 향상 솔루션 ‘레서’ 베타 서비스