본문 바로가기
책벌레와 벌레 그 사이 어딘가/흥미를 더하다

[흥미를 더하다] 초거대언어모델

by veganwithbacon 2023. 2. 27.
반응형

지난 포스팅에서 ChatGPT에 대해서 알아봤다.

ChatGPT에 대해 공부하며 GPT - 1,2에서는 투자 대비 미비한 성장이 지속됐으나, Transformer를 통해 GPT - 3에서는 앞서 1,2에서의 부족했던 학습능력과 달리 성장했다는 것을 알 수 있었다.

초거대 언어모델에 대해서는 정말 기초적인 내용만 알고 넘어갔었기 때문에 이번에는 초거대 언어모델에 대해 알아봤다.


ChatGPT로 전 세계에 AI 트렌드가 초거대 언어모델이 혜성처럼 등장한 것 같지만, 사실 'Open AI'가 GPT-1,2를 선보일 때만 해도 지금과 같은 파급력이 있지 않았다. GPT는 데이터 생성모델의 한 예시인데, 데이터 생성모델은 DB에서 데이터를 선택해서 내주기만 하는 데이터 판별모델과는 달리 학습을 통한 학습을 통해 새로운 답변을 생성하기에 어느 정도 학습이 진행되어야 만족스러운 결과가 나오는 것이다.

하지만 기존 머신 러닝 알고리즘은 순차 처리를 통한 처리가 이루어졌기에 투자에 비해 결과가 미흡했다.

데이터 생성 모델의 기존 문제점으로 여겨졌던 오버피팅의 문제, 데이터 확보 문제, 연산 능력의 문제 등이 Transformer의 병렬 처리, 하드웨어의 발전으로 인해 상충관계를 해결할 수 있게 됐고, GPT - 3에서는 기존의 GPT - 1,2 와는 다른 성능을 보였다.


서론은 이쯤 하고 초거대 언어모델이 뭘까?

초거대 언어모델은 대용량 연산이 가능한 컴퓨팅 인프라스트럭처를 기반으로 대규모 데이터를 학습하는 기술이다.

기존의 AI가 가늠할 수 있는 양의 파라미터를 기반으로 학습하여 성능을 만들었다면, 지금은 압도적인 파라미터의 양과 하드웨어로 학습을 시킨다.

현재 ChatGPT의 기반이 되는 GPT - 2과 GPT -3의 파라미터 양이 대략 100배 이상 차이가 나는데, GPT -2의 파라미터가 15억 개였으나 GPT - 3는 약 1750억개의 파라미터를 가지고 있었다.

 

계속 파라미터, 파라미터 하는데 파라미터는 인간의 뇌에서 정보를 학습하고 기억하는 역할을 담당하는 시냅스와 유사한 역할을 한다고 보면 된다. 학습량이 많을수록 좋은 결과를 낼 수 있듯이, 파라미터의 규모가 커질수록 AI의 지능도 비약적으로 확대된다.


ChatGPT가 시장을 선점함으로써 전 세계 AI 시장에 가속도를 붙인 것 같다는 생각이 든다

기존에 단순 행동만을 반복하던 로봇에서 이제는 오더에 따라 AI가 그림을 그려주기도 하며, AI아바타, AI모델 등이 있다.

향후 AI 개발 속도와 방향에 따라서 대체되는 속도는 예상과 다를 수 있지만, 단순한 반복이나 전문성이 덜한 일들은 대체되는데 순간일 수도 있겠다는 생각이 든다. 

물론 같은 일을 수행가능하다한들 범위나 한계가 다를 수 있지만, 기술이 발달할수록 본인 스스로가 대체불가능한 자원이 되어야 한다는 생각이 든다.

 

변화에 빠르게 적응하거나, 한 분야에 있어서만큼은 확실한 아이콘이 되어야 한다.

 

알아본다해놓고 막상 블로깅하니까 뭘 한게 없는 느낌..

 

 

참고자료 : 

https://v.daum.net/v/20211216060014443?s=print_news 

https://velog.io/@jus6886/%EB%85%BC%EB%AC%B8%EB%A6%AC%EB%B7%B0-GPT1-GPT2-GPT3-%EC%B0%A8%EC%9D%B4%EC%99%80-%ED%95%9C%EA%B3%84 

https://www.aitimes.com/news/articleView.html?idxno=144214 

반응형

댓글