본문 바로가기

암호화폐 기본지식

오픈AI, 새 AI모델 GPT-4o 출시…GPT-4o 기능 및 사용 보기

챗GPT 개발사 오픈AI가 사람처럼 보고 듣고 말하는 ‘옴니모델’ 인공지능(AI) ‘GPT-4o’를 공개했습니다. 이는 AI비서와 남성이 사랑에 빠지는 영화 ‘HER’을 연상케 합니다. 그리고 최근 화제를 일으켰던 정체불명의 ‘gpt2-챗봇’이 이 모델이라는 것을 확인했습니다.

 

오픈 AI, “인간처럼 보고 듣고 말한다” GPT-4o 출시

13일(현지 시간) 오픈AI는 온라인 신제품 발표행사를 통해 음성 비서 기능을 강화한 최신 거대언어모델(LLM) GPT-4o를 공개했습니다. 새 모델의 ‘o’는 모든 것이라는 ‘옴니’(omni)를 의미합니다.

또 음성 인식, 스피치-투-텍스트(Speech to text), 이미지 인식 기능 등이 통합돼 대화형 인터페이스 형태로 자연스러운 실시간 상호작용이 가능한 멀티모달(Multimodal, 다중 모드) 모델입니다. 모델이 음성, 텍스트 또는 이미지로 콘텐츠를 생성하거나 명령을 이해할 수 있다는 것을 의미합니다.

기존 GPT 모델이 글자(텍스트)를 통해 명령하는 방식이라면, GPT-4o는 음성, 텍스트, 시각물을 입력하면 AI가 추론하고 그 결과를 거의 실시간으로 내놓습니다. 즉, ‘GPT-4o’는 주로 텍스트를 통해 대화할 수 있었던 기존 모델과 달리 이용자와 실시간 음성 대화를 통해 질문하고 답변을 요청할 수 있습니다. 특히 음성의 ‘말투’도 다양합니다.

이전에는 구현하기 어려웠던 실시간 음성 대화를 가능케 합니다. 이는 사용자가 OpenAI의 인기 있는 챗봇 제품인 챗GPT(ChatGPT)와 눈에 띄는 지연 없이 대화를 나눌 수 있게 해주며, 말을 끊을 수도 있게 합니다.

GPT-4o의 응답 시간은 최소 232밀리초, 평균 320밀리초로, 인간의 응답시간과 비슷하다고 오픈AI는 설명했습니다. 이전 모델인 GPT-3.5의 응답 시간은 평균 2.8초, GPT-4는 5.4초였습니다.

 

🎁투세븐빗 가입하시고 10%USDT 받으세요

투세븐빗 암호화폐 코인선물 거래소 신규 유저 한정 이벤트(입금 및 거래 시 10% 첫충전 추가 USDT 보상) <<<<

 

챗GPT-4o 기능

GPT-4o에서 사용할 수 있는 차별화된 5가지 옴니 기능이 가집니다. △텍스트, 이미지, 오디오 등 다양한 형식의 데이터를 처리할 수 있는 멀티모달(multi modal) 기능 △이미지를 분석하고 설명하며 생성하는 강화된 비전(vision) 기능 △실시간 웹 정보 검색을 통해 얻은 최신 정보를 기반으로 한 깊이 있는 답변 기능 △외부 API(응용프로그램 인터스페이스)를 호출해 새로운 기능을 확장할 수 있는 펑션콜(function call) 기능 △데이터 해석 능력을 바탕으로 한 비즈니스 인사이트 제공 기능 등입니다.

1.음성 기능 강화

실제 이날 오픈AI가 보여준 GPT-4o의 핵심 기능 중 하나는 지금까지 AI 음성 챗봇에는 없었던 사실적인 대화입니다. 즉, 핵심은 음성 기능 강화입니다. 사용자가 챗GPT에 말을 걸면 실시간으로 지연 없이 실시간 응답을 하는 식입니다.

텍스트 비디오 이미지를 업로드하면 대화할 수 있고, 음성과 음성 대화도 가능하다. 종전에는 음성과 음성 연결이 불가능했습니다. 말을 하면, 챗GPT가 문장을 입력하는 정도였습니다. 하지만 이번에는 음성을 입력하면 챗GPT가 음성을 출력했습니다.

‘잠을 잘 자지 못하는 친구를 위해 잠자리 이야기를 들려달라’고 하자, 이 AI 모델은 다양한 목소리와 감정, 톤으로 바꿔가며 이야기를 들려줬습니다. 발표를 맡은 미라 무라티 최고기술책임자(CTO)가 이탈리아어로 말을 걸면 영어로 변환한 다음 바로 영어로 응답을 받아 이탈리아어로 대화했습니다. 심지어 요청에 따라 이야기 일부를 노래하기도 했습니다.

2.메모리 기능 추가

미라 무라티 최고기술책임자(CTO)가 “챗GPT가 이제 메모리 기능도 갖추게 돼 사용자와 이전 대화를 통해 학습하고 실시간 번역을 할 수 있게 됐다”며 “사용 편의성 측면에서 큰 진전을 이룬 것은 이번이 처음이다”고 말했습니다.

3.전 세계 50개 언어 지원

GPT-4o는 기존 GPT-4 모델을 기반으로 하며, 전 세계 50개 언어를 지원합니다. 이번 발표에서는 15개 언어가 추가됐습니다. 거의 즉각적으로 다른 언어 번역이 가능합니다. 한국어 등 20개 언어를 토크나이저 압축으로 개선했다고 밝혔습니다.

미라 CTO는 “챗GPT는 현재 1억 명이 사용하는 AI 솔루션이며, 97%의 세계 시민을 커버하는 50개 언어로 제공된다”며 “이번에 추가된 15개 언어를 통해 더욱 많은 사람들이 AI 기술을 활용할 수 있을 것”이라고 밝혔습니다.

오픈AI는 수학·물리학·법학·윤리학 등 57개 과목을 테스트하는 다중언어작업이해(MMLU)에서 GPT-4o가 88.7%를 기록했다고 밝혔습니다. GPT-4 터보의 86.5%와 구글 제미나이 울트라의 83.7%를 넘어서는 수준입니다.

4.다양한 AI 엔진을 통합

GPT-4o는 다양한 AI 엔진을 통합해 진정한 AI 에이전트가 될 것으로 보입니다. 특히 AR 글래스나 디바이스 산업을 바꿀 수 있다. 메타가 AI 에이전트 접목을 시도하고 있는데, GPT-4o의 등장으로 경쟁이 심화될 것으로 예상됩니다.

특히 ‘GPT-4o’ 모델이 기존 GPT-4 터보보다 두 배 더 빠르고 비용은 2분의 1 수준이라고 설명했습니다. GPT-4 터보는 지난해 11월 선보인 최신 버전입니다.

5. 이미지 처리 기능

이미지 처리 기능에서도 뛰어난 성능을 보였습니다. 종이에 적힌 수학 방정식을 조언에 따라 단계별로 문제를 풀었고, 통역 기능도 제공했습니다. 또 GPT-4o의 API는 이전 모델인 GPT-4보다 2배 더 빠르고 2배 더 저렴합니다.

6.카메라로 얼굴 보고 인간 감정 파악

GPT-4o에서 무엇보다 주목할 점은 AI가 카메라로 세상을 들여다본다는 것입니다. GPT-4o가 사람과 자연스럽게 대화할 수 있는 이유 중 하나도 카메라를 통해 상대방 표정을 읽어내기 때문입니다. 카메라와 연동으로 GPT-4o의 실용성도 기존 모델보다 크게 높아졌습니다. 가령 사람이 수학 문제를 푸는 모습을 비춰주면 풀이 방법을 알려주거나, 컴퓨터 화면 속 코딩에서 잘못된 내용을 지적하는 것도 가능합니다.

최근 오픈AI는 애플 데스크톱용 앱을 개발하고 있는데, 이 앱이 완성되면 AI가 컴퓨터 화면 속 내용을 인지하고 사람과 대화하는 것도 가능해질 것이다.

 

GPT-4o의 모델 기술 평가

오픈 AI는 기술적으로는 기존에 LMM을 구동하기 위해 텍스트와 이미지, 음성 부분을 따로 담당하는 것을 넘어, 모델 3개를 하나로 통합했다고 설명했습니다.

무라티 CTO는 “모델 3개가 함께 작동하면 많은 지연 시간이 발생하고 경험의 몰입도가 떨어진다”라며 “하지만 오디오, 텍스트, 영상 전반에 걸쳐 추론하는 하나의 모델이 있으면 모든 대기 시간을 줄이고 사람이 하는 것처럼 챗GPT와 빠르게 상호 작용할 수 있다”라고 설명했습니다.

또 “상호작용과 사용 편의성 측면에서 큰 도약을 이룬 것은 이번이 처음”이라고 강조했습니다.

벤치마크에서도 GPT-4o는 텍스트, 추론 및 코딩 지능에서 GPT-4 터보 수준은 물론, 다국어와 오디오, 비전 기능에서 새로운 최고 수준을 달성했다고 전했습니다.

 

🎁투세븐빗 가입하시고 10%USDT 받으세요

투세븐빗 암호화폐 코인선물 거래소 신규 유저 한정 이벤트(입금 및 거래 시 10% 첫충전 추가 USDT 보상) <<<<

 

GPT-4o VS GPT-4

더 인간 처럼 : 위에서도 언급했듯이, 가장 중요한 차이는 GPT-4o가 보고, 듣고, 말할 수 있다는 것입니다. 핸드폰 카메라를 통해서 사람의 표정을 읽을 수 있고, 사람과 대화하는 것과 유사한 속도로 대화를 할 수 있습니다. (GPT-4o는 232밀리 초안에 응답할 수 있는데, 이건 인간끼리 대화가 오가는 속도랑 비슷한 수치라고 해요.)

더 빠르다 : GPT-4o의 응답 속도는 GPT-4 Turbo보다 2배 빠릅니다. 지능은 비슷한 수준이라고 합니다. 비유하자면 아이큐는 비슷한데, 일머리는 더 좋은 것이죠. 답변을 생성하는데 드는 컴퓨팅 비용도 50% 정도 더 저렴하다고 합니다.

한국어도 잘 한다 : 기존 GPT 이용자라면 한국어로 질문했을 때와 영어로 질문했을 때 답변의 속도와 퀄리티가 현저히 차이 난다는 걸 알고 계셨을 텐데요, GPT-4o는 영어 외 언어 능력도 개선됐다고 합니다. 직접 한국어로 질문을 해봤는데 답변의 퀄리티는 여전히 영어로 질문했을 때만 못하지만, 답변 속도는 확 체감될 만큼 빨라졌습니다.

 

GPT-4o 무료 사용법

오픈AI는 앞으로 몇 주에 걸쳐 사용자에게 GPT-4o 기능(음성 모드)을 공개할 계획입니다. 개발자를 위한 API는 이날부터 공개했습니다. 또 이 모델은 향후 애플의 ‘시리’에 통합하는 데에도 사용될 것으로 보입니다.

오픈AI는 무료 버전의 챗GPT3.5를 사용하는 사용자를 포함한 모든 사용자에게 GPT-4o를 사용할 수 있도록 했습니다. 즉, GPT-4o의 텍스트 및 이미지 기능은 5/13(월)부터 챗GPT를 통해 무료로 제공됩니다. 실시간 대화가 가능한 새로운 음성 모드는 향후 몇 주 내에 챗GPT Plus 유저에게 먼저 적용될 예정이라고 합니다. 유료 사용자(챗GPT4.0, 월 20달러)는 무료 이용자보다 5배 많은 질문을 할 수 있습니다.

Plus 플랜에서는 현재 3시간 80회의 GPT-4o 사용량이 제공되며, 무료 플랜의 사용 가능 횟수는 아직 공개되지 않았습니다.

🔍GPT-4o 사용법

GPT-4o를 사용하려면 로그아웃한 후 오픈 AI 계정에 다시 로그인해야 합니다.

1. 먼저, ChatGPT 앱을 스마트폰에 설치합니다. 앱은 iOS와 Android에서 모두 사용할 수 있습니다.

  • iOS용 ChatGPT 앱
  • Android용 ChatGPT 앱

2.앱을 설치한 후, OpenAI 계정으로 로그인합니다. 이미 로그인된 상태라면 먼저 로그아웃 버튼을 클릭합니다. 페이지가 새로고침된 후 다시 로그인합니다.

3.신규 모델 공개 직후 모델 선택 옵션이 활성화되며 사용할 수 있습니다.

4.음성 대화를 시작하려면 화면 하단의 헤드폰 아이콘을 탭 합니다.

5.질문을 하면, ChatGPT가 응답합니다. 대화는 자동으로 진행되며, 따로 터치하지 않아도 대화할 수 있습니다.

정리하자면 Chat-GPT 앱을 스마트폰에 설치하고, 로그인하고, 하단의 헤드폰 아이콘을 탭 하기만 하면 끝입니다.

 

🎁투세븐빗 가입하시고 10%USDT 받으세요

투세븐빗 암호화폐 코인선물 거래소 신규 유저 한정 이벤트(입금 및 거래 시 10% 첫충전 추가 USDT 보상) <<<<

 

챗GPT-4o, 무료인가요?

5월 17일 오전 기준으론, 한국에서는 유료 플랜 사용자만 사용할 수 있습니다. 공식 사이트에서는 무료 플랜에서도 GPT-4o를 사용할 수 있다고 밝히고 있지만, 아무래도 지역에 따라 적용 시점에 차이가 있는 것 같습니다.

한편, 오픈AI는 지난 7월 29일(현지시간) 홈페이지를 통해 쿼리 당 최대 6만4000개의 출력 토큰을 제공하는 ‘GPT-4o 롱 아웃풋(Long Output)’ 모델을 출시했다고 발표했습니다.

이는 기존 GPT-4o의 출력 규모인 4000토큰의 16배에 해당하는 크기입니다. 이를 통해 챗GPT는 약 200페이지에 달하는 중편 소설 분량의 답변을 한번에 내놓을 수 있게 됐습니다.

입력 토큰의 나면 질문 안에서 답을 찾는 기능으로 인해 모델의 성능이 좋아진다. 그러나 출력 토큰이 늘어나는 것은 모델 비용을 높일 뿐 정확도와는 관계가 없습니다. 물론 코드 편집이나 글쓰기 수정 등에서 세부적이고 대규모 출력이 필요한 경우 도움이 될 수 있는데, 수요가 얼마나 될지는 미지수입니다.

실제로 ‘gpt-4o-64k-putput-alpha’ 모델은 ▲입력 100만 토큰 당 6달러 ▲출력 100만 토큰 당 18달러로, 출력 비용이 훨씬 비쌉니다.

 

챗 ‘GPT-4o’ 생성 첫 이미지 공개

벤처비트는 15일(현지시간) 그렉 브록먼 오픈AI 사장이 자신의 X(트위터)에 GPT-4o 모델을 사용해 생성한 최초의 이미지를 공개했다고 전했습니다.

A GPT-4o generated image — so much to explore with GPT-4o’s image generation capabilities alone. Team is working hard to bring those to the world. pic.twitter.com/5mO5aQxbaK

— Greg Brockman (@gdb) May 15, 2024

이에 따르면 브록먼 사장은 GPT-4o로 ‘오픈AI 로고가 있는 검은색 티셔츠를 입은 사람이 칠판에 양식 간 전송(Transfer between Modalities)이라고 적힌 분필 텍스트를 쓰고 있는 모습’을 생성했습니다.

이 이미지는 같은 프롬프트로 기존 달리 3로 생성한 이밎와 비교하면, 퀄리티의 차이가 확실하게 느껴집니다.

현실성이 압도적으로 뛰어난 것은 물론, 이미지 중 포함된 글자 즉 타이포그래피도 기존과 달리 정확하게 반영했다. 즉 달리 3는 철자법이 엉망인데 반해, GPT-4o의 문장은 정확합니다.

GPT-4o가 생성한 이미지는 달리 3를 통해 생성한 이미지보다 품질, 사실성, 텍스트 생성의 정확성 등이 크게 향상됐습니다.

 

🎁투세븐빗 가입하시고 10%USDT 받으세요

투세븐빗 암호화폐 코인선물 거래소 신규 유저 한정 이벤트(입금 및 거래 시 10% 첫충전 추가 USDT 보상) <<<<

 

 

GPT-4o 미니(Mini) 출시

오픈AI는 18일(현지시간) 생성형 AI 최신 모델 ‘GPT-4o mini(GPT-4o 미니)’를 출시한다고 발표했습니다. 지난 5월 출시한 GPT-4o의 소형 모델을 공개한 것입니다. 오픈AI에 따르면 이번 모델은 텍스트와 이미지, 동영상을 출력하며, 입력은 텍스트와 이미지 인식만 지원합니다. 즉 실시간 음성 대화가 가능했던 GPT-4o와는 쓰임새에 차이가 있습니다. 오픈AI 측은 “이미지·비디오·오디오를 통합한 입출력은 향후 지원할 예정”이라고 했습니다.

GPT-4o는 주로 텍스트를 통해 대화했던 기존 모델에서 벗어나 이미지·동영상을 통한 소통이 가능한 데다가 실시간 음성 대화까지 가능해 큰 관심을 받았습니다.

공식 정보에 따르면 GPT-4o mini의 가장 큰 특징 중 하나는 우수한 성능을 유지하면서도 이전 모델들에 비해 월등히 저렴한 가격으로 제공된다는 점입니다. 이는 더 많은 개발자와 기업들이 고성능 AI 모델을 활용할 수 있게 해주는 중요한 요소입니다.