뉴스, 서비스

GPT-4o: 이젠 바로 앞에서 사람과 대화하는 수준

24. 05. 14.

오픈AI가 새로운 플래그십 모델 GPT-4o를 발표했습니다. o는 전체를 아우른다는 뜻의 ‘옴니(Omni)’에서 따왔습니다. 주로 텍스트로 입력하는 방식의 기존 GPT 모델에서 음성이나 이미지로 정보를 입력하고 종합적으로 추론하고 자연스럽게 답합니다. 이제는 사람과 거의 비슷하게 소통할 수 있습니다. 생각하는 텀, 감정적 반응, 말 더듬기 등 인간적 특성들을 더 비슷해졌습니다. 시청각 정보를 바탕으로 보이지 않는 맥락을 파악하는 것도 고차원으로 발전했습니다.

기존 처리 방식인 GPT-3.5와 GPT-4는 분리된 3개의 모델 단계별로 오디오를 텍스트로 바꾸고 텍스트를 오디오로 바꿉니다. 중간에 잃어버리는 정보가 많아 음색, 화자, 배경음, 웃음, 노래 등 감정 표현을 출력할 수 없었습니다.

GPT-4o는 새로운 단일 모드로 입출력이 동일한 신경망에서 처리됩니다. 소리, 시각, 청각 모두 같은 모델에서 처리해 맥락을 따로 학습시키지 않고도 자연스러운 답변이 가능합니다. ChatGPT Plus에 GPT-4o를 공개했으며 곧 기업 사용자에게도 제공될 예정입니다.

실생활에서 있을 법한 상황에 쓰임새를 보여주는 여러 데모도 함께 공개했습니다.

일상적인 대화에서 사람과 농담을 주고받으며 어색하게 웃습니다. 생일 케익을 보여주자 누군가의 생일임을 알아차리고 축하 메시지를 전하기도 합니다. 강아지를 보여주면 너무나 사랑스럽다면서 호들갑을 떱니다. BeMyEyes와 함께 만든 영상에서는 여행을 떠난 시각 장애인에게 여행 풍경을 가이드처럼 상세하게 설명합니다. 2개의 스마트폰에서 구동되는 GPT-4o가 서로 대화하기도 합니다.

이미지 생성도 개선되었습니다. 동일한 스타일로 이야기를 표현하는 연속 이미지 만들기, 인물 사진 2개로 만드는 영화 포스터, 캐릭터 디자인, 손글씨 느낌의 타이포그래피, 목업에 로고 넣기 등 다양한 그래픽 작업을 할 수 있습니다.

영상은 전문 배우가 아닌 것 같은 사람들을 마치 브이로그처럼 찍었습니다. 사람과 너무나 비슷해진 기술에 관한 두려움을 줄이기 위한 인간적 허술함을 담기 위한 것 같네요. 강아지에게 감정을 느끼지 않을 텐데 강하게 감정을 표현하는 영상은 많은 생각이 들었습니다.

AI로 인한 위험을 방지하기 위한 가드레일은 각계각층의 70명 이상의 외부 전문가로 구성된 외부 조직과 만들고 있다고 합니다. 현재는 사전에 제작된 제한된 목소리로만 오디오 출력이 가능한 정도의 대비책입니다. 아쉽게도 안전성과 관련해서는 자체 평가 점수 외에 별다른 계획이 없는 것 같습니다. 모델 제한 영상은 가벼운 농담처럼 묘사한 것도 아쉽네요.

GPT-4o: 이젠 바로 앞에서 사람과 대화하는 수준

더 보기 및 출처

디자인 나침반 뉴스레터

최신 아티클

최신 아카데미

최신 뉴스

디자인 나침반 뉴스레터