뉴스, 서비스

OpenAI 음성 엔진:15초면 복제되는 목소리

24. 04. 05.

OpenAI가 15초 정도 길이의 샘플로 화자의 목소리로 말하는 오디오를 만드는 ‘보이스 엔진(Voice Engine)’을 공개했습니다. 2022년에 처음 만들어 읽기, 번역, 비언어 사용자 지원, 장애 개선 등 용도를 확인하고 소규모 그룹과 테스트해 왔다고 합니다.

AI로 음성을 만드는 서비스가 많지만 비교가 되지 않는 품질을 보여줍니다. OpenAI가 ChatGPT처럼 대중에게 유용할만큼 수준을 끌어올려 널리 퍼뜨리는 것에 익숙해진 것처럼 보입니다.

OpenAI의 블로그 게시글에서 샘플을 확인할 수 있습니다. 15초 길이의 샘플을 준비하고글 단락을 추가하면 자연스럽게 읽어줍니다. 다양한 분야에 관한 짧은 문장을 개인의 목소리 특성이 담긴 오디오로 만들어 줍니다. 영어로 읽은 샘플을 바탕으로 스페인어, 중국어, 독일어, 프랑스어, 일본어로 생성할 수도 있습니다.

언어 장애가 있는 사람의 샘플을 사용해도 자연스러운 오디오를 생성할 수 있습니다. 일상생활에서 소통하기 위한 언어를 본인의 목소리로 말할 수 있습니다. 기존 텍스트 투 스피치(Text to Speech)와 다르게 기계가 읽는 느낌이 적어 더 편하게 사용할 수 있을 것으로 보입니다.

OpenAI는 교육과 건강과 같이 인류적 가치에 기여할 수 있는 회사와 협업한다고 강조하지만 가장 위험한 기술입니다. 글은 본래 복제가 쉬워 진위 여부에 관한 경각심이 있고 영상은 아직은 완벽하게 속일 수 있을만큼 자연스럽게 만들기가 어렵죠.

Dimagi: 지역사회 보건 종사자들이 모유 수유 중인 엄마들을 위한 서비스

하지만 목소리는 다릅니다. 15초 길이의 샘플을 구하기가 너무나 쉽고 듣는 이가 진위 여부를 판별하기가 훨씬 더 어렵습니다. 은행 계좌를 만들 때 음성으로 인증하는 것은 앞으로 어려워질 것 같네요. 심지어 얼마전 미국에서는 조 바이든 대통령의 목소리를 복제해 뉴햄프셔 민주당원들에게 투표하지 말라고 독려하는 자동 녹음 전화가 돌기도 했습니다.

현재는 제한된 회사에서만 사용할 수 있으며 목소리를 생성할 때 음성 제공자의 동의를 받아야 하며 AI로 음성을 만들었음을 청취자에게 공개합니다. 오디오 클립에 워터마크를 추가해 출처를 드러내고 유통을 추적한다고 합니다.

하지만 이것만으로는 충분하지 않다는 생각이 듭니다. 개인간의 차이를 없애고 획일된 정답을 추구하게 만드는 다양성 위기, 보이지 않는 개인 사유 재산의 보호에 관한 대비가 절실한 것 같습니다.

OpenAI 음성 엔진:15초면 복제되는 목소리

더 보기 및 출처

디자인 나침반 뉴스레터

최신 아티클

최신 아카데미

최신 뉴스

디자인 나침반 뉴스레터