미디어 이슈 & 트렌드55호(3+4월)

본문

국내 리포트

ChatGPT를 넘어 생성형(Generative) AI 시대로 :
미디어·콘텐츠 생성형 AI 서비스 사례와 경쟁력 확보 방안

양지훈(한국문화관광연구원 연구원),
윤상혁(한국기술교육대학교 산업경영학부 교수)

사이트의 위치:

요약글

ChatGPT 열풍으로 인해 생성형 AI에 대한 관심이 뜨겁다. 생성형 AI는 이용자의 특정 요구에 따라 결과를 능동적으로 생성해 내는 인공지능 기술이다. 특히, 생성형 AI는 대량의 데이터(Hyper-scale Data)를 학습하여 인간의 영역이라고 할 수 있는 창작의 영역까지 넘보고 있다. 본 글에서는 생성형 AI가 구체적으로 무엇인지 탐색하고, ChatGPT 외에 미디어·콘텐츠 분야에 활용되고 있는 생성형 AI 서비스 사례를 살펴본다. 또, 생성형 AI 기술로 촉발될 변화에 대응하기 위한 생성형 AI 활용 경쟁 우위 전략으로 3i(inquiry-inspection-idea)를 제시한다.

1. 들어가며: 생성형 AI 시대의 서막, ChatGPT

ChatGPT 열풍이 심상치 않다. 이용자들의 세부 질문에 답을 능동적으로 즉시 제공하는 이 서비스는 베타 버전 출시 2개월 만에 MAU(월간 활성 이용자 수)가 무려 1억 명을 넘어섰다. 또한 구글, 메타 등 글로벌 빅테크 기업들이 앞다투어 천문학적인 규모의 투자와 유사 서비스 출시 계획을 발표하고 있다. 이 서비스의 핵심은 서비스 이용자의 '질문을 이해하고 분석'하여 수많은 정보 중 답이 될 만한 필요 정보를 '스스로 찾아서' 이를 적절히 '요약과 정리해 제공'하는 것이다. 특히 앞서 질문한 내용의 맥락을 잇거나 구체적인 사례를 들어 질문할수록 더 정확한 답을 얻을 수 있는데, 이는 마치 사람과 대화하는 것처럼 맥락을 이해하여 답을 제공한다는 점에서 이전과 차원이 다른 정보 검색 서비스를 체감하게 한다. 따라서 ChatGPT의 등장은 도서관이나 서점 등 물리적 장소에 직접 가서 서적이나 기사를 찾아가며 정보를 얻었던 1세대 검색(Search 1.0)과 인터넷 검색 엔진에 주제 키워드를 입력해 정보를 얻었던 2세대 검색(Search 2.0)과 차별화된다. 즉, 3세대 검색(Search 3.0)의 등장이라고 할 수 있다. 이러한 정보 검색의 진화 과정을 시기, 정보 취득처, 한계, 검색 범위, 필요 인프라, 검색자의 역할 등의 특성에 따라 정리하면 아래의 <표1>과 같다.

표1 정보 검색(Search)의 진화 과정
구분 검색(Search) 1.0 검색(Search) 2.0 검색(Search) 3.0
구분 시기 검색 1.0 1990년대 이전
(인터넷 보급 이전)
검색 2.0 1990년대부터 2010년대
(디지털 검색이 보편화되고 대중화되는 시기)
검색 3.0 2020년대 이후
(ChatGPT 보급 이후)
구분 정보 취득처 검색 1.0 물리적 장소
(도서관이나 서점 등)
검색 2.0 검색 엔진 서비스
(구글, 네이버 등)
검색 3.0 생성 AI 서비스
(ChatGPT 등)
구분 한계 검색 1.0 정보를 찾기 위해 물리적으로 방문해야 하고, 책과 기사를 수동으로 선별해야 하므로 비용과 시간 많이 듦 검색 2.0 유효 정보를 찾기 위해 키워드를 잘 개발해야 하고 검색 결과를 정렬하고 정리해야 함 검색 3.0 사실 확인 필요, 시의적 내용이나 개인마다 의견이 다른 내용에 대해서는 답이 어려움
구분 검색 범위 검색 1.0 상대적으로 적은 정보 원본에 대해서만 검색이 가능 검색 2.0 정보의 범위를 크게 확장하였지만 여전히 인간 검색자가 이용하는 검색 엔진과 연결된 정보로 한정됨 검색 3.0 자연어 처리와 기계를 이용한 AI 지원 검색 학습 알고리즘을 통해 광범위한 검색, 사용자 피드백과 기타 데이터를 기반으로 검색 기준을 지속적으로 개선
구분 필요 인프라 검색 1.0 도서관, 서점 등 물리적 접근 필요 검색 2.0 디지털 기기 및 인터넷에 대한 액세스 필요 검색 3.0 디지털 기기 및 인터넷 연결뿐 아니라 강력한 컴퓨팅 리소스 및 AI 플랫폼에 대한 액세스 필요
구분 검색자의 역할 검색 1.0 유효 정보 자료를 선별하는 데 검색자의 노력과 전문성이 필요 검색 2.0 검색 키워드를 주제에 맞게 체계적으로 구성.
검색 결과 중 유효한 정보만 정리
검색 3.0 기계 학습 알고리즘을 통해 도출된 결과를 검색자가 해석하고 확인

출처: 필자 작성

ChatGPT는 생성형 AI 기술이 구현된 대표적 서비스이다. 현재는 ChatGPT에 대한 관심이 급속히 커지면서 생성형 AI 서비스가 ChatGPT로만 설명되는 경향이 있다. 하지만, ChatGPT는 생성형 AI 기술을 활용한 하나의 서비스일 뿐이며, 이 외에도 미디어 콘텐츠 분야에 활용할 수 있는 이미지 생성 서비스, 음악 생성 서비스, 심지어 동영상 생성 서비스까지 다양한 생성형 AI 서비스가 존재한다.

이미 인터넷이나 아이폰이 등장할 때 글로벌 비즈니스와 일자리 생태계의 커다란 변화를 목도했던 전문가들과 대중은 이 기술이 다시 한번 얼마나 큰 파괴적 혁신을 만들어 낼지 기대하고 있다. 반면 일부는 블록체인, 메타버스 등과 같은 새로운 기술들이 급부상하다 한동안 부침을 겪었던 것처럼 잠시 뜨겁게 주목받다 관심에서 멀어지는 트렌드 기술이 되지 않을까 우려의 목소리를 내고 있기도 하다. 다만 이들을 비교해봤을 때, 결국 파괴적 혁신은 그 기술 자체의 혁신성 못지않게 '일반 대중도 체감할 수 있는 구체적인 제품이나 서비스의 등장'이 좌우한다는 건 파악할 수 있다. 메타버스, 블록체인 기술이 기대에 비해 우리 삶에 아직까지 큰 영향을 미치지 못하고 있는 핵심적 이유 중 하나는 대중이 구체적으로 체감할 수 있는 성공한 혁신 제품이나 서비스가 아직 없기 때문이다. 아이폰발 파괴적 혁신을 기억해보면, 3G 기반 모바일 기술과 터치스크린 기술은 이미 그보다 일찍 등장했지만 이 기술들은 아이폰과 앱스토어 서비스가 등장하며 비로소 전 세계 비즈니스에 변화를 증폭시킬 수 있었다. 직관적으로 체험 가능한 UI(User Interface)와 앱스토어라는 구체적인 프론트엔드 서비스(Front-end Service)가 있었기에 가능했던 것이다. 따라서 ChatGPT라는 프론트엔드 서비스를 통해 대중이 서비스의 유용성을 직접 체감할 수 있게 된 생성형 AI는 아이폰발 모바일 혁신 때와 유사함을 띠고 있으며, 전 세계 비즈니스 생태계에 큰 변화를 촉진하는 파괴적 혁신을 준비하고 있다고 볼 수 있다.

본 글에서는 생성형 AI(Generative AI)에 초점을 두어 생성형 AI는 무엇인지 설명하고 ChatGPT 외에 미디어·콘텐츠 관련 생성형 AI 서비스가 구체적으로 무엇이 있는지 사례들을 살펴본다. 또한 생성형 AI를 활용하여 우리가 경쟁력 우위를 어떻게 확보할 수 있는지 그 방안에 대해서 제시하고자 한다.

2. 생성형 AI란?

생성형 AI를 정확하게 이해하기 위해서는 이 기술이 등장하기 전까지 AI 발전 과정이라고 할 수 있는 상위 개념들을 살펴볼 필요가 있다. 가장 먼저 인공지능 개념이 등장했다. 인공지능(AI, Artificial Intelligence)은 말 그대로 인공지능, 즉 인간의 지능을 통해서 수행되는 행위들을 컴퓨터나 기계가 할 수 있도록 만드는 기술을 의미한다. 그리고 이후 명시적 규칙 없이 컴퓨터가 데이터를 기반으로 학습하고 데이터에서 찾은 패턴을 기반으로 결과물을 처리하는, 더 능동적인 개념의 AI 기술인 머신러닝 개념이 등장했다. 이들은 이미 1940년대부터 꾸준히 논의되며 개발되어 왔다. 그리고 오랜 시간이 지난 21세기에 들어서 이 기술들이 딥러닝이라는 기술과 함께 다양한 서비스로 구현되면서 AI의 개념이 대중에게 본격적으로 와 닿기 시작하였다. 머신러닝 단계까지는 특징 추출 파트와 분류 파트가 독립적으로 동작했다면 딥러닝은 인공신경망을 구성, 특징 추출과 분류가 하나의 모델로 유기적으로 이루어져 계층적으로 학습한 결과를 토대로 결과물을 만들어낸다. 여기에 더해 2020년대 들어 한층 더 대중에게 와닿을 수 있는 서비스 기술인 '생성형 AI'라는 세부 AI 기술까지 등장했다.

그림1 인공지능 주요 개념과 생성형 AI의 관계
(인공지능(머신러닝(딥러닝(생성형 AI = LLM + GAN + VAE))))

출처: AI와 데이터 분석 기초(윤상혁·양지훈, 2021)의 자료를 활용하여 재작성

생성형 AI란 이용자의 특정 요구에 따라 결과를 능동적으로 생성해 내는 인공지능 기술을 의미한다. 기존까지의 딥러닝 기반 AI 기술이 단순히 기존 데이터를 기반으로 예측하거나 분류하는 정도였다면, 생성형 AI는 이용자가 요구한 질문이나 과제를 해결하기 위해 스스로 데이터를 찾아서 학습하여 이를 토대로 능동적으로 데이터나 콘텐츠 등 결과물을 제시하는 한 단계 더 진화한 AI 기술이다. AI 개발사들은 개발하고자 하는 서비스의 목적에 따라 다양한 생성형 AI 모델을 개발하고 적용하고 있는데, ChatGPT와 같은 챗봇 서비스에 가장 널리 쓰이고 있는 생성형 AI 모델은 LLM(Large Language Model)이다. LLM은 쉽게 설명하자면, 텍스트와 같은 언어 데이터를 학습하여 결과를 제공하는 생성형 AI 모델이다. 오픈AI(OpenAI)에서 개발한 ChatGPT에 적용된 LLM은 GPT이며, 2023년 3월에 기존 모델인 GPT 3.5보다 약 500배 더 큰 모델 크기를 가진 ChatGPT-4가 출시되었다. 또한, 구글(Google)에서는 PaLM(Pathways Language Model: 구글의 LLM)을 활용한 챗봇 서비스인 '바드(Bard)'를 공개하였으며, 메타(Meta)에서는 '라마(Large Language Model Meta AI: 메타의 LLM)'라는 LLM을 공개하였다. 국내에서는 네이버가 한국어에 특화된 초거대 언어모델인 '오션(OCEAN: 네이버의 LLM)'을 개발하였고, 연내에 오션 기반의 챗봇 서비스인 '하이퍼클로바X'를 런칭할 계획이다.

표2 주요 생성AI 기업의 LLM과 프론트엔드 서비스
개발사 LLM(Large Language Model) 서비스
개발사: Open AI LLM GPT 3.5
(GPT 4.0 출시 예정)
서비스 ChatGPT
개발사: Google LLM PaLM
(Pathways Language Model)
서비스 Bard
개발사: Meta LLM llama
(Large Language Model Meta)
서비스 미정
개발사: 네이버 LLM OCEAN 서비스 하이퍼클로바X

출처: 필자 작성

다음 장에서는 ChatGPT 외에 미디어 콘텐츠 분야에서 활용할 수 있는 다양한 생성형 AI 서비스를 소개하며, 이전에 경험해보지 못한 효율적인 작업 방식과 미래를 경험할 수 있게 하고자 한다.

3. 미디어·콘텐츠 분야 생성형 AI 서비스 사례

3-1. 이미지 생성 서비스: Playground AI

플레이그라운드 AI는 생성형 AI를 이용해 이미지를 만드는 서비스다. 하루 최대 1,000개의 이미지를 생성할 수 있다. 이 서비스는 상단에 아름답고 흥미로운 이미지 갤러리가 있는 단순한 인터페이스를 가지고 있다. 사용자는 기존 이미지를 리믹스하거나 다양한 프롬프트, 필터 및 이미지 대 이미지 기능을 사용하여 처음부터 새 이미지를 만들 수 있다.

이 서비스는 이미지 생성 모델인 Stable Fusion 1.5, Stable Fusion 2.1을 기본으로 제공하며, 유료 가입자에게는 오픈AI의 이미지 생성 모델인 Dali 2도 제공한다. 그 외에도 이미지 크기, 생성 이미지 수, 품질 수준 및 기타 고급 옵션도 선택할 수 있다. 그리고 Playground AI에는 무료 및 유료 요금제가 있다. 무료 요금제는 사용자가 하루에 1,000개의 이미지를 생성하고 상업적으로 사용할 수 있도록 하고 있다. 그러나 이 경우 처음 50개 이미지는 품질 수준의 제한이 없지만, 50개 이상부터는 품질 수준이 제한된다. 유료 요금제는 더 높은 해상도, 빠른 생성, 영구 비공개 모드를 제공한다. 사용자는 자신의 이미지를 업로드하고 프롬프트를 설정하고 고유한 이미지를 생성할 수도 있다. 예를 들어, 'beutifull girl, pretty face, portrait, pink explosion, hyper detailed face, hyperrealistic, hyper detailed background'라는 프롬프트를 입력하면, 근사한 애니메이션 캐릭터가 생성된다. 이 밖에도 자신의 사진을 업로드하고 'Add sunglass to the face'라는 프롬프트를 입력하면, 손쉽게 선글라스를 낀 자신의 이미지를 만들 수 있다.

그림2 Playground AI 구동 화면과 선글라스 명령 전후 비교 이미지
Playground AI 구동 화면
선글라스 명령 전후 비교 이미지

출처: Playground AI 홈페이지, https://kjun.kr/1781

3-2. 음악 생성 서비스: Soundraw

Soundraw는 저작권 이슈 없이 인공지능으로 음악을 생성할 수 있는 서비스다.사용자는 음악의 분위기, 장르 및 길이를 선택하여 AI가 음악을 생성하도록 지시할 수 있다. 인트로를 짧게 만들거나 후렴구 위치를 변경하는 등 자유롭게 음악을 생성할 수 있다.

Soundraw는 YouTube 크리에이터에게 특히 유용하다. Soundraw에서 생성된 음악은 크리에이터가 저작권 걱정 없이 동영상에 음악을 사용할 수 있도록 도와준다. 사용자는 몇 번의 클릭만으로 자신의 동영상에 맞게 음악을 편집할 수 있다. Soundraw에는 무료 등급과 개인 요금제 두 등급이 있다. 개인 요금제는 사용자가 하루에 최대 50곡을 다운로드하여 개인 및 상업적 목적으로 사용할 수 있다. YouTube 및 소셜 미디어 비디오, 웹 광고, TV 및 라디오 광고, 팟캐스트, 게임 및 앱을 포함하여 다양한 콘텐츠에서 음악을 사용할 수 있다. 사용자가 요금제 구독을 취소하더라도 음악을 사용하고 다운로드할 수 있는 기능은 유지된다.

Soundraw에서 음악을 생성하는 방식은 매우 간단하다. 사용자는 AI가 생성한 음악을 바로 확인할 수 있으며, 템포, 테마, 악기 등을 선택할 수 있다. Pro 모드는 음악의 길이, 템포, 구조 편집 등 더 다양한 제어 기능을 제공한다. 그러나, 아직까지 MIDI, MP3 또는 스템 파일 다운로드를 제공하지 않으므로 프로듀서 수준의 트랙 편집 작업에는 제한이 있다.

그림3 Soundraw 구동 화면
Soundraw 구동 화면(1)
Soundraw 구동 화면(2)

출처: Soundraw 홈페이지(https://soundraw.io/)

3-3. 영상 생성 서비스: InVideo AI

InVideo AI는 복잡한 동영상 편집 기술 없이도 생성형 AI를 사용하여 텍스트에서 매력적인 동영상을 만들 수 있게 하는 서비스다. 비디오에 대한 아이디어를 선택하고 키워드를 선정하면 된다. 다음 단계는 스크립트를 만드는 것인데, 이때 AI 도구인 ChatGPT를 이용하면 쉽게 스크립트를 생성할 수 있다.

그림4 Invideo AI 구동 화면
홈페이지 캡쳐 화면

출처: RInVideo AI 홈페이지(https://invideo.io/)

스크립트가 준비되면 InVideo가 작동하여 다양한 템플릿, 전환, 텍스트를 제공한다. 애니메이션 및 음악을 사용하여 비디오를 만들 수 있으며, InVideo 대시보드의 비디오 워크플로를 통해 비디오 테마와 채널의 가로세로 비율에 맞는 템플릿을 선택할 수 있다. 스크립트는 편집자 왼쪽의 스크립트 상자에 입력하고 더 긴 단락으로 나누어 편집할 수 있다. InVideo의 AI 도구는 각 장면에 대한 정지화면을 포함한 가장 적절한 영상을 제안해 준다. 또한, 사용자는 동영상 탭에서 관련 클립을 검색하여 자동으로 선택된 미디어를 관련 미디어로 교체할 수 있다. 마지막 단계는 InVideo의 자동 텍스트 음성 변환 기능을 사용하여 동영상에 음성 해설을 추가하는 것이다. 사용자는 언어와 음성을 선택하고, 보이스오버를 생성하고, 배경음악을 보완하기 위해 볼륨을 조정할 수 있다. 최종적으로 사용자는 프리뷰 기능을 통해 동영상을 확인한다. InVideo AI는 고품질 동영상을 만드는 데 필요한 기술이나 인력이 없는 동영상 제작 초보자에게 훌륭한 생성형 AI 서비스다.

4. 마치며: 경쟁 우위를 갖기 위한 세 가지 방법, "3i(inquiry-inspection-idea)"

새로운 기술이 도입되며 하루가 다르게 변해가는 미디어 환경에서 경쟁 우위를 지니기 위해서는 빠른 대응이 필수적으로 요구된다. 또 새로운 기술을 빠르게 습득하고 미디어 영역에 활용하기 위해서는, 변화를 위기보다는 기회로 여기고 변화에 신속하고 적절하게 반응하는 것이 중요하다. 따라서 본고를 마치면서 생성형 AI을 통해 경쟁 우위를 가지는 세 가지 방법(3i)을 제안하고자 한다.

첫 번째는 '잘 질문하는 방법(inquiry)'을 익히는 것이다. 이를 프롬프트라고 부른다. 생성형 AI는 질문 방식에 따라 결과물이 천차만별로 나타날 수 있다. 따라서, 적절한 프롬프트를 선택하고 질문하는 방법을 익히는 것이 중요하며, 이를 통해 원하는 결과물을 더욱 정확하고 빠르게 얻을 수 있다.

두 번째는 '생성형 AI의 생성 결과를 확인하는 과정(inspection)'이 필요하다. 생성형 AI는 언어모델 특성상 기존의 인간이 만든 데이터베이스를 가지고 그럴싸한 결과를 내기 때문에 그 결과에 대한 책임은 온전히 질문하는 사람이 가진다. 예를 들어 ChatGPT에게 '세종대왕이 거북선을 만든 이유는 무엇인가'라고 물어보면, 거짓 답변을 작성한다. 그러므로, 사용자는 반드시 생성형 AI가 만들어낸 결과가 질문 의도와 맞는지 그리고 사실인지 확인해야 한다.

마지막으로, 생성형 AI의 결과물에 자신의 전문성과 창의성을 더해야 한다(idea). 생성형 AI의 결과물에 자신의 전문 지식을 활용하여 새로운 아이디어를 추가하는 것이 중요하다. 결국 생성형 AI는 보조적인 역할을 수행할 뿐이다, 당신의 전문성이 더해졌을 때 궁극적인 경쟁 우위를 이끌어낼 수 있다. 예를 들어, 같은 이미지 생성 모델을 사용하더라도 인간의 수정 작업을 거쳐 더욱 완성도 높은 작품을 만들어낼 수 있다.

생성형 AI 기술의 활용성과 잠재력은 무궁무진하다. 이제는 자신의 분야와 업에 생성형 AI 기술을 활용하는 것이 시대적 요구사항이다. 지금 움직이는 자가 Game Changer가 될 것이다.

참고문헌