디지털 뉴딜의 기본 재료는 ‘데이터’다. 따라서 정부의 D.N.A 생태계 강화 프로젝트에서 가장 우선순위에 놓여있는 것은 데이터의 구축과 활용이다.
하루에도 여러 분야에서 셀 수 없이 많은 데이터가 쏟아지고 있는 지금, 우리에게 필요한 것은 최대한 빠르고, 정확하게 ‘양질의 데이터’를 골라낼 수 있는 기술이다.
하지만 상황은 마음 같지 않다. AI 개발 시간의 80%를 데이터 전처리에 투입하고 있는 것이 현실. AI 시장의 이 같은 고질적인 문제를 해결할 방법은 없을까? 셀렉트스타(주)가 그 해답을 제시한다.
더 완벽한 AI 개발을 위한 데이터 생산법
AI를 개발하기 위해서는 대량의 원천 데이터를 수집하여 학습 데이터로 정확히 레이블링해야 한다.
셀렉트스타는 AI 데이터 플랫폼인 ‘캐시미션’을 통해 많은 리소스 투입이 필요한 AI 학습 데이터의 수집과 가공 문제를 크라우드소싱을 이용한 분업화로 해결한다.
“이전까지는 AI 연구·개발을 위한 데이터 수집과 가공을 수작업으로 하는 경우가 대부분이었습니다. 막대한 시간과 비용이 들어갔고, 막상 AI 연구·개발을 위한 시간이 부족한 경우까지 생겼죠.”
이에 셀렉트스타는 AI 기업과 연구자들이 AI 개발에 집중할 수 있도록 데이터 수작업을 대신해줄 방법을 고민했다.
이때 시중에 출시된 리워드 앱을 통해 비는 시간 틈틈이 돈을 벌고자 하는 소비자들의 니즈와 연결해보면 어떨까 하는 아이디어가 나왔고 이는 ‘캐시미션’ 탄생의 계기가 되었다.
AI 학습 데이터를 위한 크라우드소싱 플랫폼. 데이터가 필요한 AI 기업들이 데이터 생산 프로젝트를 셀렉트스타에게 의뢰하면 셀렉트스타의 크라우드소싱 리워드 서비스인 캐시미션에 데이터 프로젝트가 업로드된다.
캐시미션 사용자들은 시간과 공간의 제약 없이 작업을 수행하고 리워드를 받아 간다.
셀렉트스타는 자체 개발한 수학적 알고리즘과 선별된 검수자들을 통해 전수 검수를 수행하고 이를 통해 최종적으로 완성된 고품질 데이터를 고객사에 전달한다.
셀렉트스타가 제공하는 서비스의 차별점은 크게 4가지로 정리할 수 있다.
첫째, 접근성이 높아 많은 사람이 시공간적 제약 없이 데이터 생산에 참여할 수 있다.
둘째, 수학적 알고리즘 기반 크라우드 데이터 전수 검수로 빠르고 정확한 데이터 검수가 가능하다.
셋째, 딥러닝 기반 반자동 레이블링 기술을 통한 효율적인 데이터 라벨링이 가능하다.
넷째, 딥러닝 기반 유사 데이터 수집 필터링 기술을 통한 데이터 다양성이 보장된다.
닭이 먼저냐 달걀이 먼저냐
플랫폼 비즈니스를 진행하면서 셀렉트스타는 한 가지 난관에 부딪혔다.
고객사는 데이터를 생산할 크라우드가 있어야 의뢰를 맡기고, 크라우드는 프로젝트를 맡길 고객사가 있어야 플랫폼을 이용한다.
마치 '닭이 먼저냐 달걀이 먼저냐'와 같은 얘기였다.
셀렉트스타는 크라우드가 부족하더라도 자신들이 직접 데이터 작업을 수행하면 된다는 생각에 크라우드에게 보상을 줄 수 있는 고객사를 먼저 모집하고자 했다.
특히 B2B 사업에 중요한 레퍼런스가 될 만한 고객사를 모집하기 위해 각종 전시회, 세미나 등을 열심히 돌아다녔다.
그 결과 LG-CNS, KAIST, 네이버 등 좋은 고객사들을 모을 수 있었고, 해당 레퍼런스로 다른 대기업과 스타트업 등의 고객사를 더 많이 모을 수 있었다.
크라우드의 경우 프로젝트를 수주하며 자연스럽게 유입이 늘어났고, SNS 마케팅 등을 활용한 것도 도움이 되었다.
“이번 지원사업에 참여한 동기는 ‘캐시미션’의 작업자 데이터 생산 작업 환경을 향상하기 위한 목적이 컸습니다.”
이번 지원사업을 통해 비대면 작업자의 문의 창구 개선에 성공했고, 계속 증가하는 사용자 트래픽으로 인한 낮은 로딩 속도도 개선할 수 있었다.
신규 데이터 생산 기능을 개발하고 제품을 정식 출시하면서 작업자 유입이 늘어나 기업의 생산성 또한 높일 수 있었다.
디지털 데이터가 만드는 최고의 세상을 향해
셀렉트스타의 미션은 ‘데이터를 통해 IT 산업을 발전시켜 세상을 더 편하게 만든다’라는 것이다.
그동안 양적 성장을 위해 달렸다면 올해부터는 ‘J커브’를 그리기 위한 내실 다지기에 주력할 생각이다. 이를 위해 프로덕트와 R&D 기술의 고도화, 내부 프로세스 체계화, HR 체계 등에 많은 신경을 쓰고 있다.
중장기적으로는 기술적으로 정교한 크라우드소싱 플랫폼을 만들고자 한다. 데이터의 다양성, 속도, 비용 측면에서 크라우드소싱이 다른 생산 방식을 압도할 수 있다고 판단하지만 크라우드소싱에도 약점은 있다.
사람이 많아질수록 데이터의 품질 관리가 어렵다는 것이다. 이를 정교하게 발전시켜야 한다. 그리고 셀렉트스타는 여기에 강한 자신감을 느끼고 있다.
“데이터 품질을 유지하면서 많은 크라우드가 활동할 수 있게 하고, 이를 통해 어떤 데이터든 하루 만에 고품질로 구할 수 있는 플랫폼을 만들겠습니다.”
글로벌 AI 학습 데이터 시장은 2025년 1.5조 원까지 성장할 것으로 전망된다. 크라우드소싱을 통한 데이터 수집과 가공 속도 극대화는 AI 산업의 발전을 가속할 것이다.
이를 기반으로 비대면 일자리의 성장과 제작 데이터 공개를 통한 AI 생태계 활성화에도 도움이 될 것으로 기대된다.
셀렉트스타의 손을 거쳐 더욱 정교하게 정제된 고급 데이터가 더욱더 많은 AI 개발 기업의 양분이 되어 우리 국민의 삶을 더욱 편리하고 안전하게 만들 수 있게 되는 날을 기다려본다.
미니 인터뷰
Q1. 이번 사업 참여로 얻은 성과는 무엇인가요?>
“AI 학습 데이터 플랫폼 ‘캐시미션’을 구글 플레이마켓에 정식 출시했다는 것입니다. 또한 최적의 마케팅을 통해 DAU(Daily Active Users)를 7배 이상 성장시킬 수 있었습니다. 플랫폼 기술력 또한 전보다 강력해졌고, 20명 이상의 신규 인력을 확보할 수 있게 되었습니다.”
Q2. 성과를 낼 수 있었던 성공 비결은 무엇인가요?
“자율과 책임을 중시하는 수평적인 회사 문화와 열정적이고 일을 진심으로 대하는 탁월한 구성원들 덕분입니다. 이 때문에 셀렉트스타가 짧은 시간 안에 빠른 성장과 훌륭한 퍼포먼스를 보일 수 있었다고 생각합니다.”