2보고서의 주요 내용
2.1<AI Index Report 2022>의 개요 및 구성
미 스탠포드 대학교의 <AI Index Report 2022>는 2017년부터 발간되고 있으며, 정책 입안자와 연구원 등 이 분야의 전문가는 물론 기업인, 언론인, 일반인 등이 인공지능 분야에 대해 포괄적으로 이해할 수 있도록 전 세계에서 수집된 데이터를 기반으로 인공지능 분야에 대한 최신 정보를 제공한다.
다섯 번째 발간된 <AI Index Report 2022>에서는 특히 인공지능 기술과 성능에 대한 상세한 설명은 물론 인공지능 관련 입법 동향과 기술적 윤리 관련 내용을 신규로 포함해 △연구개발(R&D) △기술 성능 △기술 윤리 △경제와 교육 △정책과 거버넌스 등 총 5개 항목에 대해 검토하고 있다.
첫째, ‘연구개발(RESEARCH & DEVELOPMENT)’과 관련해서는 민간 투자가 급증하고 패턴인식, 기계 학습, 컴퓨터 비전1, 알고리즘, 데이터마이닝 등의 분야에서 특허가 급증하는 가운데, 미국과 중국이 연구개발과 창업 트렌드를 주도하는 것으로 나타났다. 2021년 인공지능 분야의 민간 투자 규모는 2020년 대비 2배 증가한 935억 달러였으며, 지난 5년 동안 인공지능에 대한 전 세계 민간 투자는 의료, 데이터 및 클라우드, 핀테크, 리테일 등에 집중된 것으로 집계됐다.
- 컴퓨터를 사용하여 인간의 시각적인 인식 능력 일반을 재현하는 인공 지능의 연구 분야로서, 인간의 시각이 할 수 있는 일을 수행하는 자율적인 시스템을 만드는 것이 기술적인 목표이다. 기계가 이미지나 비디오를 이해하도록 훈련시키고, 이미지 분류와 개체 인식 등 기술을 통해 다양한 분야에 응용할 수 있다.(출처: 컴퓨터인터넷IT용어대사전, Human-Centered Artificial Intelligence)
2021년 출원된 인공지능 관련 특허 건수는 2015년보다 30배 이상 증가했으며, 이 기간에 연평균 성장률 76.9%를 기록했다. 특허 등록은 북미(57%), 동아시아·태평양(31%), 유럽·중앙아시아(11.3%) 순서였으며, 특허 출원은 동아시아·태평양 지역이 62.1%를 차지했다.
둘째, ‘기술 성능(TECHNICAL PERFORMANCE)’과 관련해서는 컴퓨터 비전, 언어·음성인식, 추천시스템, 강화학습 등 주요 분야에서 지속적인 발전 양상이 포착되었으며, 특히 컴퓨터 비전 분야의 하위 카테고리 영역에 대한 중요성이 주목받고 있다. 이 영역에는 △이미지 분류(Image Classification) △이미지 생성(Image Generation) △딥페이크 감지(Deepfake Detection) △휴먼 자세 추정(Human Pose Estimation) △의미 세분화(Semantic Segmentation) △의료 이미지 분류(Medical Image Segmentation) △안면인식(Face Detection & Recognition) △시각 추론(Visual Reasoning) △비디오 동작 인식(Activity Recognition) 등이 있다. 언어 및 음성 인식 분야의 경우, 인공지능에 대해 원활한 언어 구사를 위한 고도의 기능을 기대하기에는 시기상조이지만 일반적인 강화학습 과제 해결을 위한 수행능력은 향상된 것으로 나타났다. 한편, 인공지능 학습 훈련 비용이 줄어드는 추세에 힘입어 기술 상용화를 위한 경제성이 향상되고 인공지능 기술의 채택 범위가 더욱 광범위하게 이루어질 조건이 마련되고 있다고 분석했다.
셋째, ‘AI 기술 윤리(TECHNICAL AI ETHICS)’ 부분에서는 2014년 이후 인공지능의 공정성과 투명성에 관한 연구가 급격히 확산하는 추세가 포착되고 있으며 산업계 종사자들의 비중도 높은 것으로 나타났다. 특히 인공지능 알고리즘의 공정성 확보와 편향성 제거를 위한 노력이 두드러지는 가운데, 훈련 데이터에 포함된 편견이 반영되는 언어 모델의 윤리성 문제 등에 대한 관심도 고조되고 있다. 이와 함께, 온라인상의 가짜정보나 편향성에 따른 오류를 바로잡는 등 자동화된 팩트체크 도구로서 인공지능의 역할도 주목받고 있다.
넷째, ‘경제와 교육(THE ECONOMY AND EDUCATION)’ 관련 내용에서는 고용, 인력양성, 기업활동과 인공지능 보급, 민간 투자 등이 다루어지고 있다. 인공지능 관련 산업의 채용률(AI Hiring Rate) 측면에서는 뉴질랜드, 홍콩, 아일랜드, 룩셈부르크, 스웨덴 등이 가장 높은 증가율을 기록했고, 전체 산업 채용공고 중 인공지능 분야의 비중이 가장 높은 국가는 싱가포르, 미국, 캐나다, 영국 순이었다. 2015년~2021년 간 인공지능 기술 보급률이 높은 국가는 인도(3.09%), 미국(2.24%), 독일(1.7%), 중국(1.56%), 이스라엘(1.52%)로 나타났다.
다섯째, ‘AI 정책과 거버넌스(AI POLICY AND GOVERNANCE)’와 관련하여 인공지능 관련 입법 활동이 활발해지는 가운데 2016년~2021년 기간 중 25개국의 인공지능 관련 총 입법 건수가 55건을 기록했다2. 특히 2021년에는 스페인, 영국, 미국이 각각 3건의 인공지능 관련 법안을 채택하는 등 총 18건의 입법 성과를 보였다.
2.2인공지능 기술 성능의 발전 현황
보고서는 인공지능 기술 성능의 수준과 현황 파악을 위해 컴퓨터비전, 언어 및 음성인식, 추천시스템, 강화학습, 하드웨어 등 5개 분야 및 그 하위분야에 대해 기술적 수준을 평가했다. 특히 컴퓨터비전과 언어 및 음성인식, 추천시스템 부문은 미디어 산업과 연관성이 높다는 점에서 주목된다.
-
미국이 13건, 러시아가 6건, 벨기에, 스페인, 영국이 각 5건, 프랑스, 이탈리아, 한국이 각 4건, 일본이 3건, 중국이 2건, 브라질, 캐나다, 독일, 인도가 각 1건을 기록했다.
첫째, 기계가 이미지나 비디오를 이해하도록 가르치는 컴퓨터 비전(Computer Vision) 분야의 경우, 이미지 분류(Image Classification)와 이미지 생성(Image Generation) 영역에서 각각 최근 10년과 최근 3~4년 동안 기술 수준과 성능이 크게 향상된 것으로 나타났다. 또한 가짜 이미지를 생성하는 딥페이크 기술의 악용을 막기 위한 딥페이크 감별(Deepfake Detection) 성능의 향상이 이루어지고 있으며, 스포츠 경기 분석이나 동작 식별 등에 활용되는 인간 자세 추정(Human Pose Estimation) 알고리즘의 성능과 객체를 구분하고 인식하는 의미 세분화(Semantic Segmentation) 성능 역시 2015년 대비 14.6%p 높아진 것으로 확인할 수 있었다.
영상에서 특정 개인을 식별하는 안면인식(Face Detection & Recognition) 기술은 인식률 100%에 가까운 성능을 기록했으며, 이미지 데이터와 텍스트 데이터의 조합을 추론하는 시각 추론(Visual Reasoning) 성능은 인간의 수준에 근접한 것으로 나타났다. 영상에서 발생하는 활동을 식별하는 비디오 동작 인식(Activity Recognition) 기술은 손 흔들기와 같은 단순한 행동부터 요리와 같이 복잡한 단계를 포함하는 활동까지 인식하는 수준으로 발전했다.
둘째, 언어 및 음성인식 분야의 경우 언어 이해(Language Understanding) 성능에서는 인공지능이 인간 수준 이상의 언어 이해 수준을 발휘할 수 있게 된 반면 문서 요약(Text Summarization) 성능은 최근 향상률이 감소한 것으로 확인되었다. 자연어 추론(Natural Language Inference) 성능은 아직 인간의 수준에 도달하지 못했고, 문장 속에서 감정을 식별하는 감성 분석(Sentiment Analysis) 성능은 2015년 70% 수준에서 2021년에는 90%에 근접한 수준까지 발전했다. 기계 번역(Machine Translation)은 신경망 도입에 힘입어 계속 발전하고 있으며, 음성을 텍스트로 변환하는 음성인식(Speech Recognition) 성능은 딥러닝을 기반으로 최근 10년간 급속히 발전했다.
셋째, 추천 알고리즘은 넷플릭스(Netflix), 스포티파이(Spotify), 유튜브(YouTube) 등의 플랫폼에서도 널리 활용되는 등 상용화가 상당 부분 진전된 상태에서 꾸준히 성능 향상이 이루어지고 있다. 예컨대 약 3만여 건의 영화 등급 데이터세트로 구성된 ‘MovieLens 20M’의 성능은 2018년 대비 5.2% 향상된 것으로 나타났다.
이밖에 강화학습 부문은 특히 체스, 바둑, 게임 등의 영역에서 좁은 강화학습 과제를 해결하는 방식으로 발전해왔으나, 최근 2년간은 새로운 환경에 적응되는 일반적인 강화학습 과제 해결에도 성능 향상이 이루어지고 있다. 하드웨어 부문에서는 로봇팔(Robotic Arms) 등의 가격이 점점 하락하는 등 로보틱스에 대한 접근성이 개선되고 있다.
2.3 인공지능 기술 윤리에 관한 관심 고조
2014년 이후 인공지능의 공정성과 투명성에 관한 연구가 폭발적으로 증가하는 가운데 알고리즘의 공정성과 편향성 문제가 주된 연구 주제로 각광받고 있다. 이에 따라 2016년부터 AI 시스템의 공정성과 편향성 검증을 위한 벤치마크 데이터세트와 진단용 지표 개발이 꾸준히 이루어지고 있으며, 산업계 관계자들의 연구 참여가 증가하는 것도 특기할만한 사항이다.
진단에 따르면, 주어진 단어 뒤에 특정 문장이 등장할 확률을 계산해주는 언어 모델은 그 어느 때보다 뛰어난 성능만큼 편향성 문제도 심각한 것으로 드러났다. 또한 언어 모델의 크기가 커질수록 유해성도 증가하는 양상이 확인되었다. 다만 인공지능이 훈련 과정에서 사용하는 기초 데이터에서 유해 내용을 필터링하는 경우에는 이 같은 유해성을 감소시킬 수 있다는 점도 함께 확인할 수 있었다.
텍스트와 이미지 등 다양한 종류의 데이터를 동시에 활용하는 멀티모달 모델(Multimodal model)의 경우 최근 텍스트 설명을 통한 이미지 분류와 이미지 생성 태스크들을 거치며 성능이 향상된 반면, 고정관념과 편견도 그대로 반영하는 문제를 노출시켰다. 예컨대 OpenAI의 이미지 분류 신경망 모델에 대한 실험 결과, 흑인의 이미지는 다른 인종보다 2배 이상 높은 비율로 인간이 아닌 이미지로 잘못 분류된 것으로 나타났다. 이는 컴퓨터 비전과 자연어처리 부문에서 편향성을 측정하기 위한 지표 개발이 중요한 만큼 멀티모달 모델에서도 편향성에 대한 통찰력을 제공하는 지표가 필요하다는 점을 시사한다.