똑똑한 AI의 진화…'뇌·눈·입·귀·손' 인간의 오감 구현
똑똑한 AI의 진화…'뇌·눈·입·귀·손' 인간의 오감 구현
  • 뉴시스
  • 승인 2022.12.05 13:45
  • 댓글 0
이 기사를 공유합니다

인공지능 기술 고도화…인간의 능력 구현
디지털휴먼·사회공헌·안전관리 등 다양해
인공지능(AI) 스타트업

 배민욱 기자 = 인간과 인공지능IAI)이 공존하며 살아가는 것은 필연적인 수순이 됐다. 인공지능은 일일이 그 수를 헤아리기 어려울 만큼 이미 일상의 수많은 곳에서 활약하고 있다. 단순한 기능을 수행하던 초기 단계에서 나아가 이제는 진짜 사람처럼 두뇌를 비롯해 눈, 입, 귀, 손 등 오감(五感)을 대신할 수 있을 만큼 고도화된 성능으로 뛰어난 효용성을 입증하고 있다.

한때는 '불쾌한 골짜기'라 불리던 오명도 옛말이 됐다. 인공지능의 위상은 날로 높아지고 있다. 미래 사회를 변화시킬 핵심 산업으로 부상한지 오래다. 인공지능은 인간의 부족한 영역을 메워준다. 인간과 인공지능은 상호보완 관계로 융화하며 공존하고 있다.

5일 관련 업계에 따르면 인간의 언어 처리 능력을 담당하는 기관이 두뇌다. 이러한 능력을 갖춘 AI는 '대화형 AI'라고 한다. 대화형 AI는 이미 챗봇, 보이스봇 등 친숙한 모습으로 일상에 스며들었다. 기술력은 빠른 속도로 진화를 거듭해 인간의 감정에 감응하고 의도를 파악해 사람처럼 대화할 수 있는 수준에 이르렀다.

스켈터랩스는 국내 최고 수준의 원천기술력을 보유하고 있다. 이들은 ▲챗봇 ▲보이스봇 ▲STT(Speech-to-Text) ▲TTS(Text-to-Speech), ▲MRC((Machine Reading Comprehension) 등 대화형 AI의 전 분야를 지원하는 'AIQ.Talk' 솔루션을 개발했다. 또 독보적인 대화형 AI 기술력을 다양한 분야에 접목시키고 있다.

스켈터랩스는 에이스토리, 에이아이엠씨, 네오사피엔스 등과 업무협약을 체결하고 배우 주현영의 IP(지식재산권)를 확보, 대화형 AI에 페르소나를 입혀 구현한 '디지털 휴먼'을 개발 중이다. 이들은 더블유에이아이와의 협업을 통해 대화형 AI를 금융권에 최적화된 엔진으로 구성하고 진짜 사람처럼 대화할 수 있는 '인공지능 상담원' 역할을 수행할 수 있도록 AICC(인공지능 컨택센터)도 개발 중이다.

스마일게이트는 최근 VFX(visual effect) 전문기업 자이언트스텝과 함께 만들어낸 디지털 휴먼 '한유아'를 가수로 데뷔시켰다.

한유아의 목소리는 다양한 연령대 수백명의 보이스 데이터를 취합한 뒤 인공지능으로 합성해 만들어졌다. 더욱 사람과 같이 소통하기 위해 한유아를 구성하는 인공지능에 단행본 216만권에 해당하는 863GB(기가바이트)의 언어 데이터를 학습시켰다. 2만5000개 이상의 블로그 포스트, 180만개 이상의 기사, 1억4000만여개의 댓글을 비롯해 표준국어대사전·국립국어원의 '모두의 말뭉치' 등을 거쳐 소설가 우다영씨와 대화하는 심화학습까지 끝마쳤다.

한유아는 최근 리메이크 싱글 음원 '너의 외로움이 날 부를 때'를 발매했다.

SK텔레콤(SKT)은 고객 참여형 SNS(사회관계망서비스) 챌린지를 통해 모은 사진을 기반으로 소셜 벤처 투아트의 시각보조 AI 서비스인 '설리번플러스'의 학습을 지원한다.

설리번플러스는 국내 유일의 AI 기반 시각보조 음성안내 앱이다. 시각장애인들과 저시력자들이 스마트폰의 카메라를 통해 사람, 글자, 사물, 색상 등을 쉽게 인식할 수 있도록 돕는다. 이 서비스를 제공하기 위해 이미지캡셔닝 기술을 포함한 다양한 인공지능 알고리즘이 활용된다. 알고리즘 고도화를 위해서는 다양한 상황과 사물 ·인물을 포착한 이미지 정보의 학습이 필요하다.

SKT는 누구나 손쉽게 참여할 수 있는 SNS 챌린지를 실시해 사진을 모으고, 설리번플러스의 모델 학습을 지원한다. SKT와 투아트는 챌린지로 기부 받은 사진들 중에서 인공지능 학습에 적합한 이미지들을 선별하고 시각장애인들의 자문 등을 통해 스마트폰 카메라에 비친 세상을 최대한 정확하게 식별할 수 있도록 서비스를 발전시켜 나갈 계획이다.

KT는 청각장애인과 루게릭병 환자와 같이 음성 소통이 어려운 이들을 위해 AI 기반 기술로 의사소통을 도와주는 마음Talk 앱을 개발해 지원하고 있다.

이용자들의 목소리 복원에는 KT가 보유한 국내 최고 수준의 개인화 음성합성기술(P-TTS)이 활용된다. 이 기술은 적은 양의 음성 샘플만으로도 딥러닝 기반 AI 학습을 통해 사람의 음색, 어조, 말투 등을 반영한 목소리를 그대로 구현해낼 수 있다.

KT는 대상자가 스마트폰으로 500개의 대화체 문장을 녹음해 전달한 오디오 파일을 바탕으로 이들의 음성 샘플 데이터를 교정하고 목소리를 생성한다.

P-TTS는 딥러닝 기술을 활용해 음성을 합성했던 과거보다 한층 진일보됐다. 어떤 문장이라도 합성할 수 있고 문장당 1초 내로 합성이 가능하며 후처리 과정이 필요하지 않다.

영상인식 인공지능 기업 알체라는 사운드 솔루션 전문 기업 제이디솔루션과 업무협약을 체결했다. 양사는 알체라의 영상인식 인공지능 기술과 제이디솔루션의 고명료 ·고출력 ·지향성 음향 기술을 결합해 솔루션 공동 개발에 나선다. 스마트시티 구축과 사회 안전 시스템 고도화를 위한 다양한 솔루션을 선보이기 위해서다.

인공지능이 연결된 CC(폐쇄회로)TV를 활용해 대도시에서 발생할 수 있는 다양한 이상 상황을 빠르게 예측하고 감지할 수 있다. 지향성 음향 기술이 적용된 스피커로 음성 안내와 경보 방송을 송출해 초기 상황 대처도 도울 수 있다. 화재 등 긴급한 재난과 범죄 상황 발생 시 자동으로 상황을 유관기관에 알린다.

라온피플은 AI 기술이 탑재된 모션감지와 안면인식, 피플카운팅 솔루션을 통해 단위면적 당 군집인원수를 감지한다. 혼잡도와 위험도를 분석·예측함으로써 재난에 빠르게 대응할 수 있는 기술도 보유하고 있다.

이 기술을 실제 도로를 점유하면서 진행되는 대규모 집회·행사에서 활용하면 혼잡도를 분석하고 돌발상황이나 위험상황 예측이 실시간으로 가능하다. 보행자가 많은 이면도로와 골목 등의 구간에 설치·확대 적용하면 실종자 추적, 혼잡도와 인원카운팅은 물론 일출·일몰, 주간·야간 등 다양한 환경과 목적에 맞게 활용할 수 있다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.