머신러닝 혁신 가속화 추구하는 산학 컨소시엄 ‘ML커먼스’ 출범
머신러닝 혁신 가속화 추구하는 산학 컨소시엄 ‘ML커먼스’ 출범
  • 김민귀 기자
  • 승인 2020.12.05 06:43
  • 댓글 0
이 기사를 공유합니다

머신러닝 혁신을 가속화하는 한편 공익을 위해 머신러닝 기술 접근성을 높이기 위한 산학 컨소시엄 ML커먼스(MLCommons)가 출범했다.

ML커먼스는 ML퍼프(MLPerf)를 모체로 출범한 개방형 엔지니어링 컨소시엄이다. 알리바바(Alibaba), 페이스북 AI(Facebook AI), 구글(Google), 인텔(Intel), 엔비디아(NVIDIA), 비자인 자나파 레디(Vijay Janapa Reddi) 하버드대학 교수 등 다방면의 50여 창립 회원이 포진해 있다. 반도체, 시스템, 소프트웨어에 초점을 맞춘 세계 전역 15여개 스타트업과 소규모 업체는 물론 US 버클리대학, 스탠포드대학, 토론토대학 연구원들도 회원으로 참여했다.

ML커먼스는 최신 인공지능(AI)과 머신러닝의 데이터세트, 모델, 모범사례, 벤치마크, 메트릭스에 대한 개발 및 액세스를 추진할 계획이다. 컴퓨터 비전, 자연어 처리, 음성 인식 등의 머신러닝 솔루션에 액세스할 수 있도록 만드는 것이 ML커먼스의 목표다.

피터 맷슨(Peter Mattson) ML커먼스 회장은 “ML커먼스의 사명은 명확하다”며 “머신러닝의 혁신을 가속화해 누구나 이용할 수 있도록 접근성을 높이고, 머신러닝이 사회에 미치는 긍정적인 영향을 높이는 것”이라고 말했다. 이어 “ML퍼프를 기반으로 활동 범위를 넓여 기쁘게 생각한다”며 “ML커먼스는 모두에게 유익한 기술을 개발하기 위해 전 세계 산학 파트너들과 협력을 이끌어내며 벌써부터 나름의 족적을 남겼다”고 덧붙였다.

데이비드 칸터(David Kanter) ML커먼스 전무이사는 “머신러닝은 업계 전반이 인프라와 지식을 공유해야 하는 새로운 영역”이라며 “ML커먼스는 인프라를 구축하기 위해 집단 엔지니어링에 초점을 맞춘 첫 단체”라고 말했다. 이어 “산학 파트너십을 체결함으로써 커뮤니티 전반이 공정성과 투명성을 확보하기 위해 반드시 필요한 측정, 데이터세트, 개발 관행을 구축하게 되어 기쁘다”고 덧붙였다.

창립 회원들과 손잡고 출범한 ML커먼스는 모범사례를 구축·공유하기 위한 산업계와 학계, 소프트웨어와 하드웨어, 신생기업과 대기업의 글로벌 협력을 촉진할 것으로 기대를 모은다. 예를 들어 ML큐브는 연구원들과 개발자들이 쉽게 머신러닝 모델을 공유해 다양한 인프라에서 이식·재현할 수 있도록 지원한다. 혁신이 어렵지 않게 도입되어 다음 단계의 기술로 이어질 수 있도록 돕기 위함이다.

ML커먼스는 다음과 같은 활동에 초점을 맞출 예정이다.

· 벤치마크와 메트릭스- 머신러닝 시스템과 소프트웨어, 솔루션이 투명하고 공평하게 경쟁할 수 있는 무대 마련. ML퍼프와 같이 머신러닝 훈련 및 추론 성능에 대한 업계 표준 제시
· 데이터세트와 모델- 일반에 공개 가능한 새로운 기능과 AI 애플리케이션의 토대 마련. 피플스 스피치(People’s Speech)와 같이 세계 최대 공공 음성-텍스트 변환 데이터세트 구축
· 모범 사례- ML큐브와 같이 서로 다른 인프라나 세계 전역 연구원-개발자 간에 머신러닝 모델을 갈등 없이 공유할 수 있는 공통 사례 세트 구축

업계 전반에 통용되는 벤치마크와 모범 사례 구축

모두에게 유익한 머신러닝을 적용할 기회는 커뮤니케이션에서 의료, 안전한 주행에 이르기까지 무궁무진하다. 진행중인 개발 및 구현을 발전시키고 머신러닝 및 AI 기술을 공유하는 한편 품질과 속도, 신뢰성에 대한 진전을 가늠하기 위해서는 업계가 합의한 모범 사례와 메트릭스가 필요하다.

ML커먼스는 머신러닝 커뮤니티 전체를 위해 이런 도구를 만드는 데 초점을 맞추고 있다. ML커먼스의 토대를 이루는 자산은 ML퍼프다. ML퍼프는 실제 애플리케이션의 전체 시스템 성능을 측정하는 업계 표준 머신러닝 벤치마크 슈트다. ML커먼스는 ML퍼프와 함께 업계 전반의 투명성을 높이고 동류 제품군을 비교하는 데 매진할 계획이다.

혁신과 접근성을 높이는 공공 데이터세트

머신러닝과 AI는 양질의 데이터세트가 필요하다. 양질의 데이터세트는 새로운 기능의 성능에 토대가 된다. ML커먼스는 머신러닝의 혁신을 가속화하기 위해 가능한 한 모두가 이용·공유할 수 있는 양질의 공공 데이터세트를 대규모로 창출하는 데 전념할 계획이다.

ML커먼스가 발의한 이니셔티브의 한 예가 세계 최대 공공 음성-텍스트 변환 데이터세트인 피플스 스피치다. ML커먼스는 음성 기술을 대중화한다는 목표 아래 8만여시간 분량의 음성을 수집했다. ML커먼스는 첨담 음성 기술의 범위를 더 많은 언어로 확대해 전 세계 모든 사람들이 음성 지원의 혜택을 누릴 수 있는 기회를 만들어나갈 계획이다.

 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.