[Google Extends I/O] Google AI Tech, Distributed Learning

김준성 - 스켈터 랩

핑퐁 AI 리서치 팀

네이버 인턴 -> 스켈터랩

잡담 봇

오버뷰를 하려고 했음.

전 세션이랑 겹침

딘 선생님: 구글 AI는 전세계 최고의 AI 연구 기관입니다.

구글 AI 1년간 약 1063개의 논문 발표

리서치 오버뷰를 해보자.

학습 방법과 모델들을 정리 해보자.

NLP

BERT

어떤 분야에 대해 모델의 이해를 높이면 해당 분야를 훨씬 빠르고 더 정확하게 학습한다는 것이 증명 되었음.

여러 모델에서 사용할 수 있는 기반 기술(모델)을 만드는 것이 중요한 연구주제

NLP의 트랜스퍼 러닝 히스토리

Word2Vec/Bag-of-Words
통계기반 Language Modeling
…
ELMo: Deep Contextualized word representation
유니버셜 랭귀지 모델
버트
…
XLNet

텍스트를 이해할 수 있도록 모델 시키지?

기존방법

이전 단어들을 주고 그 다음 단어 맞추기

버트

손흥민은 토트넘 최고의 공격수로 자리 잡았다.

빈칸 만들어가면서 학습

트레인

프리트레이닝에는 위키피디아나 북코퍼스 처럼 대량의 텍스트 데이터 사용

Fine-Tuning Sub Task 실제 태스크에 대해서는 레이블링 된 데이터셋으로 Fine-Tuning(얼마 안걸림)

2018년 ML분야의 베스트 페이퍼로 인정.

버트를 학슶시키는 비용이 너무 커서 비판.

Evolved Transformet

오토ML을 이용한 뉴럴 아키텍쳐 서치가 활발하게 연구됨

노블 메소드

트래이닝 한번 할 때 마다 오랜 학습이 필요
랜덤 모델부터 서칭을 시작하면 스패이스가 너무 넓음
트랜스폼…
…

진화했다지만 거의 비슷하고 조금 다름

Vision

Self-Supervised Tracking via Video Colorization

비디오 오브젝트 트래킹.

오브젝트 트래킹하려면 픽셀단위의 레이블링이 필요했음.

그러나 픽셀x시간(비디오) 단위의 래이블링은 너무 오래걸림.

레이블링 없이 대량의 동영상을 활용해서 할 수 있을까.

한프레임만 주고 학습 시킴

잘 됨.

결과는 기존 힘들었던 방법에 비해 조금 안좋은 정도.

앞으로 더 연구하겠다.

Speech Generation

Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

단순히 음성만이 아니라. 감정에 의한 억양까지.

억양을 참고해서

문제는 같은 말을 억양만 다른걸로 가지고 있어야했음.

억양을 스타일로 인식하자.

번역

음성 - 텍스트 - 번역 텍스트 - 번역 음성

텍스트 변환 없이 음성 - 음성 번역 모델을 만들어보자.

인풋 스펙트로그램의 번역결과를 영어, 스페인어 음소로 생성하는 것도 같이학습

보이스와 텍스트간의 상관관계를 직/간접적으로 학습

그라운드 트루스(목표하는 성능)에 미치지는 못하지만 void to voice의 시작이라고 볼 수 있음.

Speech Recognition

스트리밍 엔드 투 엔드 스피치 인식 포 모바일 디바이스

시리는 서버에 음성을 보냄. 음성을 서버로 보낼때 발생하는 레이턴시, 등등 문제 많음

RNN Rransducer

결과 음성인식 모델 20기가 정도인데 2기가로 줄임

빔서치를 이용해 싱글 뉴럴 네트워크 : 450메가

로우 프레치션/ 텐서플로 라이트 컴프레션: 80메가

4배빠르고 거의 동일한 성능

정리

세미, 셀프

엔드 투 엔드

온디바이스 모델

AllReduce Distributed Learning

한성민(피그노즈) - 클로바 리서치 엔지니어

2023년 새해에는 성장하고 함께하고 싶다면?

Pre A 단계 이상의 스타트업 C 레벨들이 모여서 커뮤니티를 만들었습니다. 같이 스터디하고 친해질 일잘러를 찾습니다.