[DSTS2019]데이터 사이언스는 팀 스포츠다


데이터 파이프라인 구축하기

파이썬 프로그램이 직접 디비 사용 하고 있엇음.

개선

정형데이터는 S3를 거치지 않고 바로 2차 디비라고 할 수 있는 마이에스큐엘 디비로 넘어가고

나머지 비정형데이터 등은 1차로 S3에 넣고 다시 2차로 몽고디비 등에 넣는다.

파이썬 프로그램이 2차 디비들에 접근한다.


연애의 역사를 데이터로 풀다

임송이

개인에 대한 이야기를 데이터로 풀어나가기.

데이터 저널리즘 뉴스타파

커플의 일상에서 찾을 수 있는 데이터

텍스트(연락)

메세지, 손편지, 카드, 메모

데이트(카드사용이력)

맛집, 여행, 영화, 드라이브

사진(위치정보)

어디서, 언제, 누구랑

편지 텍스트 분석

7년간의 손글씨를 입력해서 텍스트 파일로 보관중

6653개 종류의 27980개의 단어들

데이트 통장 카드 이력 분석

만날때부터 지금까지 데이트 통장을 만들어서 씀

식비가 88퍼

고기를 가장 많은 돈을 써서 먹음.

커피/디저트가 가장 많음. 2등과 4배차이.

먹는 것보다 좀 다양한 액티비티를 해보자.

사진 데이터 분석

맥에서 보면 위도 경도 데이터가 나옴.

고양이를 키운 후로는 고양이 사진이 우리 사진보다 많아서 제외 시킴.

파이썬에 gpsphoto 라이브러리로.

예전이나 일반 카메라로 찍은 사진은 위치데이터가 없어서 직접 좌표입력한것들도 있음.

맵박스라는 라이브러리를 사용해서 만듦.

마무리

연애도, 결혼도, 인생도 협업 데이터에도 일상이 담긴다 여러분의 일상은 데이터에서 어떻게 나타날까요?


하둡 에코시스템 위에서 환상적인 테이크오프

엑셀등에서 작업하다가 데이터베이스로.

디비에서도 문제가 생김.

10만개 정도 넣어놓고 성적 매기는 쿼리를 날림.

펑션(로우 다 돌기)을 쓰고, 그룹바이(메모리에 다 들고), 서브쿼리까지 도는것.

11초가 소요됨. 마이에스큐엘 괜찮네

천만은 1분 넘게

1억건의 데이터 18분.

10억건부터는 뻗어버렸음

하둡과 에코시스템

하둡: 분산기반 파일시스템 위에서의 쿼리 사용.

세상에 은총알은 없다.

맵 리듀스, HDFS, 하이브, 얀, 스파크

거대한 데이터를 처리하는 메커니즘 - 맵 리듀스

데이터수집 - 워크플로우 관리 - 데이터 배치 분석, 데이터처리, 실시간데이터분석, 대화형분석 - 클라우드 에이터 - 데이터시각화

하둡과 협업

우리 -(쿼리)- 레이터 레이크 -(ETL)- 분석할 csv데이터 -(시각화)- 주피터 노트북

하둡으로 대체

데이터 레이크(HDFS) - 하이브(배치분석), HBASE …

시각화

시각화 자동화

아파치 수퍼셋 - 에어비엔비: 쿼리 잘 몰라도 인사이트를 잘 뽑아내는 분들에게 적합함.

제플린: 쿼리를 좀 알아야함. 주피터 노트북이랑 비슷해서 사용하기 좋음.

데이터 플로우

서비스 - 데이터베이스, 펍/섭, 로그 저장소, 콜드 데이터 - 워크플로우[데이터레이크 - 쿼리 엔진 - 시각화]

돌아보며

csv: 느려, 버그 데이터베이스: 느려 하둡의 장점: 데이터 중앙화, 데이터 플로우, 분산데이터 처리


ML 엔지니어가 기획자, 개발자와 협업하는 법

대화

대화는 자는 시간을 제외하고 가장 많이 하는것이라고 생각.

대화를 잘하는 인공지능을 만들자

일상 대화, 기능대화

오늘 팟캐스트 들어봤어? - 무슨 팟캐스트 들을래요? (기능대화) - 물론이죠 (일상대화)

일상대화를 타겟으로.

아마존이 매년 대화잘하는 모델 만드는 대회를 함.

18년 우승 모델을 커스텀해서 사용.

리트리벌: 정해진거 반응 생성: 질문에서 생성

연애의 과학: 많은 데이터가 있음.

대화 데이터는 어떤 특징을 갖고 있을까?

대화의 도메인이 일상 생활 전 범위로 매우 넓음

사람마다 조금씩 다른 패턴

줄임말 및 잦은 오타

신조어의 사용

독자적인 자음(ㅇㅇ,ㅋㅋ)

데이터를 뽑을때 선택을 잘 해야함.

  • 유저 필터링 (특정 유저 배제)
  • 세션 필터링( 영화이야기, 밥이야기)
  • 노말라이즈(특수토큰, 사진, 파일, 보이스톡 등)

멀티 턴 리액션 모델

문제 정의 - 목표 설정 - 데이터 구축 - 모델 테스트 - 피드백 - 실제 검증

문제정의: Make AI Social

싱글 턴 리액션 - 유저의 이전 턴 하나의 발화만으로 대답 구성

대화 경험의 감소

멀티 턴 리액션 - 이전 여러 발화들을 같이 보고 리액션 구성

데이터 엔지니어

  • 어떻게 하면 쉽게 학습 데이터를 구축할 수 있을까?
  • 레이블리을 쉽게 하는 방법?
  • 어떤 데이터로 학습을 하면 수렴을 잘 할 수 있을까?

기획자

  • 어떤 답변 셋을 이용하면 사람같은 답변?
  • 좋은 답변?
  • 테스트셋?

클래스 셋: 빈도 상위 2000개정도 답변 추출

트레이닝 셋: 클래스 셋을 기준으로 대화 코퍼스에서 추출 [컨텍스트, 리액션 클래스] 약 6000만쌍

테스트 셋: 정량, 정성(사람이 1만쌍정도 일일이 확인)

모델 테스트

버트

피드백

정량적 평가: 메트릭: 정확도 탑15

진행상황 공유,

실제 검증

데모페이지.

최적화 및 제품화

학습 코드 정리/최적화 +

시피유 최적화

OKR 및 회고문화: 잘한 부분 칭찬, 아쉬운 점 리스트업

회의 문화: 회의록 작성

클래스

1385개의 답변 셋이 있음.

파이프라인?

전처리.. 테스트 등등 다 자동이고 모델만 갈아낄 수 있게 해놓음.

핑퐁


누군가 데이터의 인사이트를 묻거든 고개를 들어 제플린을 보게하라

대상

머신러닝, 데이터 프로젝트를 혼자 진행하고 계신분.

예측한 결과값을 효율적으로 전달하고 싶으신 분.

동기화

MIMIC-3로 병원 재입원 예측

미믹: MIT가 제공하는 오픈데이터

입원 수: 53423 환자 수: 46520

어드미션 테이블: 환자 식별번호, 입원식별번호, 입원시간, 퇴원시간, 언어, 종교, 결혼여부, 인종

프리스크립션 테이블: 약…

다이그노스: 병

환자 테이블: …

제플린

주피터와 흡사. 주피터 보다 좀더 편하고, 예쁘게 전달 할 수 있음.

나이별 결혼 여부로 이혼여부도 유추할 수 있음

제플린을 사용하게 된 이유

  • 코드도 볼 수 있기때문에 리뷰도 받을 수도 있음.

제플린 이렇게 사용했습니다

리얼 제플린


물리, 데이터, 팀워크

입자 물리학.

순수 과학이라 돈과 좀 멀어서 여러분들의 세금으로 일을 합니다.

LCLS: LINAC Coherent Light Source

가장크고, 가장 빠른 현미경

3.2키로미터

펨토세컨드 간격의 이미지를 찍어서 실시간으로 볼 수 있음

처음과 끝 결과만 보는게 아니라. 원자 분자단위의 과정을 볼 수 있음.

하루 12시간 - 약 250만장의 이미지

실험 중 라이브 프로세싱 & 피드백 필요

10페타바이트 초과

데이터 엔지니어와도 친함.

LSST: Large Synoptic Survey Telescope

세상에서 제일 큰 디지털 카메라

미국 정부에서만 나온게 6억달러가 넘음

천문학 전반에 걸친 혁신

보다보면 알겠지. 해서 만드는것.

3.2기가픽셀, 9.6deg^2 이미지 / 30s

3일정도면 남반구 전체 하늘정도는 찍을 수 있음

LHC: Large Hadron Collider

스위스 프랑스 국경

CERN: 팀 버너스리가 웹을 만든 곳이 LHC내에 있음.

태초를 재현하기 위한 에너지

양성자를 고에너지로 가속

1초에 40테라가 발생. 전송이 불가능함. 흥미로운 부분만 기록.


3줄 요약 봇 머신러닝 결과가 영 좋지 않은걸?

포인터 제너레이터.

뉴스와 세줄요약 모델을 통해 머신러닝으로 세줄 요약시키는 것.

해외 뉴스 크롤링. 블룸버그, 로이터 통신, 뉴욕타임즈. 를 요약해서 딜리버리하기

좀비가 될수가 있어서 에어플로우로 크론잡을 돌림.

크립토 커런시 뉴스.

코인 웨더.

싱글 쿼테이션..더블 쿼테이션.. 등등이 문제였음.

다운캐스팅을 함.

포기하면 그 순간이 개발 완료에요.

감정 분석은 IBM 의 감정분석을 씀. 거기다 구글 감정분석은 파괴력이 나오는데. 이 두개를 합쳐서 웨더를 판단함.




© 2017. by isme2n

Powered by aiden