[AWSKRUG] Meet Up


궁금한 이야기 Y - 그들이 AWS 위에서 데이터 파이프라인을 운영하는 법

데이터에는 정답이 없습니다.

회사마다 다른게 많습니다.

데이터 사이즈가 달라요. 샌프란시스코도 아닙니다.

사용자수가 2500명인데 딥러닝이 대세이므로..? 그정도면 딥러닝 추천(2개월분량)보다는 인기상품(3일분량)이 낫지 않나?

  • 가능하면 적인 인원으로 최대한의 데이터를 다루고 싶어요.
  • 비용이 많이 들지 않게 데이터 인프라를 구축할 수 있을까?
  • 운영 자동화

그들은 무슨 데이터를 다루나?

국내 숙박, 해외 숙박

같아 보이지만 업체 형대, 숙방형태에 따라 데이터구조 등이 다름

어느 숙박 카테고리에 단박/연박이 많을까?

어떤 카테고리가 더 계절을 많이 탈까?

ADR(평균 객실 단가)는 어느곳에서 더 중요할까?

경쟁 업체 비교를 한다면, 어떤 기준으로 선정해야 할까?

강원도에 있는 펜션간 거리? 삼성역에 있는 부띠크 모텔 거리는? 가까운 호텔끼리만 경쟁업체 비교를 하는것은 의미가 있을까?

커머스

재고, 상품, 주문, 정산, 쿠폰, 포인트, 고객…

데이터 파이프라인

= 데이터 수집(흩어진걸 모아서 한 곳에 저장) += 데이터 처리(가공) += 조회(저장된 것을 소비) += 서비스(서비스에 내보내기)

채널 매니져, PMS

숙박업 데이터

아이템 x 옵션 x 날짜 만큼의 버라이어티

업주는 높은가격, 고객은 낮은 가격이 중요

플랫폼은 둘다 봐야하니.

과거의 가격 변동, 시즌, 최근 가격 추이, 주변 업체, 사용자 수요, 공급자

AWS 위에서 데이터 파이프라인 구축하기

왜 데이터 인프라가 필요한가?

서비스 초기에는 디비에 걍 해도 됨.

커지면서 디비를 분리.

조인하고 싶어짐.

엘라스틱 서치, 캐시 등도 보고 싶고, 로그등 이벤트 스트림

디비 수준으로 처리 불가능한 복잡한/ 대규모 컴퓨팅 필요

파이프라인 기초

배치와 스트림

배치: 주기적으로 무언가를 하는것.

스트림: 실시간으로 처리

배치랑 스트림 합친 서빙레이어가 있음.

어제까지의 모든 클릭수 (배치) += 오늘 클릭 수 (스트림)

서빙 레이어는 고비용. 꼭 필요한 경우만 사용

실시간을 하면 여러분 자다가 꺠어나야 할 수도 있어요. 배치하면 편하게 잘 수는 있습니다.

데이터 인프라

수집

운영 비용 최소화

인프라 비용 최소화

한곳으로 모아(s3) 통일된 언어로 조회(sql)

클라디언트로그는 생각보다 엄청 유용하다.

일반적으로 카프카를 쓰는데, 고비용이다.

운영 리소스 필요(업그레이드, 모니터…)

일정 이상의 (3+) 브로커 인스턴스

주키퍼 클러스터 필요(3+)

앞단에서 받아줄 ELB/ Nginx / API

키네시스를 사용하자.

키네시스는 클라이언트 sdk 존재

서버로그

웹(엔진엑스), 와스(어플리케이션)

에이전트, 라이브러리

빈스톸을 쓰면 s3로 퍼블리싱해줌. 실시간은 아니지만 편하게 사용.

키네시스로하면 sdk.

단점이 있는데, 카프카는 아이피 포트로 접근 제어. 키네시스는 IAM기반이라 아마존 어카운트가 다르면 헬게이트 열림.

MSK 8월 런칭함.

EMR(관리형 데이터 처리 프레임워크)을 이용

시계열 데이터는 파티션 단위로 관리. 근데 휴대폰마다 시간이 다를 수 있음.

스토리지

RDB, Redis, Elastic Search

회사에 디비가 보통 너무 많습니다. 컬럼 변경도 다 따라가야해요.

특성이 다르고, …엘라스틱 서치, 캐시 등등이 존재

예약은 나날이 양이 늘어남

EMR로 스케쥴러는 Digdag 사용

S3를 메인 저장소

columnar는 뭔가요.

셀렉트 올보다 칼럼을 가져오는게 많은데, 그런 아이디어.

하이브 메타 스토어

IAM 으로 관리하는건 최대한 피하세요.

처리

티어를 나눠서 관리

가공 x t1

가공 t2

배치 레이어 스케쥴링

에어플로우나 딕댁.

스트림 애플리케이션

스파크, 카프카, flink

스테이트를 들고있고,

키네시스 애널리틱스는 처리 쪽은 AWS 디펜던시 없이 하려고 해서 안씀

SQL

데이터를 접근할수 있게 마케터나 등등에게 교육.

데이터 조회 프레스토. 페북이 만듦

조회

리대쉬를 잘 쓰고 있음.

이것만 알아가도 본전 뽑아가시는겁니다.

테라폼

AWS 어카운트 이전 때.( 콜리밋에 걸림 )

개발어카운트, 프로덕션 등…

옵션을 적용하면서 이해도가 높아짐.

쿠버네티스

데이터엔지니어가 보는 데이터, AWS

데브옵스와 비슷함.

비용 더 태우고, 운영 리소스 줄여서 그 시간에 다른 일.

슬라이드 보기




© 2017. by isme2n

Powered by aiden