개발로 자기계발
article thumbnail
728x90

데이터 조직의 비전

- 신뢰할 수 있는 데이터를 바탕으로 부가 가치를 생성할 수 있는지?

 

1) 하는 업무(결정 과학 - Decision Science)

- 데이터를 기반으로 의사결정을 가능하게 한다.

* 데이터 기반 결정(data drvien decisions) - 데이터로 어떤 것들을 최적화하고 싶다.

* 데이터를 고려한 결정(data informed decisions) - 데이터로 어떤 비즈니스를 만든다.

- 데이터 기반으로 지표를 정의, 대시보드와 리포트 생성 등을 수행할 수 있다.

- 데이터를 기반으로 사용자 서비스 경험 개선 및 프로세스 최적화를 한다.

 

2) 간단한 업무 분배 정의

- 데이터 엔지니어: 데이터 인프라 구축

- 데이터 분석가: 데이터 분석 DB(데이터 웨어하우스)를 통한 지표 정의, 시각화

- 데이터 사이언티스트: 사용자 추천, 경험 개선, 모델링


이상적인 데이터 팀의 발전 단계
데이터 인프라 구축 -> 데이터 분석 -> 사용자 추천 및 모델링

데이터 인프라 구축

- 데이터 인프라의 구축은 데이터 엔지니어가 수행한다.

- 데이터 -> 서비스 운영 데이터베이스 -> 데이터 분석 데이터베이스(데이터 인프라(ETL + 데이터 웨어하우스))

- 데이터가 커지기 시작하면 데이터 레이크 등이 앞단에 붙는다.

- 점점 더 커지면 Spark 등등의 프레임워크가 사용된다.

- 데이터 분석 데이터베이스는 내부에서만 사용되니 속도가 서비스 운영 데이터베이스보다는 느리다.

 

프로덕션 데이터베이스 vs. 데이터 웨어하우스

프로덕션 데이터베이스
- OLTP(OnLine Transaction Processing)
- 한정 된 데이터가 저장된다.
- 백엔드 및 데브옵스 엔지니어들이 주로 사용한다.
- 사용자를 위한 데이터베이스
ex) MySQL

데이터 웨어하우스
- 목적이 분석임으로 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스
- OLAP(OnLine Analytical Processing)
- 데이터 분석가, 과학자 등이 주로 사용된다.
- 데이터가 크기가 커진다면 선택한다.
ex) AWS Redshift, 구글 클라우드의 BigQuery, 스노플레이크(Snowflake), Hive/Presto/스팍

데이터 웨어하우스의 구축은 진정한 데이터 조직이 되는 것의 첫 번째 스텝이다.

 

ETL

- 외부에 존재하는 데이터를 가져다가 데이터 웨어하우스에 로드하는 작업

- 파이프라인(Extract -> Transform -> Load)

* Extract: 외부 데이터 소스에서 데이터를 추출

* Transform: 데이터의 포맷을 원하는 형태로 변환

* Load: 변환된 데이터를 최종적으로 데이터 웨어하우스에 적재

ex) 가장 많이 사용되는 프레임워크: Airflow

 

데이터 분석

- 데이터 지표 정의, 시각화, 리포팅을 한다.

- 중요한 지표를 시간의 흐름과 함께 시각화를 한다.

- 지표의 경우 3A(Accessible, Actionable, Auditable)가 중요하다.

* Accessible: 접근이 쉽게 가능

* Actionable: 의미가 분명해야 한다.

* Auditable: 데이터가 정확한 숫자인지

- 가장 널리 사용되는 대시보드

ex) Looker, Tableau, Power BI, Superset

 

데이터 과학

- 데이터 과학자의 업무에 해당되고 머신러닝 모델 등을 만들어서 수행한다.

- 사용자의 경험을 바탕으로 개선 or 추천 등을 진행한다.

- 머신러닝(Machine Learning)

* 배움이 가능한 알고리즘을 이야기한다.

* 데이터로부터 패턴을 찾아 학습한다.

* 이때 데이터의 품질과 크기가 중요하다.

* 데이터로 인한 왜곡(Bias) 발생이 가능하다.

* 내부동작 설명 가능 여부도 중요하다.

연관 관계 - 인공지능(머신러닝(딥러닝)))

 

데이터 엔지니어

1) 주니어가 알면 좋을 사항

- 파이썬이 대세이며, 자바 혹은 스칼라와 같은 언어도 아는 것이 좋다.

- 데이터 웨어하우스 구축 및 관리

ex) Redshift, BigQuery, Snowflake

- ETL 코드를 작성하고 주기적으로 실행

ex) 스케쥴링(Crontab) 혹은 Airflow 같은 프레임워크

- 데이터 분석가와 과학자 지원

* 협업을 통해 필요한 툴이나 데이터를 제공

- SQL, Hive, Presto, SparkSQL

 

2) 추가적인 사항

- Docker/K8s

- 클라우드 컴퓨티(AWS, GCP, Azure)

- 머신 러닝, A/B 테스트, 통계


데이터 엔지니어 로드맵
https://github.com/datastacktv/data-engineer-roadmap

 

데이터 분석가

- 비즈니스 인텔리전스를 책임진다.

- 중요 지표를 정의하고 대시보드 형태로 시각화

ex) Tableau, Looker, Superset

ex) 엑셀, 구글 스프레드시트, 파이썬

- 데이터 기반 결정을 내릴 수 있도록 도와준다.

- SQL, Hive, Presto, SparkSQL

- 데이터 모델링

- 통계 지식

ex) AB 테스트 분석

- 비즈니스 도메인에 관한 깊은 지식

- 보통 코딩을 하지 않는다.


데이터 웨어하우스가 있는지 즉, 데이터 인프라가 잘 구축되어 있는 곳이 좋음
데이터 분석가의 경우 조직 구조가 더 중요하다

 

추가적인 직무

- DevOps

- MLOps

- 프라이버시 엔지니어

728x90
SMALL

'Database & Data > 기타' 카테고리의 다른 글

데이터 웨어하우스와 클라우드(Redshift) 소개  (0) 2023.05.09
profile

개발로 자기계발

@김잠봉

틀린부분이나 조언이 있다면 언제든 환영입니다:-)