데이터 조직의 비전
- 신뢰할 수 있는 데이터를 바탕으로 부가 가치를 생성할 수 있는지?
1) 하는 업무(결정 과학 - Decision Science)
- 데이터를 기반으로 의사결정을 가능하게 한다.
* 데이터 기반 결정(data drvien decisions) - 데이터로 어떤 것들을 최적화하고 싶다.
* 데이터를 고려한 결정(data informed decisions) - 데이터로 어떤 비즈니스를 만든다.
- 데이터 기반으로 지표를 정의, 대시보드와 리포트 생성 등을 수행할 수 있다.
- 데이터를 기반으로 사용자 서비스 경험 개선 및 프로세스 최적화를 한다.
2) 간단한 업무 분배 정의
- 데이터 엔지니어: 데이터 인프라 구축
- 데이터 분석가: 데이터 분석 DB(데이터 웨어하우스)를 통한 지표 정의, 시각화
- 데이터 사이언티스트: 사용자 추천, 경험 개선, 모델링
이상적인 데이터 팀의 발전 단계
데이터 인프라 구축 -> 데이터 분석 -> 사용자 추천 및 모델링
데이터 인프라 구축
- 데이터 인프라의 구축은 데이터 엔지니어가 수행한다.
- 데이터 -> 서비스 운영 데이터베이스 -> 데이터 분석 데이터베이스(데이터 인프라(ETL + 데이터 웨어하우스))
- 데이터가 커지기 시작하면 데이터 레이크 등이 앞단에 붙는다.
- 점점 더 커지면 Spark 등등의 프레임워크가 사용된다.
- 데이터 분석 데이터베이스는 내부에서만 사용되니 속도가 서비스 운영 데이터베이스보다는 느리다.
프로덕션 데이터베이스 vs. 데이터 웨어하우스
프로덕션 데이터베이스
- OLTP(OnLine Transaction Processing)
- 한정 된 데이터가 저장된다.
- 백엔드 및 데브옵스 엔지니어들이 주로 사용한다.
- 사용자를 위한 데이터베이스
ex) MySQL
데이터 웨어하우스
- 목적이 분석임으로 회사에 필요한 모든 데이터를 모아놓은 중앙 데이터베이스
- OLAP(OnLine Analytical Processing)
- 데이터 분석가, 과학자 등이 주로 사용된다.
- 데이터가 크기가 커진다면 선택한다.
ex) AWS Redshift, 구글 클라우드의 BigQuery, 스노플레이크(Snowflake), Hive/Presto/스팍
데이터 웨어하우스의 구축은 진정한 데이터 조직이 되는 것의 첫 번째 스텝이다.
ETL
- 외부에 존재하는 데이터를 가져다가 데이터 웨어하우스에 로드하는 작업
- 파이프라인(Extract -> Transform -> Load)
* Extract: 외부 데이터 소스에서 데이터를 추출
* Transform: 데이터의 포맷을 원하는 형태로 변환
* Load: 변환된 데이터를 최종적으로 데이터 웨어하우스에 적재
ex) 가장 많이 사용되는 프레임워크: Airflow
데이터 분석
- 데이터 지표 정의, 시각화, 리포팅을 한다.
- 중요한 지표를 시간의 흐름과 함께 시각화를 한다.
- 지표의 경우 3A(Accessible, Actionable, Auditable)가 중요하다.
* Accessible: 접근이 쉽게 가능
* Actionable: 의미가 분명해야 한다.
* Auditable: 데이터가 정확한 숫자인지
- 가장 널리 사용되는 대시보드
ex) Looker, Tableau, Power BI, Superset
데이터 과학
- 데이터 과학자의 업무에 해당되고 머신러닝 모델 등을 만들어서 수행한다.
- 사용자의 경험을 바탕으로 개선 or 추천 등을 진행한다.
- 머신러닝(Machine Learning)
* 배움이 가능한 알고리즘을 이야기한다.
* 데이터로부터 패턴을 찾아 학습한다.
* 이때 데이터의 품질과 크기가 중요하다.
* 데이터로 인한 왜곡(Bias) 발생이 가능하다.
* 내부동작 설명 가능 여부도 중요하다.
연관 관계 - 인공지능(머신러닝(딥러닝)))
데이터 엔지니어
1) 주니어가 알면 좋을 사항
- 파이썬이 대세이며, 자바 혹은 스칼라와 같은 언어도 아는 것이 좋다.
- 데이터 웨어하우스 구축 및 관리
ex) Redshift, BigQuery, Snowflake
- ETL 코드를 작성하고 주기적으로 실행
ex) 스케쥴링(Crontab) 혹은 Airflow 같은 프레임워크
- 데이터 분석가와 과학자 지원
* 협업을 통해 필요한 툴이나 데이터를 제공
- SQL, Hive, Presto, SparkSQL
2) 추가적인 사항
- Docker/K8s
- 클라우드 컴퓨티(AWS, GCP, Azure)
- 머신 러닝, A/B 테스트, 통계
데이터 엔지니어 로드맵
https://github.com/datastacktv/data-engineer-roadmap
데이터 분석가
- 비즈니스 인텔리전스를 책임진다.
- 중요 지표를 정의하고 대시보드 형태로 시각화
ex) Tableau, Looker, Superset
ex) 엑셀, 구글 스프레드시트, 파이썬
- 데이터 기반 결정을 내릴 수 있도록 도와준다.
- SQL, Hive, Presto, SparkSQL
- 데이터 모델링
- 통계 지식
ex) AB 테스트 분석
- 비즈니스 도메인에 관한 깊은 지식
- 보통 코딩을 하지 않는다.
데이터 웨어하우스가 있는지 즉, 데이터 인프라가 잘 구축되어 있는 곳이 좋음
데이터 분석가의 경우 조직 구조가 더 중요하다
추가적인 직무
- DevOps
- MLOps
- 프라이버시 엔지니어
'Database & Data > 기타' 카테고리의 다른 글
데이터 웨어하우스와 클라우드(Redshift) 소개 (0) | 2023.05.09 |
---|