Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
Tags
- agviewer
- dataanalysis
- pandas
- 재무엑셀
- 책읽는케이크
- 프로그래머스
- 도둑맞은집중력
- 코딩테스트
- 블라인드테스트
- 통화정책파급경로
- potatoeseater
- 독서모임
- 인도가격
- 재무제표
- 증권투자권유자문인력
- 요한하리
- 독후감
- ReinforcementLearning
- python
- 파생상품평가모형
- 통화주의학파
- 집중하는법
- RL
- 파이썬
- 카카오
- Nas
- SQL
- montecarlo
- 주식
- ldbc
Archives
- Today
- Total
목록정규화 (1)
이것저것 담는 블로그
데이터 처리 과정 요약
데이터과학자로 일하다보면 데이터를 처리하는 과정은 어느 정도 정형화된 부분이 있다. 앞으로 항상 하게 될 일이라서 머릿 속에 framework을 잡는다는 생각으로 과정을 정리하였다. 다른 데이터분석가/데이터과학자 분들의 업무 프로세스도 유사할 것이라 생각한다. 1. 데이터 추출 - ANSI SQL, HiveQL, Sybase, Python Step 1. 원하는 테이블과 컬럼 값 찾기 메타데이터시스템 활용 자주 활용하는 도메인 명칭과 datatype 등을 기억해두면 일처리 속도가 매우 빨라진다. 원하는 데이터가 없다면, 분석용 주제영역에만 없는 데이터인 경우, 인프라 쪽에 적재 요청 어디에도 없다면, API/크롤링 등으로 외부로부터 데이터 긁어서 적재 API는 Parameter나 정책이 종종 바뀌기도 하기..
IT/Data Processing
2022. 11. 18. 20:11