일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- ReinforcementLearning
- agviewer
- ldbc
- pandas
- 통화주의학파
- 독서모임
- python
- 블라인드테스트
- 재무제표
- Nas
- 집중하는법
- SQL
- 파이썬
- dataanalysis
- 재무엑셀
- montecarlo
- 주식
- 인도가격
- 도둑맞은집중력
- RL
- 요한하리
- 독후감
- 증권투자권유자문인력
- 코딩테스트
- 프로그래머스
- 파생상품평가모형
- 카카오
- 통화정책파급경로
- potatoeseater
- 책읽는케이크
- Today
- Total
목록pandas (3)
이것저것 담는 블로그
데이터과학자로 일하다보면 데이터를 처리하는 과정은 어느 정도 정형화된 부분이 있다. 앞으로 항상 하게 될 일이라서 머릿 속에 framework을 잡는다는 생각으로 과정을 정리하였다. 다른 데이터분석가/데이터과학자 분들의 업무 프로세스도 유사할 것이라 생각한다. 1. 데이터 추출 - ANSI SQL, HiveQL, Sybase, Python Step 1. 원하는 테이블과 컬럼 값 찾기 메타데이터시스템 활용 자주 활용하는 도메인 명칭과 datatype 등을 기억해두면 일처리 속도가 매우 빨라진다. 원하는 데이터가 없다면, 분석용 주제영역에만 없는 데이터인 경우, 인프라 쪽에 적재 요청 어디에도 없다면, API/크롤링 등으로 외부로부터 데이터 긁어서 적재 API는 Parameter나 정책이 종종 바뀌기도 하기..

에러 원인 SettingWithCopyWarning : a value is trying to be set on a copy of a slice from a dataframe SettingWithCopyWarning은 데이터프레임의 복사본에서 값을 바꾸려할 때 나타난다. 보통 iterrows()로 데이터프레임을 조회하다가 거기서 아래처럼 값을 바꾸려하면 발생한다. for idx, row in sample_df.iterrows(): row['score'] = 100 row는 sample_df의 하나의 레코드로 시리즈 타입인데 여기서는 그 시리즈에 있는 값을 바꾼다고 읽어서 실제 sample_df의 값은 바뀌지 않는다. 해결방법 데이터프레임의 loc을 활용하면 값을 변경할 수 있다. for idx, row i..

필자는 pandas를 쓰면서 dataframe의 행을 순서대로 조회할때 df.iterrows() 메서드를 가장 많이 사용한다. iterrows()를 쓰다보면 헷갈리는 것들이 조금 있어서 정리하고자 한다. 우선 아래와 같은 dataframe을 정의해보자. import pandas as pd sample_df = pd.DataFrame([100, 90], index=['나나', '모모'], columns=['점수']) 이 dataframe을 조회하기 위해 두가지 방법으로 iterrows() 메서드를 사용할 수 있다. 1. 인덱스와 행을 같이 가져올 때 for idx, row in sample_df.iterrows(): print(idx, row) print(type(row)) print(row['점수']) ..