pandas
Series
- 벡터와 대응
- 2개(key, value)의 리스트로 생성
- dict 로 생성
- numpy 변환
series.values
series.to_list()
series.to_dict()
series.drop_duplicates(column_name, keep='first')
series.unique()
series.value_counts()
DataFrame
- 행렬과 대응
- dict[key: string, value: Series]
- 결측치 보간 내용은 sklearn 참고
- merge
pd.merge()
pd.concat()
df.corr()
df.info()
df.values
df.copy()
df.isnull().sum()
df.isnull().any(axis=1)
df.dropna(axis=0)
df.mean()
df.mode()
df.loc[:, ['age']].fillna(df.mean()['age']('age'))
df.loc[:, ['gender']].fillna(df.mode().iloc[0])
df['date'].dtype
df['datetime'] = pd.to_datetime(df['date'])
df['datetime'][0].dayofweek
df['datetime'][0].weekofyear
df['dayofweek'] = df['datetime'].apply(lambda x: x.dayofweek)
pd.date_range(start=df['datetime'].min(), end=df['datetime'].max(), frew='D')
indexer
column 선택
df['column']
df.column
- 위와 같이 컬럼명과 속성이 겹치는 경우 각각대로 동작하므로 데이터를 원할대는 dict 형태의 접근 한다
link