로딩...
scikit learn
sklearn
from sklearn.impute import SimpleImuter
from sklearn.impute import KNNImputer
from sklearn.impute import MissingIdicator
# 결측치를 채우기 위한 imputer 생성
imp = SimpleImputer(
missing_values=np.nan, # `np.nan` 을
strategy='constant', # 특정 값으로 바꾼다
fill_value=-9999, # 특정 값은 `-9999`, 문자열 보간도 가능
)
# strategy 에 `'most_frequent'` 를 주게되면 `df.mean()` 과 같은 효과
imputed = imp.fit_transform(df2.loc[:, ['age']].values)
imputed_df = pd.DataFrame(imputed, columns=['age'])
# 단순화하면
imputed_df = imp.fit_transform(df2.loc[:, ['age']])
# 평균 결측치 처리
imp = SimpleImputer(
missing_values=np.nan, # `np.nan` 을
strategy='mean', # 평균 값으로 바꾼다
)
# knn 을 이용해서 가장 가까운 애들 기준 보간
imp = KNNImputer(
n_neighbors=2,
weights='uniform',
)