누락된 값
– 누락된 데이터: NaN, 없음
– 누락된 값은 분석이 제대로 이루어지지 않으므로 누락된 값을 처리해야 합니다.
– Python에서는 NaN(Na, Null)과 None 모두 결측값으로 처리됩니다.
누락된 값 확인
사용할 데이터 로드
• .정보( )
– 데이터 정보 확인
• .는 0( )
– 누락된 값은 True 또는 False로 반환됩니다.
– 누락된 값은 True로 표시됩니다.
• .isnull( ).합계( )
– 누락된 값이 몇 개인지 표시
• .not null( )
– 누락된 값이 없는 행 확인
– 누락되지 않은 값이 있는 행은 True로 표시됩니다.
• .notna( )
– 누락된 값 확인
– 값이 누락된 경우 False를 표시합니다.
누락된 값 제거
• .dropna(축=0)
– 누락된 값이 있는 행 제거
• .dropna(축=1)
– 누락된 값이 있는 열 제거
• .dropna(방법=’모두’)
– 모든 행(또는 열)에 누락된 값이 있는 경우에만 제거
• .dropna(쓰레쉬=2)
– 누락되지 않은 행 수를 기준으로 제거
• .dropna(하위 집합=(“”))
– 특정 열을 기준으로 누락된 값 제거
누락된 값의 대치
• .fillna(0)
– 누락된 값을 모두 0으로 바꿉니다.
• fillna(df.mean())
– 모든 누락된 값을 평균으로 대체
• fillna(method=’ffill’)
– 누락된 값을 이전 데이터로 교체
• fillna(method=’bfill’)
– 누락된 값을 이후 날짜로 교체