PANDAS 2

데이터 오류 없애기 #6

1. 좋은데이터 기준 1 - 1. 완결성 필수적인 데이터는 모두 기록되있어야 한다. 결측값: 채워져야 하는데 비어있는 값이다. 데이터프레임에서 NaN으로 표시된다. 1 - 2. 유일성 값이 중복되면 안된다. 1 - 3. 통일성 데이터가 동일한 형식으로 저장되어 있어야 한다. ex) kg, lbs, 띄어쓰기, 표기법 등등.... 1 - 4. 정확성 이상점: 박스그래프때도 잠깐 언급했었다. 정상적인 범주를 벗어나, 자료분석에 방해가 되는 데이터를 말한다. 2. 데이터 클리닝 2 - 1. 완결성 결측값은 NaN으로 뜬다고 했다. 보자 변수.isnull() 결측값이 true라고 나온다. 변수.isnull().sum() 각 칼럼의 결측값 갯수를 말해준다. 변수.dropna() 이면 결측값을 제거한다. ( ) 안에..

코딩/Jupyter 2021.02.11

데이터 분석과 시각화, Seaborn, 그래프의 유형, 통계 #5

1. 시각화와 그래프 1 - 1. 선그래프 그래프 모듈은 불러오는 키는 %matplorlib inline 이것을 맨위에 입력하면 향후 그래프를 시각화하여 볼 수 있다. import pandas as pd 이것도 잊지말자. 그래프를 그리는 기본적인 형태는 변수.plot( ) 이며, ( ) 안에 kind = ' 원하는 그래프코드' 를 입력하면 된다. 선그래프는 'line'인데, 가장 기본적인 형태라 굳이 안적어도 된다. 변수.plot( y='b') 이런식으로 표현할수도 있고, 변수[['a', 'b']].plot() 이렇게도 가능하다. 단, 선그래프는 숫자만 가능하다. 문자는 표현 못한다. 1 - 2. 막대그래프 카테고리별로 비교를 하고싶을때 막대그래프가 유용하게 쓰인다. kind = 'bar' 이다. df...

코딩/Jupyter 2021.02.09