즐거운프로그래밍

[pandas] pandas 파일 읽어온 뒤 데이터 중복 제거와 데이터 처리 예제 (nunique, count, unique, sum, mean, groupby, agg, value_counts)

수수께끼 고양이 2023. 11. 15. 17:34
728x90
반응형

 

csv 파일 불러오기

df = pd.read_csv('/content/drive/MyDrive/Notebooks/data/company.csv')
df

 


중복된 데이터를 가지고 있는 컬럼들이 있다.
예를 들면, 성별과 같은 컬럼들 이런 데이터를 카테고리컬 데이터라고 한다.

유니크한 데이터의 갯수를 세는 방법

df['Year'].nunique() # nunique = number unique

데이터의 전체 갯수를 세는 방법

df['Year'].count()



중복제거한 유니크한 데이터를 표시

df['Year'].unique()

 


데이터 프레임 전체에 describe를 하면, 수치 데이터만 보여준다.

df.describe()

 

describe 함수를 문자열 데이터 컬럼 하나에만 적용하면, 빈도수 등을 알 수 있다.

df['Name'].describe()

 


카테고리컬 데이터의 각 데이터별로 묶어서 처리하는 방법
각 연도별로 연봉 총합을 구하시오

df.groupby('Year')['Salary'].sum()

 

각 직원별로 해당 직원이 받은 연봉 평균은 얼마인가?

df.groupby('Name')['Salary'].mean()

 


연도별과 부서별로 연봉은 총 얼마씩 지급되었는가?

df.groupby(['Year','Department'])['Salary'].sum()

 

연도별 연봉의 총합과 최소값을 구하세요

df.groupby('Year')['Salary'].agg([np.sum, np.min])

 


연도별 연봉의 총합과 최소값, 평균값을 구하세요

df.groupby('Year')['Salary'].agg([np.sum, np.min, np.mean])



Name 컬럼의 사람이름은 각각 몇개씩 있는 파악하시오
직원의 이름별로 이름에 해당하는 데이터는 몇개씩 있는가?

df.groupby('Name')['Name'].count()
df['Name'].value_counts()

 

728x90
반응형