728x90
반응형

pandas 16

[pandas] pandas SORTING AND ORDERING

경력 오름차순으로 정렬하세요 df['Years of Experience'].sort_values() # 해당 컬럼만 정렬 df.sort_values('Years of Experience') 경력 내림차순으로 정렬하세요 df.sort_values('Years of Experience',ascending=False) length 컬럼을 내림차순으로 정렬하세요 df.sort_values('length', ascending=False) 정렬 조건이 두개 이상일 경우 정렬 방법 length를 내림차순으로 정렬하되, 숫자가 같으면 이름을 오름차순으로 정렬하세요 df.sort_values(['length','Employee Name'], ascending=[False, True])

[pandas] pandas APPLYING FUNCTIONS

직원 이름이 몇글자인지 글자수를 세어서 새로운 컬럼 length를 만드세요 df['Employee Name'].str.len() df['length'] = df['Employee Name'].str.len() df 시급이 30 이상이면, 'A'그룹이라 하고, 시급이 30보다 작으면 'B'그룹이라고 함 (조건문) 새로운 컬럼 group을 만들어서 저장하세요 df['Salary [$/h]'] 함수 만드는 순서 1. 함수의 호출부분을 먼저 작성한다. 2. 호출부분을 참고하여 함수를 정의한다. def grouping(Salary): # 함수만들기 : def if Salary >= 30: return 'A' else: return 'B' df['group'] = df['Salary [$/h]'].apply(gro..

[pandas] pandas 실습예제 3

import pandas as pd reviews = pd.read_csv('/content/drive/MyDrive/Notebooks/data/wine-data.csv',index_col=0) reviews 리뷰 데이터프레임에서 points 컬럼의 median 값은? reviews['points'].median() 나라를 중복되지 않도록 가져와서 countries 변수에 저장하고, 화면에 출력하시오. countries = reviews['country'].unique() countries 각 국가별로는 몇개의 리뷰가 있는지, 각국가별 리뷰수를 구하시오. reviews.groupby('country').size() reviews['country'].value_counts() 리뷰 데이터프레임의 price..

[pandas] pandas 실습예제 2

import pandas as pd reviews = pd.read_csv('/content/drive/MyDrive/Notebooks/data/wine-data.csv',index_col=0) reviews 인덱스를 title 컬럼으로 셋팅한다. reviews.set_index('title', inplace=True) # inplace=True inplace:해당 장소에의 의미, 메모리에서 작업(반영) reviews 먼저 데이터가 비어있느것이 있는지 확인한다. reviews.isna() reviews.isna().sum() 그리고나서, 가격이 없는 데이터는 빼고, 데이터셋을 가져온다. reviews['price'].notna() # notna : true = 가격이 있음 reviews = reviews..

[pandas] pandas 실습예제 1

구글 코랩에 구글 드라이브 마운트 후 csv 파일을 불러옵니다. import pandas as pd reviews = pd.read_csv('/content/drive/MyDrive/Notebooks/data/winemag-data.csv',index_col=0) # index_col = 인덱스로 사용할 컬럼 선택(컬럼 번호로 작성) reviews 리뷰의 디스크립션 컬럼을 desc 로 저장한다. desc = reviews['description'] first_description 이라는 변수에는, 디스크립션 컬럼의 첫번째 데이터를 저장한다. first_description = reviews['description'][0] reviews.loc[0,'description'] reviews.iloc[0, 1..

[pandas] pandas 데이터 가공 연습하기

df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) df 경력이 3년 이상인 사람의 데이터를 가져오시오 df['Years of Experience'] >= 3 df.loc[df['Years of Experience'] >= 3 , ] #변수명.loc[행, 열] # 이 방법은 안된다(에러남) df.iloc[,] 경력이 3년 이상인 사람의 이름과 시급을 가져오시오 df.loc[df['Years of Experience'] >= 3 , ['Emp..

[pandas] pandas HTML 웹 자료 읽어온 후 데이터 처리

GETTING HTML DATA df = pd.read_html('https://www.livingin-canada.com/house-prices-canada.html') df 자료가 리스트 형식(대괄호 [])으로 표시되었고, 웹페이지 내에 자료가 여러개 있어서 리스트화 되어 표시된 것! 리스트의 갯수를 확인하고 각각 데이터를 확인해야함 len(df) # 리스트의 갯수 리스트 갯수가 2개로 확인되어 하나씩 불러와 봄 df[0] # 데이터 프레임 df[1] 각 데이터 프레임 하단에 자료 데이터 외의 코드가 들어가 있고 웹페이지 확인시 표 안에 광고 코드를 삽입한 것으로 확인되어 각 데이터에서 해당 부분을 제거함 df[0] = df[0].drop(8, axis=0) df[0].loc[0:7,] 위 2가지 코..

[pandas] pandas 파일 읽어온 뒤 데이터 중복 제거와 데이터 처리 예제 (nunique, count, unique, sum, mean, groupby, agg, value_counts)

csv 파일 불러오기 df = pd.read_csv('/content/drive/MyDrive/Notebooks/data/company.csv') df 중복된 데이터를 가지고 있는 컬럼들이 있다. 예를 들면, 성별과 같은 컬럼들 이런 데이터를 카테고리컬 데이터라고 한다. 유니크한 데이터의 갯수를 세는 방법 df['Year'].nunique() # nunique = number unique 데이터의 전체 갯수를 세는 방법 df['Year'].count() 중복제거한 유니크한 데이터를 표시 df['Year'].unique() 데이터 프레임 전체에 describe를 하면, 수치 데이터만 보여준다. df.describe() describe 함수를 문자열 데이터 컬럼 하나에만 적용하면, 빈도수 등을 알 수 있다...

[pandas] pandas 파일 읽어온 뒤 데이터 처리하기(describe, head, tail, info)

pandas 파일 읽어온 뒤 데이터 처리하기 구글 코랩에서 구글 드라이브 사용시 1. 왼쪽 폴더 모양 클릭 2. 상단 구글 폴더 클릭 3. 계정 연동 시 아래의 명령 실행 4. 연동 후 파일 경로를 복사하여 읽어오기 csv (Comma Separated Values) 파일을 읽는 방법, pd.read_csv('파일 경로') 명령으로 실행 csv 외에도 다양한 파일 연동이 가능함 df = pd.read_csv('/content/drive/MyDrive/Notebooks/data/1234.csv') df df.shape # 데이터 갯수 df.isna().sum() # NaN 데이터 갯수 기본적인 통계 데이터를 보여주는 함수 df.describe() # 각 항의 데이터 정보를 보여줌(평균, 최대값, 최소값, ..

728x90
반응형