Pandas(2)
판다스기초2
-
시리즈 연산
student1 = pd.Series({'국어':100, '영어':80, '수학':90}) student2 = pd.Series({'수학':80, '국어':90, '영어':80}) # 두 학생의 과목별 점수로 사칙연산 수행 addition = student1 + student2 #덧셈 subtraction = student1 - student2 #뺄셈 multiplication = student1 * student2 #곱셈 division = student1 / student2 #나눗셈 # 사칙연산 결과를 데이터프레임으로 합치기 result = pd.DataFrame([addition, subtraction, multiplication, division], index=['덧셈', '뺄셈', '곱셈', '나눗셈'])
-
시리즈에 한 쪽이 null값을 가지면 NaN으로 반환되는데 그걸 방지하려면 fill_value 옵션 설정
sr_add = student1.add(student2, fill_value=0) #덧셈 sr_sub = student1.sub(student2, fill_value=0) #뺄셈 sr_mul = student1.mul(student2, fill_value=0) #곱셈 sr_div = student1.div(student2, fill_value=0) #나눗셈
2. 데이터프레임 연산
df['총점'] = df['수학'] + df['영어'] + df['음악'] + df['체육'] df['평균'] = df['총점']/4
->df 데이터 프레임에 총점과 평균의 열이 생기면서 계산된 값이 저장되게 된다.
- 데이터프레임 유용한 함수
-
.head() : 제일 위의 5개의 행을 보여준다. ()안에 원하는 개수를 넣어 볼 수 있다.
-
.tail() : head()와 반대다
-
.corr() : 변수 사이의 상관계수를 나타낸다.
-
.info() : 칼럼들의 개수로 타입 채워진 개수들을 알 수 있다.
-
.isnull() : null 이면 True 아니면 False 반환
-
.dropna() : 널일 경우 열을 삭제한는 방식으로 해결
-
.fillna() : 널일 경우 열을 삭제하지 않고 다른 값으로 대체
df['Age'].fillna(df['Age'].mean())
->mean은 그 열의 평균,mix min std(표준편차) var(분산) 가 있다.
-
axis=0 행, axis=1 열
-
GroupBy groups 속성 : 각 그룹과 그룹에 속한 index를 dict 형태로 표현
class_group = df.groupby('Pclass') class_group.groups
-
.count() : 데이터의 개수 출력
Leave a comment