본문 바로가기
파이썬

41. 판다스(Pandas)

by 곽정우 2024. 5. 24.

1. 판다스(Pandas)

  • 데이터 분석을 위한 파이썬 라이브러리 중 하나로, 표 형태의 데이터나 다양한 형태의 데이터를 쉽게 처리하고 분석
  • 데이터프레임(DataFrame)이라는 자료구조를 제공
!pip install pandas

import pandas as pd

 

2. Series와 DataFrame

2-1. Series

  • Series는 1차원 배열과 같은 자료구조로 하나의 열을 나타냄
  • Series의 각 요소는 인덱스(index)와 값(value)으로 구성되어 있음
  • 값은 넘파이의 ndarray 기반으로 저장됨
  • Series는 다양한 데이터 타입을 가질 수 있으며 정수, 실수, 문자열 등 다양한 형태의 데이터를 담을 수 있음

 

2-2.  DataFrame

  • 데이터프레임은 판다스 라이브러리에서 제공하는 중요하고 강력한 데이터 구조로 2차원의 테이블 형태 데이터를 다룸
  • 데이터프레임의 각 요소는 인덱스(index), 열(column), 값(value)으로 구성되어 있음
  • 데이터프레임은 행과 열로 이루어져 있으며, 각 열은 다양한 데이터 타입을 가질 수 있음
  • 값은 넘파이의 ndarray 기반으로 저장

 

2-3. 딕셔너리를 사용하여 데이터프레임을 생성하기

 

2-4. ndarray 인덱싱과 슬라이싱

 

2-5. Fancy Indexing

  • 정수 배열이나 불리언 배열을 사용하여 배열의 일부를 선택하는 방법
  • 여러 개의 요소를 한 번에 선택하거나 조건에 맞게 선택할 수 있음

 

2-6. Boolean Indexing

  • 불리언값으로 이루어진 배열을 사용하여 조건을 충족하는 원소만 선택하는 방법

 

3. 행렬 연산

  • 넘파이에서는 다차원 배열인 ndarray를 사용하여 행렬 연산을 수행
  • 행렬 연산은 선형 대수와 관련이 깊어 데이터 과학, 머신러닝, 통계 들 다양한 분야에서 사용됨

4. 순차적인 값 생성

5. 정렬

1. 넘파이

  • 파이썬에서 사용되는 과학 밎 수학 연산을 위한 강력한 라이브러리
  • 주로 다차원 배열을 다루는 데에 특화되어 있어, 데이터 분석, 머신러닝, 과학계산 등 다양한 분야에서 널리 사용
  • 넘파이 배열은 C 언어로 구현되어 있어 연산이 빠르고 효율적
  • 넘파이 배열은 큰 데이터셋에서 수치 연산을 수행할 때 뛰어난 성능을 보이며, 메모리 사용을 최적화하고 효율적으로 관리
! pip install numpy

 

2. 넘파이의 주요 특징과 기능

2-1. 다차원 배열(N-dimensional array)

  • 넘파이의 핵심은 다차원 배열 ndarray
  • ndarray는 동일한 자료형을 가지는 원소들로 이루어죠 있음

 

2-2. 리스트와 ndarray 반환

 

2-3. ndarray의 데이터 타입

  • 넘파이의 ndarry는 동일한 자료형을 가지는 원소들로 이루어져 있으며, 다양한 데이터 타입을 지원

 

3. CSV 파일 읽어오기

  • csv(Comma Separated Value)의 약자로 데이터를 쉼표로 구분한 파일

 

4. 데이터프레임 기본정보 알아보기

 

5. 데이터 다루기

 

※ 문제

  • 키가 180cm 이상인 연예인의 이름, 성별, 키, 브랜드평판지수를 출력
  • 단, loc를 사용

 

6. 결측값(Null, NaN)

  • 비어있는 값, 판다스에서는 NaN(Not a Number)로 표기 된 것은 모두 결측값으로 취급

'파이썬' 카테고리의 다른 글

43.파이썬을 활용한 MongoDB  (0) 2024.06.03
42. Matplotlib  (0) 2024.05.28
40. 넘파이(Numpy)  (1) 2024.05.23
39. 셀레니움-인스타그램  (0) 2024.05.21
38. 셀레니움-구글,네이버웹툰  (0) 2024.05.21