본문 바로가기

전체 글137

12. KMeans 1. Clusters(클러스터)유사한 특성을 가진 개체들의 집합고객 분류, 유전자 분석, 이미지 분할import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltfrom sklearn.datasets import make_blobsX, y = make_blobs(n_samples=100, centers=3, random_state=2023)X=pd.DataFrame(X)Xysns.scatterplot(x=X[0], y=X[1], hue=y)from sklearn.cluster import KMeanskm = KMeans(n_clusters=3)km.fit(X)pred = km.predict(X)sns.sca.. 2024. 6. 13.
11. 다양한 모델 적용 1.  AirQualityUCL 데이터셋import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as pltair_df = pd.read_csv('/content/drive/MyDrive/KDT/6.머신러닝과 딥러닝/Data/AirQualityUCI.csv')air_df.info()Date: 측정 날짜Time: 측정 시간CO(GT): 일산화탄소 농도 (mg/m^3)PT08.S1(CO): 일산화탄소에 대한 센서 응답NMHC(GT): 비메탄 탄화수소 농도 (microg/m^3)C6H6(GT): 벤젠 농도 (microg/m^3)PT08.S2(NMHC): 탄화수소에 대한 센서 응답NOx(GT): 산화.. 2024. 6. 13.
10. lightGBM 1. credit 데이터셋import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt credit_df = pd.read_csv('/content/drive/MyDrive/KDT/6.머신러닝과 딥러닝/Data/credit.csv')credit_dfcredit_df.info()Left column (영어) Right column (한글)* ID: 고유 식별자* Customer_ID: 고객 ID* Name: 이름* Age: 나이* SSN: 주민등록번호* Occupation: 직업* Annual_Income: 연간 소득* Num_Bank_Accounts: 은행 계좌 수* Num_Credit.. 2024. 6. 13.
9. 랜덤 포레스트 1. hotel 데이터셋import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plthotel_df = pd.read_csv('/content/drive/MyDrive/KDT/6.머신러닝과 딥러닝/Data/hotel.csv')hotel_dfhotel_df.info()hotel: 호텔 종류is_canceled: 취소 여부lead_time: 예약 시점으로부터 체크인 될 때까지의 기간(얼마나 미리 예약했는지)arrival_date_year: 예약 연도arrival_date_month: 예약 월arrival_date_week_number: 예약 주arrival_date_day_of_month:.. 2024. 6. 12.
8. 서포트 벡터 머신 1. 손글씨 데이터셋from sklearn.datasets import load_digitsdigits = load_digits()digits.keys()data = digits['data']data.shapetarget = digits['target']target.shapetargetimport matplotlib.pyplot as plt_, axes = plt.subplots(2, 5, figsize=(14, 8))# flatten: 다차원을 1차원으로 바꿔주는 메소드for i, ax in enumerate(axes.flatten()): ax.imshow(data[i].reshape((8, 8)), cmap='gray') ax.set_title(target[i]) 2. 스케일링(Scalin.. 2024. 6. 12.
7. 로지스틱 회귀 1. hr 데이터셋 살펴보기# 라이브러리 불러오기:import numpy as npimport pandas as pdimport seaborn as snsimport matplotlib.pyplot as plt 데이터 불러오기:hr_df = pd.read_csv('/content/drive/MyDrive/KDT/6.머신러닝과 딥러닝/Data/hr.csv')hr_df.head() hr_df.info()# 변수 설명:employee_id: 임의의 직원 아이디department: 부서region: 지역education: 학력gender: 성별recruitment_channel: 채용 방법no_of_trainings: 트레이닝 받은 횟수age: 나이previous_year_rating: 이.. 2024. 6. 12.