3. 아이리스 데이터셋

1. Iris Dataset

Iris Dataset은 머신러닝 분야에서 널리 사용되는 데이터 세트입니다. 붓꽃(Iris)의 세 가지 종류(Iris setosa, Iris virginica, Iris versicolor) 각각 50개씩 총 150개의 샘플로 구성되어 있습니다. 각 샘플은 꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비 4가지 특징과 꽃 종류를 나타내는 종속 변수로 구성됩니다.

데이터셋: 특정한 작업을 위해 테이터를 관련성 있게 모아놓은 것
링크: https://scikit-learn.org/stable/api/sklearn.datasets.html#module-sklearn.datasets

sklearn.datasets

Utilities to load popular datasets and artificial data generators. User guide. See the Dataset loading utilities section for further details. Loaders: Sample generators:

scikit-learn.org

from sklearn.datasets import load_iris

iris = load_iris()
iris

print(iris['DESCR'])

sepal length in cm: 꽃받침의 길이
sepal width in cm: 꽃받침의 너비
petal length in cm: 꽃잎의 길이
petal width in cm: 꽃잎의 너비

data = iris['data']
data

feature_names = iris['feature_names']
feature_names

import pandas as pd

df_iris = pd.DataFrame(data, columns=feature_names)
df_iris

from sklearn.model_selection import train_test_split

# train_test_split(독립변수, 종속변수, 테스트사이즈, 시드값 ...)
X_train, X_test, y_train, y_test = train_test_split(df_iris.drop('target', axis=1),
                                                    df_iris['target'],
                                                    test_size=0.2,
                                                    random_state=2024)

X_train.shape, X_test.shape

y_train.shape, y_test.shape

X_train

y_train

from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

svc = SVC()

y_pred = svc.predict(X_test)
y_pred

print('정답률', accuracy_score(y_test, y_pred))

정답률 증가를 위해 코드 '2024>2023'으로 변경

'머신러닝 & 딥러닝' 카테고리의 다른 글

6. 의사 결정 나무 (1)	2024.06.11
5. 선형 회귀 (0)	2024.06.11
4. 타이타닉 데이터셋 (0)	2024.06.10
2. 사이킷런(Scikit-Learn) (0)	2024.06.10
1. 머신러닝 (0)	2024.06.10

AI개발자가 되기 위한 과정들

3. 아이리스 데이터셋

1. Iris Dataset

'머신러닝 & 딥러닝' 카테고리의 다른 글

티스토리툴바

3. 아이리스 데이터셋

1. Iris Dataset

'머신러닝 & 딥러닝' 카테고리의 다른 글

관련글

티스토리툴바