21. 전이 학습

1. 에일리언 vs 프레데터 데이터셋

https://www.kaggle.com/datasets/pmigdal/alien-vs-predator-images
케글 로그인 -> 우측 상단의 계정을 클릭 -> Your Profile -> 중앙에 Account를 클릭 -> API 항목에 Create New API Token -> kaggle.json이 다운로드 됨
{"username":"Your username","key":"Your KeyApi"}

import os

os.environ['KAGGLE_USERNAME'] = 'kwak0318 '
os.environ['KAGGLE_KEY'] = 'dcb13dc724efcf65a915a5d5e8b1d44e'
!kaggle datasets download -d pmigdal/alien-vs-predator-images
!unzip -q alien-vs-predator-images.zip

import torch
import torch.nn as nn
import torch.optim as optim
import matplotlib.pyplot as plt
from torchvision import datasets, models,transforms
from torch.utils.data import DataLoader
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(device)

2. 이미지 증강 기법(Image Augmentation)

원본 이미지(데이터)를 조작하여 원본과는 크고 작은 변화를 가진 이미지를 생성
일반적으로 모델의 성능이 좋아짐
오버피팅을 방지하는 목적
https://pytorch.org/vision/master/transforms.html

Transforming and augmenting images — Torchvision main documentation

Shortcuts

pytorch.org

# Compose(): 여러개의 함수를 한꺼번에 적용하는 함수(여러 이미지 변환 함수들을 연속적으로 적용)
data_transforms = {
    'train':transforms.Compose([
        transforms.Resize([224, 224]),

        # 이미지를 무작위로 변형하여 데이터 다양성을 증대시킵니다.
        # 각도 조정, 비율 변경, 크기 조정을 통해 이미지를 변환합니다.
        transforms.RandomAffine(0, shear=10, scale=(0.8 , 1.2)),

        # 이미지를 무작위로 좌우 반전하여 변형합니다.
        transforms.RandomHorizontalFlip(),  
        
        # 이미지를 텐서(tensor) 형식으로 변환합니다.
        transforms.ToTensor()  
    ]),
    # 검증용 이미지 변환
    'validation': transforms.Compose([
        # 이미지 크기를 224x224로 조정합니다.
        transforms.Resize([224, 224]),  
        
        # 이미지를 텐서(tensor) 형식으로 변환합니다.
        transforms.ToTensor()           
    ])
}

# 데이터 전처리를 위한 변환을 정의합니다.
# data_transforms 딕셔너리는 학습 및 검증 데이터를 일관된 형태로 맞추기 위해 크기 조정, 각도 조정, 기울임, 좌우 반전 등의 변환을 적용합니다.

# 타겟 데이터를 받아 텐서형(자료형)으로 변환하는 함수 정의
def target_transforms(target):
    return torch.FloatTensor([target])

# ImageFolder(): 특정 이미지 폴더를 데이터셋으로 변환합니다.
# 인자: (데이터 경로, 데이터셋에 대해 적용할 이미지 변환(transform) 함수, 'train' 데이터셋의 타겟(레이블)에 대해 적용할 변환 함수)
# 데이터셋 생성
image_datasets = {
    'train': datasets.ImageFolder('data/train', data_transforms['train'], target_transform=target_transforms),
    'validation': datasets.ImageFolder('data/validation', data_transforms['validation'], target_transform=target_transforms)
}

# 데이터로더 생성
dataloaders = {
    'train': DataLoader(
        image_datasets['train'],
        batch_size=32,  # 배치 사이즈를 32로 설정
        shuffle=True    # 데이터를 섞어서 로드
    ),
    'validation': DataLoader(
        image_datasets['validation'],
        batch_size=32,  # 배치 사이즈를 32로 설정
        shuffle=True    # 데이터를 섞어서 로드
    )
}

# 이미지 변환(transforms)을 데이터에 적용합니다.
# train과 validation 데이터를 딕셔너리로 분리하고 torch 텐서 형태로 변환합니다.
# 그 후, 분리된 데이터를 dataloader로 만들어 배치 크기를 설정하여 학습시킵니다.

print(len(image_datasets['train']), len(image_datasets['validation']))

imgs, labels = next(iter(dataloaders['train']))

fig, axes = plt.subplots(4, 8, figsize=(20, 10))

for img, label, ax in zip(imgs, labels, axes.flatten()):
  ax.set_title(label.item())
  
  # 텐서의 차원을 (채널, 높이, 너비)에서 (높이, 너비, 채널)로 변경하여 matplotlib에서 이미지를 표시합니다.
  ax.imshow(img.permute(1, 2, 0))  
  ax.axis('off')

3. 전이 학습(Transfer Learning)

하나의 작업을 위해 훈련된 모델을 유사 작업 수행 모델의 시작점으로 활용하는 딥러닝 접근법
신경망은 처음부터 새로 학습하는 것보다 전이 학습을 통해 업데이트하고 재학습하는 편이 더 빠르고 간편함
전이 학습은 여러 응용 분야(검출, 영상 인식, 음성 인식, 검색 분야)에서 많이 사용됨

3-1. 전이 학습의 고려할 점

크기 : 모델 크기는 배포할 위치와 방법에 따라 달라짐
속도 및 정확도 : 하드웨어, 배치 크기와 같은 요소를 고려

3-2. 사전 학습된 ResNet50 모델 사용하기

파이토치에서 제공하는 사전학습 모델들 (https://pytorch.org/vision/stable/models.html)

3-3. ResNet50의 특징

네트워크가 이전 레이어의 출력을 다음 레이어로 직접 전달하는 '스킵 연결'을 통해 학습을 진행하는 방식
기울기 소실 문제를 해결하고 훨씬 더 깊은 네트워크를 효과적으로 학습시킬 수 있음
50개의 레이어로 구성되어 있으며 주로 Conv(컨볼루션) 레이어와 Batch Normalization, ReLU 활성화 함수, 풀링 레이어 등으로 이루어져 있음
이미지 분류, 객체 탐지 등 다양한 컴퓨터 비전 작업에서 높은 성능을 보임

4. 이미지넷(ImageNet)

이미지 데이터베이스
1000개의 클래스로 동물과 사물 이미지를 포함

# 파이토치에서 제공하는 model가져와 미리 학습된 모델을 사용하기

model = models.resnet50(weights='IMAGENET1K_V1').to(device)
print(model)

5. Freeze Layers

특징을 뽑아내는 CNN의 앞쪽 컨볼루션 레이어들은 수정하지 않도록 설정
출력 부분의 레이어(fc 레이어)를 다시 설정하여 분류에 맞게 변경

for param in model.parameters():
  param.requires_grad = False  # 가져온 파라미터(W, b)를 업데이트 하지 않음

# 모델의 FC 레이어
model.fc = nn.Sequential(
    nn.Linear(2048, 128),  # 입력 크기가 2048이고 출력 크기가 128인 선형 레이어
    nn.ReLU(),
    nn.Linear(128,1),  # 128차원의 특성을 1차원으로 줄이고, 최종 예측 값을 출력
    nn.Sigmoid()       # 출력을 0과 1 사이로 제한하여 이진 분류 문제에서 확률 값
).to(device)

print(model)

# 학습
optimizer = optim.Adam(model.fc.parameters(), lr=0.001)

epochs = 10

for epoch in range(epochs+1):
  for phase in ['train', 'validation']:  # train과  validation 따로 반복문을 돌아
    if phase == 'train':
      model.train()
    else:
      model.eval()   # 학습 모드에 있던 메모리를 지우고 바로 Test모드(훨씬 빠름)

    sum_losses = 0
    sum_accs = 0

    for x_batch, y_batch in dataloaders[phase]:  # train이라면 train에 대한 데이터로더, validataion이라면 validation에 대한 데이터로더 (따로 쓰지 않고 합쳐서 씀)
      x_batch = x_batch.to(device)
      y_batch = y_batch.to(device)

      y_pred = model(x_batch)

      loss = nn.BCELoss()(y_pred, y_batch)

      if phase == 'train':
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

      sum_losses = sum_losses + loss

      y_bool = (y_pred >= 0.5).float()
      acc = (y_batch == y_bool).float().sum() / len(y_batch) * 100
      sum_accs = sum_accs + acc

    avg_loss = sum_losses / len(dataloaders[phase])
    avg_acc = sum_accs / len(dataloaders[phase])

    print(f'{phase:10s}: Epoch {epoch+1:4d}/{epochs}, Loss: {avg_loss:.4f}, Accuracy: {avg_acc:.2f}%')

from PIL import Image

img1 = Image.open('/content/data/validation/alien/21.jpg')
img2 = Image.open('/content/data/validation/predator/30.jpg')

fig, axes = plt.subplots(1, 2, figsize=(12, 6))

axes[0].imshow(img1)
axes[0].axis('off')
axes[1].imshow(img2)
axes[1].axis('off')
plt.show()

# data_transforms의 validation 키의 value 값에 img1을 통과시킴 ➡️ Resize되고 Tensor로 변환

img1_input = data_transforms['validation'](img1)  
img2_input = data_transforms['validation'](img2)
print(img1_input.shape)
print(img2_input.shape)

# 두 이미지를 하나의 이미지 텐서로 결합

test_batch = torch.stack([img1_input, img2_input])  # 두 이미지를 첫 번째 차원(배치 차원)으로 결합
test_batch = test_batch.to(device)
test_batch.shape   # 두 개 이미지가 붙음, torch.Size([2, 3, 224, 224]): (2(배치크기), 컬러채널, 세로, 가로)

# 모델을 통해 이진 분류 예측하기

y_pred = model(test_batch)
y_pred

fig, axes = plt.subplots(1,2, figsize=(12,6))

axes[0].set_title(f'{(1-y_pred[0,0]) * 100:.2f}% Alien, {y_pred[0,0] * 100:.2f}% Predator')
axes[0].imshow(img1)
axes[0].axis('off')

axes[1].set_title(f'{(1-y_pred[1,0]) * 100:.2f}% Alien, {y_pred[1,0] * 100:.2f}% Predator')
axes[1].imshow(img2)
axes[1].axis('off')
plt.show()

'머신러닝 & 딥러닝' 카테고리의 다른 글

머신러닝 분류 알고리즘 4가지 정리 (1)	2025.04.18
22. 포켓몬 분류 (2)	2024.06.17
20. 간단한 CNN 모델 만들기 (0)	2024.06.17
19. CNN 기초 (0)	2024.06.13
18. 비선형 활성화 함수 (0)	2024.06.13

AI개발자가 되기 위한 과정들

21. 전이 학습

1. 에일리언 vs 프레데터 데이터셋

2. 이미지 증강 기법(Image Augmentation)

3. 전이 학습(Transfer Learning)

4. 이미지넷(ImageNet)

5. Freeze Layers

'머신러닝 & 딥러닝' 카테고리의 다른 글

티스토리툴바

21. 전이 학습

1. 에일리언 vs 프레데터 데이터셋

2. 이미지 증강 기법(Image Augmentation)

3. 전이 학습(Transfer Learning)

4. 이미지넷(ImageNet)

5. Freeze Layers

'머신러닝 & 딥러닝' 카테고리의 다른 글

관련글

티스토리툴바