본문 바로가기

전체 글137

2. 자연어 처리 프로젝트 진행 순서 1. 문제 정의문제에 대한 솔루션이 있어야 하고 명확하고 구체적일수록 알맞는 자연어처리 기술을 찾을 수 있음 2. 데이터 수집 및 분석다양한 학습데이터를 수집하기 위해 공개된 데이터셋, 유로 데이터셋 또는 웹 크롤링을 사용하여 수집https://paperswithcode.com/datasets?mod=texts&task=question-answering웹크롤링을 통해 데이터를 수집했다면 EDA(탐색적 데이터 분석) 및 분석 작업을 통해 데이터를 철저하게 검증해야 함레이블이 필요하다면 수집한 데이터에 레이블을 붙여야 함 3. 데이터 전처리학습에 용이하게 데이터를 수정/보완하는 작업자연어처리 진행 과정에서 데이터가 차지하는 비중이 매우 높기 때문에 데이터를 수집하고 전처리하는 과정이 매우 중요함토큰화(Tok.. 2024. 6. 17.
1. 자연어 처리 개요(Natural Language Processing) 1. 자연어(Natural Language)프로그래밍 언어와 같이 인공적으로 만든 기계 언어와 대비되는 단어로, 우리가 일상에서 주로 사용하는 언어1-1. 자연어처리(Natural Language Processing, NLP)컴퓨터가 한국어나 영어와 같은 인간의 자연어를 읽고 이해할 수 있도록 돕는 인공지능의 한 분야자연어에서 의미 있는 정보를 추출하여 활용기계가 자연어의 의미를 이해하게 함기계가 사람의 언어로 소통할 수 있게함1-2. 자연어처리의 활용문서 분류, 스팸 처리와 같은 분류 문제검색어 추천음성 인식, 질의 응답 번역소셜 미디어 분석1-3. 자연어처리의 용어자연어이해(Natural Language Understanding, NLU)자연어처리의 하위 집합자연어이해 기술의 목적은 일반적으로 기계가.. 2024. 6. 17.
22. 포켓몬 분류 1. 포켓몬 분류Train: https://www.kaggle.com/datasets/thedagger/pokemon-generation-oneValidation: https://www.kaggle.com/hlrhegemony/pokemon-image-dataset Pokemon Generation OneGotta train 'em all!www.kaggle.com  Complete Pokemon Image Dataset2,500+ clean labeled images, all official art, for Generations 1 through 8.www.kaggle.com# 데이터셋 다운로드import osos.environ['KAGGLE_USERNAME'] = 'kwak0318 'os.enviro.. 2024. 6. 17.
21. 전이 학습 1. 에일리언 vs 프레데터 데이터셋https://www.kaggle.com/datasets/pmigdal/alien-vs-predator-images케글 로그인 -> 우측 상단의 계정을 클릭 -> Your Profile -> 중앙에 Account를 클릭 -> API 항목에 Create New API Token -> kaggle.json이 다운로드 됨{"username":"Your username","key":"Your KeyApi"}import osos.environ['KAGGLE_USERNAME'] = 'kwak0318 'os.environ['KAGGLE_KEY'] = 'dcb13dc724efcf65a915a5d5e8b1d44e'!kaggle datasets download -d pmigdal/ali.. 2024. 6. 17.
20. 간단한 CNN 모델 만들기 import torchimport torch.nn as nnimport torch.optim as optim# 배치크기 * 채널 * 너비 * 높이inputs = torch.Tensor(1,1,28,28)print(inputs.shape)첫번째 Conv2D# Conv2d(입력 데이터가 1개, 출력되는 피쳐의 수 32개, 마스크가 3*3짜리(기울기), padding='same': 테두리를 채워서 크기를 유지)conv1 = nn.Conv2d(in_channels=1, out_channels=32, kernel_size=3, padding='same')out = conv1(inputs)print(out.shape)# 우선 CNN 레이어를 설정하는 과정에서 컨볼루션 연산을 수행합니다.# 여기서 kernel_siz.. 2024. 6. 17.
19. CNN 기초 1. CNN(Convolutional Neural Network)합성곱 인공 신경망(레이어 앞에 또 다른 알고리즘이 붙은 경우)전통적인 뉴럴 네트워크에 컨볼루셔널 레이어를 붙인 형태컨볼루셔널 레이어를 통해 입력 받은 이미지에 대한 특정(Feature)을 추출하게 되고, 추출한 특징을 기반으로 기존의 뉴럴 네트워크에 이용하여 분류컨볼루셔널 레이어는 일반적인 딥러닝에 좌표를 부여받아 입력해줌으로서 좀 더 효율적인 영상 데이터 분석이 가능하게 해줌 1-1. CNN을 사용하는 이유이미지를 분류할 때 DNN(Deep Nerual Network)의 문제점일반적인 DNN은 1차원 형태의 데이터를 사용해야 함2차원 이상의 데이터가 입력되는 경우 flatten 시켜서 한 줄로 데이터를 변환 후 넣어야 함이미지의 공간적/.. 2024. 6. 13.