본문 바로가기

전체 글135

6. Rnn 기초 1. 순환 신경망(Recurrent Neurl Network, RNN)시계열 또는 자연어와 같은 Sequence 데이터를 모델링하는 데 강력한 신경망. 시계열 데이터나 시퀀스 데이터를 잘 처리예) 주식 가격, 텍스트 데이터, 오디오 데이터SeQuence: 단어의 문장. 연결되어 있는 정보1-1. RNN 동작방식은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 다시 출력층 방향으로 보내면서 은닉층 노드의 다음 계산의 입력으로 보내는 것이 특징셀(Cell): 은닉층에서 활성화 함수를 통해 나온 결과를 내보내는 역할을 하는것. 이전의 값을 기억하려고 하는 일종의 메모리 역할을 수행은닉 상태(hidden state): 셀이 출력층 방향 또는 다음 시점으로 자신에게 보내는 값runn = torch.nn.RNN(.. 2024. 6. 21.
5. 워드임베딩 시각화 1. 네이버 영화 리뷰 데이터셋총 200,000개의 리뷰로 구성된 데이터로 영화 리뷰를 긍/부정으로 분류하기 위해 만들어진 데이터셋리뷰가 긍정인 경우1, 부정인 경우 0으로 표시한 레이블로 구성되어 있음#표에 한글을 쓰기위해 폰트 다운로드!sudo apt-get install -y fonts-nanum!sudo fc-cache -fv!rm ~/.cache/matplotlib -rfimport urllib.requestimport pandas as pdurllib.request.urlretrieve('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt', filename='ratings_train.txt')urllib.request.ur.. 2024. 6. 21.
4. 워드 임베딩 1. 워드 임베딩(Word Embedding)단어를 컴퓨터가 이해하고, 효율적으로 처리할 수 있도록 단어를 벡터화 하는 기술단어를 밀집 벡터(실수 값으로 이루어진 벡터)의 형태로 표현하는 방법워드 임베딩 과정을 통해 나온 결과를 임베딩 벡터라고 함워드 임베딩을 거쳐 잘 표현된 단어 벡터들은 계산이 가능하며, 모델에 입력으로 사용할 수 있음1-1. 희소 표현(Sparse Representation)원-핫 인코딩을 통해서 나온 벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법에 의해 만들어지는 벡터를 희소 벡터라고 함1-2. 희소 벡터의 문제점희소 벡터의 특징은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 것원-핫 벡터는 벡터 표현 방식이.. 2024. 6. 17.
3. 임베딩 1. 자연어의 특성자연어를 기계가 처리하도록 하기 위해서는 먼저 자연어를 기계가 이해할 수 있는 언어로 바꾸는 방법을 알아야 함토큰화 작업의 결과인 단어 사전을 기계가 이해할 수 있는 언어로 표현하는 과정이고 단어 사전 내 단어 하나를 어떻게 표현할까의 문제로 볼 수 있음1-1. 단어의 유사성과 모호성단어의 의미는 유사성과 모호성을 가지고 있는데 단어는 겉으로 보이는 형태인 표제어안에 여러가지 의미를 담고 있음사람은 주변 정보에 따라 숨겨진 의미를 파악하고 이해할 수 있으나, 기계는 학습의 부재 또는 잘못된 데이터로 의미를 파악하지 못하는 경우가 많음한 가지 형태의 단어에 여러 의미가 포함되어 생기는 중의성 문제는 자연어 처리에서 매우 중요함동형어(동음이의어): 형태는 같으나 뜻이 서로 다른 단어(예: .. 2024. 6. 17.
2. 자연어 처리 프로젝트 진행 순서 1. 문제 정의문제에 대한 솔루션이 있어야 하고 명확하고 구체적일수록 알맞는 자연어처리 기술을 찾을 수 있음 2. 데이터 수집 및 분석다양한 학습데이터를 수집하기 위해 공개된 데이터셋, 유로 데이터셋 또는 웹 크롤링을 사용하여 수집https://paperswithcode.com/datasets?mod=texts&task=question-answering웹크롤링을 통해 데이터를 수집했다면 EDA(탐색적 데이터 분석) 및 분석 작업을 통해 데이터를 철저하게 검증해야 함레이블이 필요하다면 수집한 데이터에 레이블을 붙여야 함 3. 데이터 전처리학습에 용이하게 데이터를 수정/보완하는 작업자연어처리 진행 과정에서 데이터가 차지하는 비중이 매우 높기 때문에 데이터를 수집하고 전처리하는 과정이 매우 중요함토큰화(Tok.. 2024. 6. 17.
1. 자연어 처리 개요(Natural Language Processing) 1. 자연어(Natural Language)프로그래밍 언어와 같이 인공적으로 만든 기계 언어와 대비되는 단어로, 우리가 일상에서 주로 사용하는 언어1-1. 자연어처리(Natural Language Processing, NLP)컴퓨터가 한국어나 영어와 같은 인간의 자연어를 읽고 이해할 수 있도록 돕는 인공지능의 한 분야자연어에서 의미 있는 정보를 추출하여 활용기계가 자연어의 의미를 이해하게 함기계가 사람의 언어로 소통할 수 있게함1-2. 자연어처리의 활용문서 분류, 스팸 처리와 같은 분류 문제검색어 추천음성 인식, 질의 응답 번역소셜 미디어 분석1-3. 자연어처리의 용어자연어이해(Natural Language Understanding, NLU)자연어처리의 하위 집합자연어이해 기술의 목적은 일반적으로 기계가.. 2024. 6. 17.