본문 바로가기

자연어 처리(NLP)14

10. 문장 임베딩 1. 문장 임베딩2017년 이전의 임베딩 기법들은 대부분 단어 수준 모델이였음(Word2Vec, FastText, GloVe)단어 수준 임베딩 기법은 자연어의 특성인 모호성, 동음이의어를 구분하기 어렵다는 한계가 있음2017년 이후에는 ELMo(Embeddings from Language Models) 와 같은 모델이 발표되고 트랜스포머와 같은 언어 모델에서 문장 수준의 언어 모델링을 고려하면서 한계점들이 해결됨 2. Seq2Seq 배경Seq2Seq 모델 등장하기 전에 DNN( Deep Neural Network) 모델은 사물인식, 음성인식 등에서 꾸준히 성과를 냈음( ex, CNN, RNN, LSTM, GRU ....)모델 입/출력의 크기가 고정된다는 한계점이 존재 했기 때문에 자연어 처리와 같은 가변.. 2024. 6. 21.

9. LSTM과 GRU import torchimport torch.nn as nnimport torch.optim as optimimport numpy as npfrom sklearn.preprocessing import LabelEncoderfrom sklearn.feature_extraction.text import CountVectorizerfrom torch.utils.data import DataLoader, Datasetfrom sklearn.datasets import fetch_20newsgroupsfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorenewsgroups_data = fetch_20.. 2024. 6. 21.

8. CNN text classification 1. 문장 임베딩import urllib.requestimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport torchimport torch.nn as nnfrom torch.utils.data import Dataset, DataLoaderimport torch.optim as optimimport torch.nn.functional as Ffrom copy import deepcopyfrom tqdm.auto import tqdmurllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", filename="ra.. 2024. 6. 21.

7. cbow text classification 1. 문장 임베딩import urllib.requestimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport torchimport torch.nn as nnfrom torch.utils.data import Dataset, DataLoaderimport torch.optim as optimfrom copy import deepcopy from tqdm.auto import tqdmurllib.request.urlretrieve("https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt", filename="ratings_train.txt")urllib.reque.. 2024. 6. 21.

이전 1 2 3 4 다음

티스토리툴바