자연어 처리(NLP)14 12. PLM을 이용한 실습 1. NLI(Natual Language Inference) 실습두 개의 문장(전제와 가설) 사이의 논리적 관계를 결정하는 자연어 처리 문제!pip install transformers# pipeline: 자연어 처리 작업을 간단한 코드로 여러 작업을 한번에 지원# AutoTokenizer: 자동으로 적절한 토크나이저를 선택하여 모델의 토큰화를 수행from transformers import pipeline, AutoTokenizerclassifier = pipeline( 'text-classification', model='Huffon/klue-roberta-base-nli', return_all_scores=True)tokenizer = AutoTokenizer.from_pretrai.. 2024. 7. 8. 11. 자연어처리를 위한 모델 학습 1. 사전 학습(Pre-training)원하는 자연어처리 작업을 수행하는 데이터셋으로 모델을 학습시키기 이전에 일반적인 데이터에 먼저 학습을 시키는 것사전학습은 대량의 자연어 코퍼스를 미리 학습하여, 자연어 코퍼스 안에 포함된 일반화된 언어 특성들을 모델의 파라미터 안에 함축하는 방법사전학습한 모델의 parameter를 이용해서 모델을 초기화한 뒤(pre-training) 사전학습된 모델을 실제 풀려고 하는 문제의 데이터에 fine-tuning하면 임의로 초기화된 parameter를 가진 모델을 처음부터 학습시키는 것 보다 더 높은성능을 가짐예) 컴퓨터 비전에서 엄청난 크기의 이미지 데이터인 ImageNet에 pre-train된 모델의 parameter를 가져와서 fine-tuning하는 방법을 많이 사.. 2024. 7. 8. 간단한 답변 랭킹 모델 만들기 import urllib.requestimport pandas as pd urllib.request.urlretrieve('https://raw.githubusercontent.com/songys/Chatbot_data/master/ChatbotData.csv', filename='ChatBotData.csv') train_dataset = pd.read_csv('ChatBotData.csv')print(len(train_dataset))train_dataset.replace('', float('NaN'), inplace=True)print(train_dataset.isnull().values.any())train_dataset = train_dataset.drop_duplicates(['Q']).res.. 2024. 7. 1. 한국어 챗봇 import pandas as pdimport urllib.requestimport tensorflow_datasets as tfdsimport tensorflow as tfimport timeimport numpy as npimport matplotlib.pyplot as pltimport reurllib.request.urlretrieve("https://raw.githubusercontent.com/songys/Chatbot_data/master/ChatbotData.csv", filename="ChatBotData.csv")train_data = pd.read_csv('ChatBotData.csv')train_data.head()print('챗봇 샘플의 개수 :', len(train_data))p.. 2024. 7. 1. 이전 1 2 3 4 다음