5. 워드임베딩 시각화

1. 네이버 영화 리뷰 데이터셋

총 200,000개의 리뷰로 구성된 데이터로 영화 리뷰를 긍/부정으로 분류하기 위해 만들어진 데이터셋
리뷰가 긍정인 경우1, 부정인 경우 0으로 표시한 레이블로 구성되어 있음

#표에 한글을 쓰기위해 폰트 다운로드
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

import urllib.request
import pandas as pd

urllib.request.urlretrieve('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt', filename='ratings_train.txt')
urllib.request.urlretrieve('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_test.txt', filename='ratings_test.txt')
train_dataset = pd.read_table('ratings_test.txt')
train_dataset

2. 데이터 전처리

# 결측치 확인하고 결측치를 제거
train_dataset.replace('', float('NaN'), inplace=True)

# any(): 배열에서 하나라도 True가 존재하는지 확인
train_dataset.isnull().values.any()

train_dataset= train_dataset.dropna().reset_index(drop=True)
len(train_dataset)

# 열을 기준으로 중복 데이터를 제거
train_dataset=train_dataset.drop_duplicates(['document']).reset_index(drop=True)

len(train_dataset)

# 한글이 아닌 문자를 포함하는 데이터를 제거(단, ㅋㅋㅋ 제거하지 않음)

train_dataset['document'] = train_dataset['document'].str.replace('[^ㄱ-ㅎㅏ-ㅣ가-힣 ]', ' ',regex=True)
train_dataset

# 너무 짧은 단어를 제거(1글자 이하를 제거)
train_dataset['document'] = train_dataset['document'].apply(lambda x : ' '.join([token for token in x.split() if len(token)>1]))
train_dataset

# 전체 길이가 50자 이하이거나 전체 단어의 개수가 3개 이하인 데이터를 제거하기
train_dataset = train_dataset[train_dataset.document.apply(lambda x: len(str(x))>50 and len(str(x).split())>3)].reset_index(drop=True)
len(train_dataset)

train_dataset

!pip install konlpy

from konlpy.tag import Okt

# 불용어를 확인하고 불용어는 제거하기
stopwords = ['아', '휴', '아이구', '아이쿠', '아이고', '어', '나', '우리', '저희', '따라', '의해', '을', '를', '에', '의', '가', '으로', '로', '에게', '뿐이다', '의거하여', '근거하여', '입각하여', '기준으로', '예하면', '예를', '들면', '예를', '들자면', '저', '소인', '소생', '저희', '지말고', '하지마', '하지마라', '다른', '물론', '또한', '그리고', '비길수', '없다', '해서는', '안된다', '뿐만', '아니라', '만이', '아니다', '만은', '아니다', '막론하고', '관계없이', '그치지', '않다', '그러나', '그런데', '하지만', '든간에', '논하지', '않다', '따지지', '않다', '설사', '비록', '더라도', '아니면', '만', '못하다', '하는', '편이', '낫다', '불문하고', '향하여', '향해서', '향하다', '쪽으로', '틈타', '이용하여', '타다', '오르다', '제외하고', '이', '외에', '이', '밖에', '하여야', '비로소', '한다면', '몰라도', '외에도', '이곳', '여기', '부터', '기점으로', '따라서', '할', '생각이다', '하려고하다', '이리하여', '그리하여', '그렇게', '함으로써', '하지만', '일때', '할때', '앞에서', '중에서', '보는데서', '으로써', '로써', '까지', '해야한다', '일것이다', '반드시', '할줄알다', '할수있다', '할수있어', '임에', '틀림없다', '한다면', '등', '등등', '제', '겨우', '단지', '다만', '할뿐', '딩동', '댕그', '대해서', '대하여', '대하면', '훨씬', '얼마나', '얼마만큼', '얼마큼']

train_dataset = list(train_dataset['document'])
print(train_dataset)

okt = Okt()

tokenized_data = []
for sentence in train_dataset:
    tokenized_sentence = okt.morphs(sentence, stem=True) # 토큰화
    stopwords_removed_sentence = [word for word in tokenized_sentence if not word in stopwords] # 불용어 제거
    tokenized_data.append(stopwords_removed_sentence)

print(tokenized_data[0])

# 리뷰의 최대 길이와 리뷰의 평균 길이를 출력하기
print('리뷰의 최대 길이', max(len(review) for review in tokenized_data))
print('리뷰의 평균 길이', sum(map(len, tokenized_data))/len(tokenized_data))

3. 워드 임베딩 구축

from gensim.models import Word2Vec

embedding_dim = 100


model = Word2Vec(
    sentences = tokenized_data,
    vector_size = embedding_dim,
    window = 5,
    min_count = 5,
    workers = 4,
    sg = 0
)
# 임베딩 행렬의 크기
# 단어 사전에는 총 12381개의 단어가 존재하고, 각각의 단어는 미리 설정한 embedding_dim = 100  차원으로 구성되어있음\

model.wv.vectors.shape

word_vectors = model.wv
vocabs = list(word_vectors.index_to_key)
vocabs[:20]

for sim_word in model.wv.most_similar('영화'):
    print(sim_word)

for sim_word in model.wv.most_similar('좋다'):
    print(sim_word)

model.wv.similarity('좋다','괜찮다')

4. 워드 임베딩 시각화

import matplotlib.font_manager
import matplotlib.pyplot as plt

font_list = matplotlib.font_manager.findSystemFonts(fontpaths=None, fontext='ttf')
[matplotlib.font_manager.FontProperties(fname=font).get_name() for font in font_list if 'Nanum' in font]

plt.rc('font', family='NanumBarunGothic')

word_vector_list = [word_vectors[word] for word in vocabs]
word_vector_list[0]

import numpy as np
# PCA: 차원차원 축소 방식. 자주 이용되는방식이긴 하지만 군집의 변별력을 해친다는 단점
#PCA를 개선한 방법이 t-SNE 차원 축소 방식
from sklearn.manifold import TSNE

tsne = TSNE(n_components=2, learning_rate = 'auto', init='random')
transformed = tsne.fit_transform(np.array(word_vector_list))

x_axis_tsne = transformed[:,0]
y_axis_tsne = transformed[:,1]

print(x_axis_tsne)
print(y_axis_tsne)

def plot_tsne_graph(vocabs, x_axis, y_axis):
    plt.figure(figsize=(30, 30))
    plt.scatter(x_axis, y_axis, marker='o')
    for i, v in enumerate(vocabs):
        plt.annotate(v, xy=(x_axis[i], y_axis[i]))

plot_tsne_graph(vocabs, x_axis_tsne, y_axis_tsne)

5. TSNE 시각화 고도화

파이썬에서 제공하는 interactive visualization library인 Bokeh를 사용하여 시각화 고도화를 할 수 있음

tsne_df = pd.DataFrame(transformed, columns=['x_coord', 'y_coord'])
tsne_df

tsne_df['vocabs'] = vocabs
tsne_df

from bokeh.plotting import figure, show, output_notebook
from bokeh.models import HoverTool, ColumnDataSource
from bokeh.io import push_notebook
from bokeh.resources import INLINE
from bokeh.io import curdoc
# 한글 폰트 설정
import matplotlib.pyplot as plt
plt.rc('font', family='NanumGothic')
# Bokeh 출력 설정
output_notebook(resources=INLINE)
# prepare the data in a form suitable for bokeh.
plot_data = ColumnDataSource(tsne_df)
# create the plot and configure it
tsne_plot = figure(title='t-SNE Word Embeddings',
  width = 800,
  height = 800,
  active_scroll='wheel_zoom'
)
# add a hover tool to display words on roll-over
tsne_plot.add_tools( HoverTool(tooltips = '@vocabs') )
tsne_plot.circle(
    'x_coord', 'y_coord', source=plot_data,
    color='red', line_alpha=0.2, fill_alpha=0.1,
    size=10, hover_line_color='orange'
  )
# adjust visual elements of the plot
tsne_plot.xaxis.visible = False
tsne_plot.yaxis.visible = False
tsne_plot.grid.grid_line_color = None
tsne_plot.outline_line_color = None
# show time!
show(tsne_plot);

'자연어 처리(NLP)' 카테고리의 다른 글

7. cbow text classification (0)	2024.06.21
6. Rnn 기초 (0)	2024.06.21
4. 워드 임베딩 (2)	2024.06.17
3. 임베딩 (0)	2024.06.17
2. 자연어 처리 프로젝트 진행 순서 (0)	2024.06.17

AI개발자가 되기 위한 과정들

5. 워드임베딩 시각화

1. 네이버 영화 리뷰 데이터셋

2. 데이터 전처리

3. 워드 임베딩 구축

4. 워드 임베딩 시각화

'자연어 처리(NLP)' 카테고리의 다른 글

티스토리툴바

5. 워드임베딩 시각화

1. 네이버 영화 리뷰 데이터셋

2. 데이터 전처리

3. 워드 임베딩 구축

4. 워드 임베딩 시각화

'자연어 처리(NLP)' 카테고리의 다른 글

관련글

티스토리툴바