토큰화1 2. 자연어 처리 프로젝트 진행 순서 1. 문제 정의문제에 대한 솔루션이 있어야 하고 명확하고 구체적일수록 알맞는 자연어처리 기술을 찾을 수 있음 2. 데이터 수집 및 분석다양한 학습데이터를 수집하기 위해 공개된 데이터셋, 유로 데이터셋 또는 웹 크롤링을 사용하여 수집https://paperswithcode.com/datasets?mod=texts&task=question-answering웹크롤링을 통해 데이터를 수집했다면 EDA(탐색적 데이터 분석) 및 분석 작업을 통해 데이터를 철저하게 검증해야 함레이블이 필요하다면 수집한 데이터에 레이블을 붙여야 함 3. 데이터 전처리학습에 용이하게 데이터를 수정/보완하는 작업자연어처리 진행 과정에서 데이터가 차지하는 비중이 매우 높기 때문에 데이터를 수집하고 전처리하는 과정이 매우 중요함토큰화(Tok.. 2024. 6. 17. 이전 1 다음