본문 바로가기

전체 글169

4. Open CV3 1. 관심 영역(ROI, Region of Interest)영상 내에서 관심이 있는 영역cv2.selectROI()import cv2img1 = cv2.imread('./sun.jpg')# x, y, w, hx= 182y = 21w = 122h = 112roi = img1[y: y+h, x: x+w]img2 = roi.copy()cv2.imshow("img1", img1)cv2.imshow("roi", img2)cv2.waitKey()# 원하는 영역을 박스로 그리면 해당 부분이 별도의 영상으로 출력import cv2oldx = oldy = w = h = 0color = (255, 0, 0)img_copy = NoneisDrag = Falsedef on_mouse(event, x, y, flags, par.. 2024. 7. 8.
3. Open CV2 1. 키보드 이벤트cv2.waitKey(delay)delay: 밀리초 단위 대기(0보다 작거나 같으면 무한정 기다림. 기본값은 0)반환값: 눌려진 키의 아스키 코드값(ESC: 27, ENTER: 13, TAB: 9, SPACE:' )import cv2img = cv2.imread('dog.bmp')cv2.imshow('img',img)# 화면 띄우고 키가 들어오기 전까지 띄워짐# 매개변수가 주어지지 않을 때 무한정 기다림# cv2.waitKey()while True: keyvalue = cv2.waitKey() # ord(): 아스키코드값을 리턴 if keyvalue == ord('i') or keyvalue == ord('I'): img = ~img # 색상값을 반전 .. 2024. 7. 8.
2. Open CV1 1. 영상(Image)픽셀이 바둑판 모양의 격자에 나열되어 있는 형태픽셀: 이미지를 구성하는 가장 작은 단위2차원 행렬 1-1.  그레이스케일 영상흑백 사진처럼 색상 정보가 없는 여상밝기 정보만으로 구성된 영상밝기 정보는 256단계로 표현(0 ~ 255)8bit에 저장 = 1byte가로크기 * 세로크기 = 이미지 용량예) 28* 28 = 784 bytes1-2.  트루컬러 영상컬러 사진처럼 색상 정보를 가지고 있기 때문에 다양한 색상을 표현할 수 있는 영상밝기 정보만으로 구성된 영상밝기 정보는 256단계로 표현(0 ~ 255)8bit에 저장 = 1byte가로크기 * 세로크기 = 이미지 용량예) 28* 28 = 784 bytes1-3. 영상 파일 형식bmp픽셀 데이터를 압축하지 않고 그대로 저장용량이 매우.. 2024. 7. 8.
1. 컴퓨터비전(CV) 1. 컴퓨터 비전이란인공지능(AI)의 한 분야로, 컴퓨터와 시스템을 통해 디지털 이미지, 비디오 및 기타 시각적 입력에서 의미 있는 정보를 추출한 다음 이러한 정보를 바탕으로 작업을 실행하고 추천할 수 있게 함AI -> 생각컴퓨터 비전 -> 보기, 관찰, 이해2. 데이터셋컴퓨터 비전 모델은 데이터 모음(일반적으로 이미지, 비디오 또는 기타 시각적 정보)을 학습데이터셋은 모델의 성능을 결정하는데 중요(양과 품질)데이터셋의 크기는 모델이 학습 중에 본 예제의 수를 나타내기 때문에 중요데이터셋의 품질은 주석이 잘못 지정되거나 레이블 잘못 저장된 경우 모델의 성능에 많은 부정적 영향을 줄 수 있음다양한 개체 변형의 존재, 조명 조건, 배경 등을 포함한 데이터셋의 다양성도 모델의 견고성을 보장하는 데 중요2-1... 2024. 7. 8.
[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 이 논문은 "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"이라는 제목의 논문입니다.작성자는 Jacob Devlin, Kenton Lee, Kristina Toutanova, 그리고 Ming-Wei Chang 이며, 2018년에 발표된 해당 논문은 왼쪽과 오른쪽 문맥을 모두 고려하는 양방향의 인코더를 가진 사전학습 모형, BERT를 제시합니다.Abstract이 논문의 주요 내용을 요약하면 다음과 같습니다:BERT(Bidirectional Encoder Representations from Transformers)라는 새로운 언어 표현 모델을 소개합니다.BERT는 모든 계층에서 좌우 문맥을 동시에 고려하여 레.. 2024. 7. 8.
[논문 리뷰] Attention Is All You Need 이 논문은 "Attention Is All You Need"이라는 제목의 논문입니다.작성자는 Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin, 그리고 Ashishi Vaswani 이, 트랜스포머 구조를 처음 발표한 구글브레인의 논문이다. Abstract기존의 주요 시퀀스 변환 모델들은 복잡한 순환 신경망(RNN)이나 합성곱 신경망(CNN)을 기반으로 하며, 인코더와 디코더를 포함합니다. 최고 성능의 모델들은 인코더와 디코더를 attention mechanism을 통해 연결합니다. 논문은 이러한 복잡성을 제거하고, 오직 attention 메커니즘만을 사용한 새로운 간단.. 2024. 7. 8.