머신러닝 & 딥러닝

[OpenVINO] CVAT

O_oz 2024. 1. 19. 08:23
반응형

딥러닝 트레이닝을 위해서는 데이터를 전처리하는 과정이 필수적이다

전처리 과정은 데이터셋을 만드는 것으로, 데이터 수집부터 크롭, 라벨링 작업 등을 포함한다

 

데이터 수집이 완료되었다면 수집한 데이터를 분류하는 라벨링 작업을 해야 하는데,

라벨링은 어떠한 딥러닝을 진행하는지에 따라 방법이 나뉘어 진다

 

Classification의 경우에는 폴더별로 데이터를 보관하여 Annotation을 하고 Detection과 Segmentation의 경우에는 xml, txt, json 등의 메타 파일을 사용해서 Annotation 한다

Annotation한 json 파일은 위와 같은 형태를 띈다

사용자가 정한 카테고리 정보, 이미지들의 정보, 각 이미지별로 Annotation한 정보들을 담는다

 

CVAT은 Computer Vision Annotation Tool의 약자로 Annotation 할때 필요한 메타 파일 생성을 도와주는 툴이다

 

https://www.cvat.ai/

 

CVAT

Powerfull and efficient open source data annotation platform for computer vision datasets

www.cvat.ai

해당 링크로 들어가서 로그인하면 CVAT에서 제공해주는 무료 툴을 사용할 수 있다

무료긴 하지만 사진 갯수에 제한도 없고 Annotatio한 json파일을 생성할 수 있기 때문에 무료 버전을 사용해도 딥러닝엔 문제되진 않는다

 

사용 방법

상단에 Try for free를 선택하면 워크스페이스로 들어갈 수 있다

 

1. 프로젝트 & Task 생성

    - 왼쪽 상단의 Projects

 

    - Create a new project

 

    - 프로젝트 이름 입력, Add label 클릭

 

    - label 이름과 색상을 선택 후 Continue → 라벨링하고 싶은 만큼 라벨 생성 (Continue)→다 완료되면 Submit & Open

 

    - 프로젝트에서 하단 Create a new task

 

    - task 이름 입력, 데이터셋 업로드 → Submit & Open

 

    - 하단 Job 클릭

 

2. Contouring

    - 왼쪽에서 contour 모양 선택

 

    - 객체 모양에 맞게 contouring

    - 오른쪽 작업 창에서 contour 객체의 라벨 변경 가능

 

3. Export

    - 모든 작업을 완료한 후, 왼쪽 상단에서 Export job dataset

 

    - 원하는 format 선택 → OK

 

작업을 완료하면 Annotation 정보가 들어 있는 json 파일을 확인할 수 있다


라벨링 팁

 

1. CVAT 이후로 Datumaro, OTX를 사용해서 모델 트레이닝을 하면서 몇 가지 주의할 점이 있다는 걸 느꼈다

먼저 데이터셋의 형식을 최대한 통일할 것, png와 jpeg은 괜찮은데 jpg는 Dataumao에서 인식을 못 한다

 

2. 라벨링 과정에서 데이터셋이 너무 많아 혼자하기 부담스럽다면 여러 인원이 분담해서 해도 되긴 하는데, 각각 생성한 json 파일을 직접 통합하는 과정을 거쳐야하고 이미지 파일 또한 통합한 json 파일에 맞춰서 준비해야 한다

 

3. 라벨링 데이터를 추가하는 것은 기존 task에 작업한 json 파일을 로드하고 추가로 작업할 데이터 셋을 추가한 후 작업을 계속 이어나가면 된다

 

 

반응형

'머신러닝 & 딥러닝' 카테고리의 다른 글

[OpenVINO] OTX - Classification  (0) 2024.01.22
[OpenVINO] OTX - Detection  (0) 2024.01.21
[OpenVINO] Datumaro  (0) 2024.01.20
AI 머신러닝에 대하여  (0) 2023.12.19