오늘은 기술나눔활동을 하는 날이다.
고경력과학기술인 멘토링과 데이터 라벨링 두개의 활동 중 나는 데이터 라벨링을 선택하여 오늘 하루동안 활동하였다.
데이터 라벨링 과정에서는 유클리드 소프트의 현직자 분들이 직접 오셔서 다양한 이야기를 해주셨고, 현직자의 입장에서 데이터를 다루는 방법에 대해 알려주시는 유익한 시간이였다.
그럼 오늘 하루 학습한 내용을 정리해보겠다.
데이터 처리과정
데이터를 처리하는 과정은 총 5가지로 이루어져 있다.
- 원시 데이터: 수집된 원래 형태의 데이터.
- 원천 데이터: 중복 데이터와 결측 데이터가 처리된 데이터.
- 라벨링 데이터: 라벨링이 완료되어 학습에 사용할 준비가 된 데이터.
- 기계 학습: 라벨링된 데이터를 사용하여 인공지능 모델을 학습.
- 인공지능 개발: 학습된 모델을 사용하여 AI 시스템을 개발.
크게 5가지로 나누어지며 각 과정마다 내용은 위와 같다.
데이터 처리단계
데이터를 처리하는 과정도 총 5가지이다.
과정은 아래와 같다.
- 데이터 설계/준비
- 데이터 수집
- 데이터 정제 (원천 데이터)
- 데이터 가공 (라벨링 데이터)
- 데이터 검증 (학습 모델)
AI 학습용 데이터 구축 사업
최근 코로나를 겪으면서 경기가 침체되고 있다.
경기가 침체됨에 따라 실업률은 높아지고 있으며 이를 극복하기 위해 디지털뉴딜을 통해 다양한 데이터 수집 일자리를 창출해야 한다.
미국에서 처음 시작된 뉴딜 정책은 다양한 일자리 창출과 경재 성장을 이루어내 침체된 경제를 끌어올린 성공적인 사업이었다.
우리나라도 이를 밴치마킹하여 침체된 경기를 풀어줄 필요가 있다.
그렇기에 양질의 AI 학습 데이터의 중요성이 대두되고 있다.
AI 활용 사례
AI 데이터의 활용 사례는 과일 수확용 인공지능 드론, 인공지능 CCTV, 동물 언어 해독 번역기 등등에 활용할 수 있다.
데이터 유형
데이터는 총 3가지 유형으로 나뉘며 컴퓨터 비전, 자연어 처리, 멀티모달로 구분할 수 있다.
- 컴퓨터 비전: 시각적 정보 처리.
- 자연어 처리: 언어 분석 및 처리.
- 멀티모델: 텍스트, 이미지, 음성 등 다양한 데이터 결합.
데이터 라벨링 기법
데이터를 라벨링 하는 방법도 총 6가지 방법이 존재한다.
- Bounding Box: 객체에 네모 박스 그리기.
- Segmentation: 객체의 모양에 따라 선 그리기.
- Keypoints: 객체의 중요 특징 지정.
- TQA (Textual Question Answering): 본문에서 질문과 답 생성.
- VQA (Visual Question Answering): 이미지 속 콘텐츠에 대한 질문과 답 생성.
- Semantic: 이미지 속 객체 구분 및 색칠.
위 방법으로 데이터를 라벨링 과정을 수행할 수 있다.
RFP (Request for Proposal)
RFP는 제안 요청서로 발주자가 특정 과제의 수행에 필요한 요구사항을 체계적으로 정리하여 제시함으로써 제안자가 제안서를 작성하는데 도움을 주기 위한 문서이다.
REF에는 주로 4가지 목차로 설명되어 있다.
- 데이터 개요
- 데이터 구축 목적
- 데이터 구축 방법
- 데이터 규모
REF를 활용한 사업 제안서 만들어보기
오늘 강연을 맡아주신 과장님이 내주신 처음이자 마지막 과제이다.
위 과제는 팀으로 이루어지며, 나는 발표를 맡게 되었다.
우리팀은 지능형 스마트팜 토마토 데이터를 맡게 되었다.
각 데이터 수집부터 분석 및 라벨링 수익 모델까지 제안서 형태로 만들어서 발표하는게 목표다.
처음 해보기에 시간도 오래 걸렸지만, 제안서의 방향을 쉽게 설정하지 못해 더욱 어려움을 겪었었다.
아래는 내가 발표하기 위해 만들었던 스크립트이다.
저희는 재배되는 토마토의 생육 상태를 진단하고, 최적의 생육 상태로 유지하기 위한 센서 데이터를 분석하려고 합니다.
수집 단계에서 토마토 생산량이 높은 도시와의 협약을 통해 여러 토마토 농가에서 서로 다른 토마토 종자 간 데이터들을 수집하려고 합니다. 재배작기 동안 매주 9개 이상토마토의 이미지와 온실 안의 병해충에 대한 이미지들을 수집 할 예정입니다.
또한 토마토와 관련되지 않은 다른 잡초 등의 이미지와 작물에 피해를 주지 않는 벌레에 대해 전문 검수 인력을 통해 데이터를 정제하려고 합니다.
생육 단계와 이미지는 바운딩 박스로 가공하였고, 해당하는 병해들은 잎, 줄기, 열매에 증상이 나타나기 때문에 라벨링 기법 중 Segmentation기법이 적합하기에 상황에 맞는 구분 방법을 적절하게 사용했습니다.
데이터 검수 과정에서는 수동작업에서부터 3차작업 후 최종 전달하는 과정을 거칠 예정이며, 데이터에 적절한 모델을 구축하여 최종적으로는 가공된 데이터를 통해 병해충의 유무를 분류하거나, 특정 병해충이 발생할 확률을 예측하는 모델을 구축할 수 있습니다.
위 발표를 통해 REF를 어떻게 활용해야 하는지 알게 되었고, 사업 제안서라는 것을 처음 작성해보게 되었다.
발표를 마치고 우리 조의 발표가 좋은 분석을 했다고 칭찬을 받았다.
열심히 준비했었고 좋은 결과를 만들어 낼 수 있어서 뿌듯했다.
'Python > 데이터분석(ABC 부트캠프)' 카테고리의 다른 글
[30일차] ABC 부트캠프 / 비즈니스 모델 (0) | 2024.08.04 |
---|---|
[29일차] ABC 부트캠프 / 제 3회 ESG Day (2) | 2024.08.04 |
[27일차] ABC 부트캠프 / NVIDIA 트랜스포머 기반 자연어 처리 애플리케이션 구축 과정 (0) | 2024.08.04 |
[26일차] ABC 부트캠프 / NVIDIA 딥러닝 기초 과정 (0) | 2024.08.04 |
[25일차] ABC 부트캠프 / RNN (0) | 2024.07.28 |