경제,사회,문화 그리고 낭만 여행

데이터 라벨러 심화 과정 -후 편

아폴론b 2023. 5. 23. 15:40

데이터 라벨러 심화 과정--후 편

목차

1.텍스트 수입검수

2.분류판별 검수 정리

ㄱ)이미지

ㄴ)텍스트

ㄷ)바운딩

ㄹ)o c r

1.텍스트 수입검수: 문자가 사용되는 인공지능 개발을 위해 텍스트 데이터 수집

반려사유

ㄱ)배려심: 답변은 고민에 적합하고 배려심이 있어아한다. 이야기에 귀를 기울이며 진솔한 말을 건네는 가족이나,친구,선후배가 해줄법한 진심어린 답변 이어야한다.

ㄴ)고민을 말한 사람: 답변은 고민을 말한 사람에 관한 내용이어야 한다. 저, 나, 내등 대명사가 포함되지 않더라도 답변 내용이 고민을 듣는 사람에 관한 내용이면 안된다.

ㄷ)고민과 감정: 답변은 너무 짧고 일반적인 대답이 아닌 고민과 감정에 관련 되어야 한다. 재질문 재진술 등도 괜찬다.

2.분류 판별 검수 정리

ㄱ)이미지: 작업기준을 항상 중요하게 생각해야한다.

옷의 종류로는 나시, 맨투맨, 셔츠, 스웨터, 원피스, 재킷, 컴푸슈트, 티셔츠등으로 나누어지고 세부적으로 표현 하자면 나시는 소매가 없는 얇은 상의를 말한다. 맨투맨은면소재의 라운드가 있는 긴 소매나 반 소매 상의를 말한다. 셔츠는 칼라가 있는 가벼운 상의를 말하며, 스웨터는 털실로 두툼하게 짠 상의를 기준 삼는다. 원피스는 상의와 치마가 한벌인 치마인 옷을 말한다. 재킷은 앞이 터지고 소매가 달린 상의를 말한다. 점프슈트는 상의와 바지가 하나로 붙어있는 형태의 옷을 말한다. 티셔츠는 T자모양으로 생긴 긴소매 또는 민소매의 옷을 말한다. 

옷의 기준으로 긴소매는 소매가 팔꿈치보다 아래쪽에 위치해야 하며, 민소매는 소매가 없는 상태를 말한다. 반소매는 소매가 팔꿈치보다 위쪽에 위치해 있는것을 말한다. 라운드는 동그란 곡선형태를 가지고 있는것을 말하며, 브이넥은 V자형태의 옷을 말한다. 칼라는 칼라가 덧붙여져 있는 형태를 말하고, 터틀넥은 목을 덮고 있는 형태를 말한다. 이상 옷의 종류대로 작업기준을 항상 숙지하고 기준에 맞는 작업을 수행 해야한다.

옷의 패턴을 살펴보면 골지무늬라고 해서 실의 짜임새가 세로방향 인것을 말한다. 단색이란 무늬 없이 한가지 색을 가지고 있는 상태를 말한다. 로고는 옷의 특정 부분에 작게 그림이나 문자가 있는 상태를 말한다. 스트라이프는 가로 또는 세로의 막대 모양의 줄무늬가 있는 상태를 말한다. 청이란 푸른색의 질긴 면직물로 만들어진 상의를 말한다.체크는 바둑판 모양의 무늬 또는 그무늬가 있는 상의를 말한다. 프린트는 로고, 그림등이 꽃무늬를 포함해서 크게 프린트된 상의를 말한다.

옷의 장식으로는 단추가 달려 있는것과 주머니가 보이는 형태의 옷및, 허리끈1 이라고해서 허리끈이 있는 형태의 옷을 말한다. 허리끈2는 허리띠 모양의 장식이 달린 옷을 말한다. 장식 없음의 표시는 장식이 없는 옷의 상태를 말한다. 

ㄴ)텍스트의  작업 기준

사건개요: 지법, 형사, 판독, 혐의 피의자, 등 형량을 모두 포함한 단락전체

판시: " oo(누구 누구) 판사는 ~" 또는  "재판부는~ "이라고 쓰인 단락 전체

사건상세: 사건개요와 판시를 제외한 나머지, 등의 테깅이 정확한지 검수를 한다.

 ㄷ)바운딩: 이미지에서 추출하고자 하는 대상을 네모난 박스로 표시하는 라벨링 기법이다.

작업기준

바운딩 대상: 각오브젝트를 대상으로 한다. 강아지는 실제 강아지가 바운딩 대상이다. 특히 강아지를 바운딩을 할때 잔털까지 포함해야한다. 사람은 거울에 비친 모습이나 그림이 아닌 실제 사람의 모습만을 바운딩한다. 식기도 강아지용을 말하며 밥그릇을 모두 포함한다. 사료가 담겨져있지않은 식기 혹은 물그릇도 바운딩하여 식기로 태깅한다. 다만 사료를 보관하는 통응 바운딩 대상에서 제외한다.

바운딩의 범위: 바운딩은 이미지를 확대하여 타이트 하게 작업을 한다. 

눈으로 확인할수있는 부분 까지가 바운딩 대상이다.

대상이 조금이라도 나오면 바운딩 대상이다.

강아지의 경우 잔털도 포함하여 바운딩한다.

식기 전체가 아닌 밥그릇 윗면과 물그릇 윗면을 바운딩한다.

흔들리거나 흐릿한 부분은 추측해서 바운딩하고 개체가 가려지거나 잘린 부분은 보이는 부분만 바운딩한다.

ㄹ)o c r: 영수증의 영상 이미지 상의 텍스트를 기계가 읽을수 있는 문자로 변환하는 라벨링 작업을 말한다.

이상으로 심화과정의 모든 교육내용을 기록해 보았는데 이러한 교육을 마치고 인공지능 2급 자격증을 취득해보는 것을 권장 합니다. 그러면 기업체에서의 일감이 더욱 다양해 지는 것을 느낄 수 있습니다. 데이터 라벨링을 배우며 수익을 내려고 하는 모든 분들께 조금이나마 도움이 되었으면 좋겠습니다.감사합니다.