[딥러닝] 섹션6: Text Detection

2023.08.16 작성(https://sujungeee.github.io/posts/ai-DeepLearning-section6-1/)

※ 본 포스팅은 인프런 “차량 번호판 인식 프로젝트와 TensorFlow로 배우는 딥러닝 영상인식 올인원” 을 참고하여 작성하였습니다.

✅ Text Detection 문제 영역 소개

Text Detection: 이미지 내에 텍스트가 존재하는 영역의 위치 정보를 Bounding Box 로 찾는 문제 영역
- rotation angle 까지 고려하여 detection
- Bounding Box 모양이 정사각형으로 한정되지 않음
- (Object Detection 은 Bounding Box 모양이 정사각형)

✅ EAST(Efficient and Accuracy Scene Text detector)

EAST 의 구조
- Stem Layer(Feature extractor stem)원본 텍스트가 포함된 이미지 내에서 어떤 특징이 추출된 feature map 을 만들어주는 레이어
- Merging Branch작은 글자, 큰 글자를 모두 잘 찾을 수 있도록 feature 를 merging 하여 합성된 feature map 을 만들어주는 레이어⇒ 다양한 feature map 의 크기가 전부 합산된 feature map 형태가 feature-merging branch 에 들어오게됨(최상단)
- ⇒ 작은 크기의 feature map + 큰 크기의 feature map
- Output Layer두 가지 type(RBOX, QUAD) 중 하나을 택하여 score map 의 prediction 을 진행
  - RBOX밑 5개의 dimension vector 로 text 의 영역을 detection
  - → 사각형의 상하좌우 distance 값을 가지고 있는 color channel map 을 4개 만듦 + rotation angle
  - QUAD→ 8개 channel 로 text 의 영역을 detection
  - → 상하좌우 꼭짓점 각각의 x, y 좌표에 대한 차이 distance 를 만들어서
- score map: text 가 있는 영역에 대한 확신의 정도를 나타내는 binary mask map 을 예측
Loss Function
- L_s(score map 에 대한 Loss Function)정답 binary mask map 과 prediction mask map 의 차이를 계산
- L_g(geometry 에 대한 Loss Function)RBOX 혹은 QUAD 방식의 정답과 prediction 값의 차이를 계산
  - Intersection over Union(IoU) Metric두 개의 bounding box 간의 겹치는 정도를 0-1 (Normalization) 로 표현
  - rotation angle 의 정답과 prediction 값의 차이(손실 함수)를 계산
- 정답 bounding box 와 prediction bounding box 의 손실 함수를 바로 계산: scale 에 대한 가중치가 같게 곱하여짐
- ⇒ 같은 오차 값이어도 데이터셋의 크기에 따라 loss 비율이 다름을 고려하지 않음
- λ_g= 1 로 지정L_s 와 L_g 의 coefficient 를 같게 하여 동일한 가중치를 적용
L = L_s + λ_g*L_g
Balanced Cross-Entropy일반 크로스 엔트로피 함수 앞에 β 를 coefficient 로 두어 곱함
- 수식
  - 분자: 해당 sample 타입(positive: 작은 값, negative: 큰 값)→ negative example 의 경우 1-(큰 값) 이므로 가중치가 작게 적용
  - → positive example 의 경우 1-(작은 값) 이므로 가중치가 크게 적용
  - 분모: 전체 sample
⇒ negative example 이 많아지면 학습이 제대로 이루어지지 않음
- negative example: 한 장의 이미지 내에서 정답이 포함되지 않은 prediction 결과가 종종 생길 경우
- positive example: 한 장의 이미지 내에서 정답이 포함된 bounding box prediction 값이 종종 생길 경우
⇒ positive / negative example 의 보정을 위함
Precision, Recall, F1
- Precision: 정밀도는 검색된 결과들 중 관련 있는 것으로 분류된 결과물의 비율
- Recall: 재현율은 관련 있는 것으로 분류된 항목들 중 실제 검색된 항목들의 비율
- F1: Precision 과 Recall 을 한 번에 확인할 수 있는 Metric

✅ CRAFT(Character Region Awareness For Text detection)

CRAFT유연한 형태의 Bounding Box 로 Text 를 Detection 하는 모델
- 구성(output layer)
  - Region Score: localize individual character
  - → 단어, 문장 단위가 아닌 문자 단위로 text detection
  - Affinity Score: group each character into a single instance
  - → detection 된 문자들을 의미가 존재하는 단어, 문장의 단위로 묶음
  ⇒ 2 번의 prediction

'AI' 카테고리의 다른 글

[딥러닝] 섹션9: Optical Character Recognition (0)	2025.03.02
[딥러닝] 섹션6-2: CRAFT, EAST 실습 진행 (0)	2025.03.02
[딥러닝] 섹션4-2: RNN 모델 (0)	2025.03.02
[딥러닝] 섹션4-1: RNN 개념 (0)	2025.03.02
[딥러닝] 섹션3-2: Pre-Trained CNN(2) (0)	2025.03.02

✅ Text Detection 문제 영역 소개

✅ EAST(Efficient and Accuracy Scene Text detector)

✅ CRAFT(Character Region Awareness For Text detection)

'AI' 카테고리의 다른 글

티스토리툴바