티스토리 뷰

- 패키지마다 의존성이 다르기 때문에 가상환경 생성해서 새로 하는 것이 좋음

 

1. easy OCR : https://github.com/JaidedAI/EasyOCR/blob/master/examples/easyocr_framework.jpeg

- 성능을 높이기 위해 재학습 시키거나 재학습한 모델을 사용하는 것이 좋음

 

2. CRAFT : Text Detection 단계에서 사용하는 모델, 문자 영역을 감지

- 텍스트가 위치한 영역의 바운딩 박스를 반환하며, 이후 단계에서 텍스트를 인식(Recognition)하는데 도움을 준다

 

3. 패키지 설치

pip install easyocr

 

4. 사용: Task에 따라 데이터/모델만 갈아 끼우면 됨

# step1: 모듈 불러오기
import easyocr

# step2: 추론기 만들기
reader = easyocr.Reader(['ko','en']) # this needs to run only once to load the model into memory

# ste3: 데이터 불러오기
data = 'korean.png'

# step4: 추론하기
# detail은 0 : 위치정보 필요 없을 때
result = reader.readtext(data, detail=0)
print(result)
# step5: 후처리 post processing (예: pdf에서 개인정보 찾기)
# if dddd = "주민등록등본":

 

5. recognition 따로 학습 시키고 싶다면: AI 허브 데이터 활용

- https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=&topMenu=&aihubDataSe=data&dataSetSn=632

 

 

 

반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2025/01   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함