top of page
  • 작성자 사진Dong SHIN

[Python] 데이터 딥러닝 교육 & 프로젝트 (OCR)

최종 수정일: 2021년 11월 22일

엘리스 아카데미에서

5주간 온&오프라인에서 데이터 딥러닝 교육과 파이썬 교육을 병행한 뒤


개인 프로젝트를 진행.


---------------------------



도와줘,공부 Shin lyckabc@gmail.com 도와줄게 공부(Feat.OCR) 2020년 08월 24일 ~ 2020년 10월 21일

개요 틈새공부를 도와줄 프로그램이 필요했습니다. 그래서, 건축기사 기출문제 데이터를 수집하여 간단한 기출문제를 만들어보았습니다.

목표

  • 기출문제 PDF데이터를 텍스트로 불러오기 - OCR

  • 불러온 데이터를 Flash cards 형태로 구분하기

  • 정답률에 따라 출제빈도 나누기

설명

  • Terract-py를 이용하여 PDF를 텍스트화 (OCR )

  • 데이터 분류 - 나누기, 묶기( 번호 , 질문 , 항목, 답안)

  • Flash card 형식 만들기

마일스톤 OCR (Optical Character Recognition) - PDF to TEXT 한 기사과목에 들어가는 데이터(기출문제)를 일일이 타이핑 하기에는 1년 400문제 *최소 10 개년 = 4천 이라는 시간이 들어가게되어, 딥러닝기반 OCR이라는 방법을 사용하였다. 사용 된 OCR기법은 python언어를 이용한 pytesseract를 사용하였다.

개선할 점

  • 데이터 인식 정확도 증가 - 한글 학습 증가 (ocr kor_github참고)

  • 데이터양 증가 - split image(PIL 패키지)

  • 랜덤 항목

  • 정답률에 따른 출제빈도 나누기






조회수 36회댓글 0개

최근 게시물

전체 보기

Comments


bottom of page