OCR로 영수증 데이터 가져와서 식품 데이터 분류하기(분류 모델 만들기) + Trouble shooting
·
Dev
Tool네이버 OCR General 버전python BeautifulSoup, SeleniumSpring boot 2.7.7AWS Lambda, API GatewayDockerOCR로 영수증에서 텍스트 추출하기Naver에서는 영수증에 특화된 OCR을 제공하지만 너무 비싸서 General 버전의 OCR을 이용해서 텍스트를 추출했습니다.상품 이름 외의 데이터는 정규식을 이용하거나 특정 문자를 필터링해서 List형태로 추출해냈습니다.)분류 모델 만들기분류모델을 만들기 위해서는 dataset이 필요해서 사용자들이 자주 사용할 마트를 선정해서 크롤링을 통해 데이터를 15000개 수집했습니다.전국통합식품영양성분표준데이터에 있는 식품 데이터를 사용했습니다.모델은 scikit-learn의 CountVectorizer ..