Actions
개발 #532
완료됨[기능] 키워드 추출 관련 (OCR, 데몬 ..)
설명
1. URL 인 경우¶
- 해당 URL의 og tag (open graph) 이용해서 이미지 표시 (이미지 저장 아님)
- 사이트 전체 텍스트 크롤링하여 키워드 추출 (형태소 단위 아님. 단순 일치)
2. 수동 이미지 추가하는 경우¶
- Google Cloud Vision API 데몬 (OCR) 사용하여 키워드 추출
- 추출이 영어밖에 안된다면 한글로 번역하는 구글 API 추가 필요
3. URL, 이미지에서 추출된 키워드 저장 방법¶
- 전문가들이 등록 한 전체 키워드(전문분야)와 매칭된 단어들을 히든 키워드로 저장
- 히든여부 컬럼 필요
- 즉, 사용자에게 노출되지 않음
4. Ver.1에서 사용하던 URL 스크린샷 데몬은 사용하지 않음¶
안장우이(가) 3년 이상 전에 변경
<URL>
- 텍스트 크롤링
- og태그 (해당 사이트 타임아웃 예외처리 필수)
<URL + 이미지첨부>
- 텍스트 크롤링
- Google Cloud Vision
- og태그 미처리 (기존 데이터는 flag 처리)
Case 1
조건 : URL만 입력 후 등록
결과 : 텍스트 크롤링 + og태그
Case 2
조건 : URL + 이미지첨부 후 등록
결과 : 텍스트 크롤링 + Google Cloud Vision
Case 3
조건 : URL만 있는 포스팅 수정 > 이미지 첨부
결과 : 기존 og태그는 무시되고, 첨부한 이미지 Google Cloud Vision 우선
Case 4
조건 : URL + 이미지첨부 포스팅 수정 > 모든 이미지 삭제
결과 : og태그
* URL이 수정되는 경우도 있을텐데, 간단하게 URL이 있는 포스팅은 등록/수정 전부 텍스트 크롤링은 기본으로 작동시킨다.
* og태그, 텍스트 크롤링 시 해당 사이트 타임아웃 예외처리 필수
Actions