일별 파이프라인
모든 시각은 UTC. 평일(월–금)에만 실행되며, 평일 KST 09:00–09:13에 끝난다.
scraper
소스 → DB
00:00
scrap-site
DB → /data.json + /index.html
00:05
analyze
data.json → insights/
00:10
wiki
insights → /wiki/*.md
00:10+
notify
매칭 알림 → Slack
00:13
6개 소스
각 source 어댑터는 grantsping_scraper.sources.<name> 에 정의되며, 모두 동일한 표준 8필드(공고명·소관부처·사업수행기관·지원분야·신청시작/종료일자·등록일자·공고상세URL)로 정규화된 뒤 raw_data.grants_queue 테이블에 적재된다.
bizinfo
bizinfo (기업마당)
www.bizinfo.go.kr
GET (.xlsx)
→
pandas read_excel
→
diff & save
→
DB · grants_queue
kstartup
k-startup (창업진흥원)
www.k-startup.go.kr
리스트 N pages
→
상세 N pages
→
BS4 parse
→
diff & save
→
DB · grants_queue
jbba
jbba (전북경제통상진흥원)
www.jbba.kr
리스트 (신규 페이지만)
→
상세 (신규 wr_id만)
→
BS4 parse
→
diff & save
→
DB · grants_queue
gwep
gwep (강원경제진흥원)
gwep.or.kr
리스트 (신규 페이지만)
→
BS4 parse
→
diff & save
→
DB · grants_queue
mohw
mohw (보건복지부)
www.mohw.go.kr
리스트 (신규 페이지만)
→
BS4 parse + 분류 필터
→
diff & save
→
DB · grants_queue
kocca
kocca (한국콘텐츠진흥원)
www.kocca.kr
리스트 (신규 페이지만)
→
BS4 parse + 종료사업 제외
→
diff & save
→
DB · grants_queue
운영 노트. default
SOURCES="bizinfo,kstartup,jbba,gwep,mohw,kocca" 로 6개 모두 매일 cron 실행. jbba / gwep / mohw / kocca 는 게시판이라 과거 게시물까지 페이지네이션되므로, __main__.py 의 INCREMENTAL_SOURCES 에 등록되어 DB에 이미 있는 ext_id 집합을 주입받고, 첫 page가 모두 known이면 즉시 종료한다 (cold start = 전체 backfill, daily run ≈ 1 page).