전국 카페 매장과 주요 브랜드의 공간 분포를 지도 위에서 확인한다.
서울시 카페 상권별 매출 규모와 고매출 구간을 비교한다.
상권 프로파일링 변수를 활용해 매출 상위권 여부의 영향요인을 탐색한다.
Portfolio lens: 단순 EDA가 아니라, 공개 데이터 수집 → 공간 데이터 처리 → 인터랙티브 시각화 → 예측모형 검증까지 이어지는 end-to-end 분석 사례로 재구성.
공공데이터포털 제공. 2018년 9월 기준 전국 상가업소 데이터에서 커피전문점/카페/다방 업종을 추출했다.
서울열린데이터광장 제공. 상권명과 연령대별 매출액 등 카페 상권 특성을 분석에 활용했다.
총 카페매장 수는 85,528개이며, 시각화 샘플 5천 건을 지도화했다. 브랜드 매장은 대도시 중심으로 분포하는 경향을 확인할 수 있다.
전국 단위 확산 정도와 지역 공백을 확인한다.
수도권 집중도가 높은 브랜드와 전국 분산형 브랜드를 비교한다.
출점전략, 브랜드 포지셔닝, 신규 진입 지역 탐색으로 연결한다.
커버리지가 가장 넓은 브랜드는 카페베네로, 백령도까지 확인된다. 가장 멀리 있는 카페로는 독도사랑카페가 식별되었다.
수도권 영역으로 확대해 브랜드별 점포 밀집도와 권역별 커버리지 차이를 확인한다.
상권별 매출액을 지도 위에 배치해 공간적 집중도를 확인한다.
상위 1%, 5억 이상 등 해석 가능한 기준으로 고매출 상권을 분리한다.
상권 변수로 매출 상위 10% 여부를 설명하는 영향요인을 탐색한다.
매출액 분위값을 기준으로 상위권 상권을 구분했다.
임계값 기반 필터링으로 고매출 상권을 별도 추출하고, 입지·유동·경쟁 환경 해석의 기준점으로 활용한다.
타깃을 매출액 상위 10% 여부로 설정해 분류 문제로 전환.
상관계수 0.8 이상 변수 제거로 중복 설명 변수를 축소.
상위권 타깃의 class imbalance를 고려해 Accuracy 대신 Kappa를 활용.
Why it looks more professional: 코드를 장표에 길게 노출하기보다, 모델링 의사결정 — 타깃 정의, 전처리, 검증지표 — 중심으로 재정리했다.
상위 변수 자체보다, 어떤 상권 속성이 고매출 가능성과 연결되는지 해석하는 것이 핵심이다.
포트폴리오에서는 결과표보다 “왜 이 변수가 의미 있는지”를 설명하는 방식이 더 설득력 있다.