고객 사례
800만+ 레코드, 7개 레거시 시스템, 데이터 손실 0
800만+ 레코드 전반에서 데이터 손실 없이 완료한 엔터프라이즈 제약 플랫폼 마이그레이션
문제
Sanofi의 영업 운영은 유럽과 APAC에 걸친 7개 레거시 CRM 및 데이터 시스템 위에서 돌아갔습니다. 800만+ 레코드에 중복 식별자, 구조적 불일치, 이력 공백이 섞여 있었습니다. 7개 중 3개 시스템은 API가 없었습니다. 표준 대량 마이그레이션 방식이었다면 수천 건의 검증 실패와 제약 사업자로서 받아들일 수 없는 규제 노출을 낳았을 것입니다.
진행한 작업
어떤 추출도 시작하기 전에 표준 데이터 모델을 설계하고 컴플라이언스, 법무, IT가 승인했습니다. 맞춤 커넥터가 API 없는 시스템에서 데이터를 추출했습니다. 중복 제거, 보강, 값 매핑 과정에서 적재 전에 34만 건의 중복과 8만 9천 건의 불일치를 해결했습니다. 마이그레이션은 무관용 중단 기준을 적용한 적재-검증-정합 단위로 진행했습니다.
한눈에 보기
- 고객사
- Sanofi
- 산업
- 생명과학
- 프로젝트
- 6개월
- 담당 역할
- Lead Solution Architect, 마이그레이션 및 데이터 무결성
- Salesforce 클라우드
- Sales Cloud · Service Cloud
- 성과
- 0 데이터 손실 사고
Before / After
- 유럽과 APAC에 걸친 7개의 개별 CRM 및 데이터 시스템.
- 표준 스키마 없이 중복 식별자를 가진 800만+ 레코드.
- 잠재 중복 34만 건, 불일치 8만 9천 건, 필수 항목 누락 레코드 1만 2천 건.
- API 접근이 불가능한 3개 소스 시스템.
- 정합 프레임워크도, 규제 기관 검토용 감사 추적도 없음.
- 하나로 통합한 Salesforce 플랫폼, 7개 레거시 시스템 폐기.
- 표준 모델 아래의 800만+ 레코드, 엔터티별 담당자 지정.
- 847건은 사람이 검토하고 나머지는 기준을 기록하며 자동 해결.
- 맞춤 커넥터와 검증 스위트를 재사용 가능한 자산으로 패키징.
- 전체 800만+ 레코드에서 소스-타깃 정합 100%.
상황
Sanofi의 유럽 및 APAC 영업 운영은 10년에 걸친 인수, 지역별 구축, 끝내 완료되지 못한 플랫폼 마이그레이션을 거치며 7개의 레거시 CRM 및 데이터 시스템을 쌓아 왔습니다. 고객과 HCP(의료 전문가) 데이터는 파편으로 흩어져 있었습니다. 일부는 노후화된 온프레미스 시스템에, 일부는 지역별 Salesforce 샌드박스에, 일부는 한 번도 정식화되지 않은 스프레드시트 기반 프로세스에 남아 있었습니다.
과제는 모든 영업 데이터를 하나의 Salesforce 플랫폼으로 통합하고, 7개 레거시 시스템을 폐기하되, 데이터 손실을 단 한 건도 허용하지 않는 것이었습니다. 제약 산업에서 데이터 무결성은 성과 지표가 아닙니다. 규제 요건입니다. HCP 상호작용 기록, 처방 데이터, 판촉 컴플라이언스 문서, 부작용 이력은 완전하고 감사 가능해야 합니다. 레코드를 잃거나, 손상시키거나, 그 행방을 설명하지 못하는 마이그레이션은 규제 노출을 낳습니다.
규모는 7개 소스 시스템에 걸친 800만 레코드였고, 데이터 모델이 겹치고, 항목 매핑이 일관되지 않고, 엔터티가 중복되고, 의료 전문가 연락처 레코드가 무엇을 담아야 하는지에 대한 합의된 표준 스키마도 없었습니다. 7개 중 3개 시스템은 API 접근이 불가능해 맞춤 추출 도구가 필요했습니다.
과제
가장 큰 위험은 기술적 복잡성이 아니었습니다. 규제상 타협 불가능성과 데이터 모델 분기가 결합된 데 있었습니다. 표준 마이그레이션 방식(대량 추출, 변환, 적재)은 영업 환경에서는 수용 가능한 위험을 안지만, 제약 컴플라이언스 아래에서는 받아들일 수 없습니다.
소스 시스템에는 세 가지 뚜렷한 데이터 품질 문제가 있었습니다. 중복 레코드: 같은 HCP가 여러 시스템에 조금씩 다른 이름, 주소, 전문 분야 코드로 존재했습니다. 구조적 불일치: 한 시스템이 “거래처 유형”이라 부르는 것을 다른 시스템은 “고객 세그먼트”라 부르며, 값 집합이 다르고 상호 참조도 없었습니다. 이력 공백: 여러 시스템이 일관성 없이 사용되어, 타깃 스키마 검증에서 실패할 필수 항목 누락 레코드가 생겼습니다.
이런 레코드를 그대로 적재하는 마이그레이션이었다면 첫날에 수천 건의 검증 실패를 냈을 것입니다. 그것이 바로 규제 기관도 사업 이해관계자도 받아들일 수 없는 시나리오였습니다. 이 작업은 마이그레이션 이후가 아니라 마이그레이션 이전에 데이터 품질을 해결해야 했습니다. API 접근이 불가능한 3개 시스템은 그 위에 추출 위험을 더했습니다. 맞춤 커넥터를 구축하고 검증해야 했으며, 모든 추출은 소스 시스템의 레코드 건수와 체크섬에 대조해 확인했습니다.
추출을 시작하기 전 스티어링 위원회에 한 말적재는 쉬운 부분입니다. 본질은 데이터 품질입니다. 모델과 정제를 제대로 잡으면, 마이그레이션 자체는 아무 소동 없이 끝납니다.
실행
아키텍처상의 결정은 마이그레이션 코드를 한 줄 쓰기 전에 표준 데이터 모델을 설계하는 것이었습니다. 타깃 스키마가 각 엔터티(의료 전문가, 거래처, 제품, 상호작용, 동의, 컴플라이언스 문서)의 권위 있는 정의를 확립했습니다. 모든 소스 시스템 항목을 타깃 항목에 명시적인 충돌 해결 규칙과 함께 매핑했습니다. 추출을 시작하기 전에 컴플라이언스, 법무, IT가 승인했습니다.
추출 및 프로파일링
API 없는 3개 시스템을 위해 직접 데이터베이스 쿼리와 화면 스크래핑 자동화로 맞춤 커넥터를 구축했습니다. 모든 추출은 레코드 건수와 체크섬에 대조해 확인했습니다. 프로파일링으로 정제 범위를 정량화했습니다. 잠재 중복 34만 건, 필수 항목 누락 레코드 1만 2천 건, 구조적 불일치 8만 9천 건.
변환 및 품질 해결
국가 식별번호, 이름과 주소 근접성, 전문 분야 코드를 결합한 결정적 중복 제거. 공개 HCP 등록부에서 자동 보강해 누락 항목 집합을 1만 2천 건에서 사람 검토 대상 847건으로 줄였습니다. 값 매핑 테이블이 구조적 불일치를 해결했고, 매핑이 해결되지 않은 채 마이그레이션된 레코드는 없습니다.
적재, 검증, 정합
병렬 단위: 비운영 환경을 먼저, 운영 적재 전에 전체 검증. 각 배치가 적재-검증-정합 주기를 거쳤습니다. 무관용 기준이 레코드 한 건이라도 누락된 배치를 중단시켰습니다. 프로그램 기간 중 세 차례 중단했고, 세 건 모두 추출 문제로 추적되어 수정 후 다시 적재했습니다.
전환 이후, 30일간의 병행 운영 기간에 레거시 시스템과 Salesforce를 동시에 가동했습니다. 자동 비교 쿼리가 시스템 간 데이터 일관성을 확인했습니다. 폐기 승인은 전체 800만+ 레코드에서 100% 정합을 요구했습니다.
성과
800만 레코드를 7개 레거시 시스템에 걸쳐 데이터 손실 사고 없이 마이그레이션했습니다. 병행 운영 기간이 완전한 정합을 확인했습니다. 모든 레거시 시스템의 모든 레코드가 Salesforce 타깃에서 그 행방이 확인됐고, 소스 추출에서 변환 판정을 거쳐 최종 적재까지 전체 감사 추적이 남았습니다.
7개 레거시 시스템을 일정대로 폐기해, 노후 인프라에 따르는 유지보수 비용과 컴플라이언스 위험을 제거했습니다. 통합한 Salesforce 플랫폼은 여러 CRM 시스템을 유지하던 연간 IT 운영 비용을 €1.2M 절감했습니다.
Sanofi를 위해 개발한 마이그레이션 프레임워크는 재사용 가능함이 입증됐습니다. 추출 커넥터, 변환 로직, 검증 스위트는 향후 마이그레이션 프로그램을 위한 자산으로 패키징했습니다. 데이터 품질 방법론(프로파일링, 결정적 해결, 잔여 항목은 사람 검토로 플래그, 모든 판정 문서화)은 이후 다른 고객의 두 개 마이그레이션 프로그램에 적용했습니다.
이 마이그레이션은 또한 깨끗하고 잘 거버넌스된 데이터 기반을 확립해, Sanofi의 영업 운영을 향후 AI 및 Data Cloud 이니셔티브에 맞게 위치시켰습니다. 완전한 감사 추적을 갖춘 깨끗한 데이터는 지능형 자동화의 전제 조건입니다. 영업 조직은 이제 그 위에서 Agentforce 에이전트를 지원할 수 있는 플랫폼 위에 자리합니다.
돌아보며
이 패턴은 규제 수준의 엄격함이 핵심 제약이고 타깃 아키텍처가 소스보다 높은 품질 기준을 충족해야 할 때 작동합니다. 경영진이 본질은 적재 단계가 아니라 데이터 품질임을 받아들일 때 작동합니다. 추출을 시작하기 전에 컴플라이언스와 IT를 표준 모델 설계에 참여시킬 수 있을 때 작동합니다.
데이터 품질 작업을 마이그레이션 이후 정리로 미루면서 더 빠른 전환을 좇을 때는 잘 작동하지 않습니다. 그것이 바로 규제 기관이 받아들이지 않는 시나리오이며, 후반에 수년간의 개선 작업을 낳습니다.
더 일찍 했어야 할 것은 표준 모델입니다. 추출이 시작되기 전에 엔터티, 항목, 담당자를 정해 두면, 규제 마이그레이션을 납기 위험으로 바꾸는 후반의 의사결정 대부분이 사라집니다.
사용 기술: Salesforce Sales Cloud, Service Cloud, Data Loader, 맞춤 추출 커넥터, Apex 검증 프레임워크, DataWeave 변환, 외부 데이터 프로파일링 도구
용어 정리
- 표준 데이터 모델
- 각 핵심 엔터티(의료 전문가, 거래처, 제품, 상호작용, 동의)에 대해 합의된 단일 형태입니다. 모든 소스 시스템이 여기에 맞춰지며, 시스템이 아니라 모델이 진실의 기준이 됩니다.
- 결정적 중복 제거
- 규칙 기반 기준(국가 식별번호, 이름과 주소 근접성, 전문 분야 코드)으로 레코드를 단일 실세계 엔터티에 일치시키는 방식입니다. 모든 일치 판정은 사용한 기준과 함께 기록되어 규제 기관 검토용 감사 추적을 만듭니다.
- 적재-검증-정합 주기
- 각 마이그레이션 단위가 한 배치를 적재하고, 소스와 타깃의 레코드 건수 및 항목 값을 비교하는 자동 쿼리를 돌린 뒤, 다음 배치를 시작하기 전에 모든 불일치를 해소합니다. 일치하지 않는 레코드가 단 한 건이라도 있으면 해당 단위를 중단합니다.
- 병행 운영 기간
- 전환 이후, 레거시 시스템과 새 플랫폼을 정해진 기간 동안 나란히 운영하며 자동 비교 쿼리를 돌립니다. 폐기 승인은 그 기간 전체에서 100% 정합을 요구합니다.
자주 묻는 질문
- 소스 시스템은 레코드가 어떤 형태여야 하는지에 대한 신뢰할 수 있는 정의가 아니었습니다. 그중 3개는 일관성 없이 사용돼 왔습니다. 추출 이후에 타깃을 소스에 맞춰 매핑했다면 새 플랫폼을 레거시 품질에 고정했을 것입니다. 표준 모델을 먼저 구축하고 컴플라이언스, 법무, IT의 승인을 받자, 모든 추출과 변환에 고정된 기준점이 생겼습니다. 표준 스키마에 맞지 않는 레코드는 조용한 데이터 부채가 아니라 개선 작업으로 드러났습니다.
- 모든 단위가 적재-검증-정합 주기를 거쳤습니다. 자동 쿼리가 소스와 타깃의 레코드 건수와 항목 값을 비교했습니다. 단 한 건이라도 정합에 실패한 배치는 마이그레이션을 중단시키고 조사를 촉발했습니다. 프로그램 기간 중 세 차례 중단이 발생했습니다. 세 건 모두 변환 오류가 아니라 레거시 시스템의 추출 문제였고, 세 건 모두 다음 단위 전에 수정해 다시 적재했습니다.
- 데이터 프로파일링으로 필수 항목이 누락된 레코드 1만 2천 건을 식별했습니다. 공개 HCP 등록 데이터에서 자동으로 보강해 대부분을 해결했습니다. 남은 847건은 지정된 데이터 스튜어드와 함께 구조화된 사람 검토 절차를 거친 뒤 마이그레이션했습니다. 매핑이 해결되지 않은 채 적재된 레코드는 없었습니다. 모든 검토 판정은 문서로 남겨 감사에 활용할 수 있도록 했습니다.
- 그렇습니다. 이 방법론(프로파일링, 결정적 해결, 잔여 항목은 사람 검토로 플래그, 모든 판정 문서화)은 이후 다른 고객의 두 개 마이그레이션 프로그램에 적용했습니다. 맞춤 추출 커넥터, 변환 로직, 검증 스위트는 재사용 가능한 자산으로 패키징했습니다. 규제 수준의 엄격함은 어떤 마이그레이션에도 도움이 되는 규율을 더합니다. 영업 환경에서는 감사 추적 기준이 더 낮기 때문에 단지 더 빠를 뿐입니다.
- 완전한 감사 추적을 갖춘 깨끗한 데이터는 지능형 자동화의 전제 조건입니다. Agentforce는 파편화된 식별자나 오래된 레코드 위에서 추론할 수 없습니다. Sanofi의 영업 조직은 이제 엔터티 담당자가 지정되고, 표준 정의가 마련되고, 품질 모니터링이 갖춰진 통합 플랫폼 위에서 운영합니다. 데이터 계층은 Data Cloud 수집과, 고객의 실제 상태를 참조할 수 있는 Agentforce 파일럿을 받아들일 준비가 되어 있습니다.
다음으로 읽어 보십시오
상담 예약
30분이면 알 수 있습니다.
제가 도움이 될지 아닐지.
슬라이드도, 영업 자료도 없습니다. 아키텍처 다이어그램을 가져오시거나, 문제를 편한 말로 설명해 주십시오. 제가 맞는 사람인지, 다음 단계의 비용이 얼마인지, 커피를 다 마시기 전에 말씀드립니다.
- 24시간 이내 회신, 예외 없이
- 제가 맞는 사람이 아니라면, 맞는 분을 소개해 드립니다
- 요청하지 않으시면 후속 메일은 보내지 않습니다