Bàn về Composable CDP
Vấn đề với Traditional CDP
Trong gần một thập kỷ, Customer Data Platform (CDP) được coi là “viên đạn bạc” giải quyết bài toán dữ liệu khách hàng phân mảnh. Doanh nghiệp đổ hàng triệu đô la vào các nền tảng như Segment, Tealium, Lytics hay mParticle — với kỳ vọng có một nơi duy nhất chứa toàn bộ hành trình khách hàng.
Nhưng thực tế lại khắc nghiệt hơn nhiều. Hãy cùng nhau xem xét ở bên dưới:
Ba vấn đề cốt lõi của CDP truyền thống:
- Dữ liệu bị sao chép và phân mảnh (Data Silo): CDP tạo ra một “data silo” mới — doanh nghiệp phải ETL dữ liệu từ Data Warehouse vào CDP, rồi lại từ CDP ra các công cụ Marketing hay Analytics. Chi phí vận hành tăng, latency cao, và nguy cơ inconsistency dữ liệu là thường trực.
- Chi phí không tương xứng với giá trị (ROI): License CDP truyền thống thường tính theo số lượng profile (MAU) hoặc sự kiện xử lý (Event). Khi doanh nghiệp scale, chi phí tăng theo cấp số nhân trong khi giá trị biên giảm dần.
- Khóa nhà cung cấp (Vendor Lock-in): Logic để phân khúc tập khách hàng hoặc transformation dữ liệu nằm trong CDP và không thể tái sử dụng cho Data Science, BI hay các Use-case khác.
Composable CDP là gì?
Composable CDP là một kiến trúc, không phải một sản phẩm. Thay vì mua một nền tảng CDP nguyên khối, doanh nghiệp có thể lắp ghép các khả năng CDP từ các công cụ tốt nhất trong từng lớp (layer):
┌─────────────────────────────────────────────┐
│ Marketing Automation Platforms │
│ (Braze, HubSpot, Salesforce MC, ...) │
└──────────────────┬──────────────────────────┘
│ Reverse ETL / Direct Query
┌──────────────────▼──────────────────────────┐
│ Data Warehouse / Lakehouse │
│ (Snowflake, Databricks, BigQuery) │
│ → Single source of truth for customer data│
└──────────────────┬──────────────────────────┘
│
┌──────────────────▼──────────────────────────┐
│ Transformation & Identity Layer │
│ (dbt, Spark, Unity Catalog) │
└──────────────────┬──────────────────────────┘
│
┌──────────────────▼──────────────────────────┐
│ Data Collection Layer │
│ (Segment Connections, Fivetran, ...) │
└─────────────────────────────────────────────┘
Triết lý cốt lõi: Dữ liệu chỉ tồn tại ở một nơi là data warehouse, mọi thứ khác chỉ là view hoặc connector.
Snowflake đang làm gì?
Snowflake không tự gọi mình là CDP, nhưng các tính năng họ ra mắt từ 2022–2025 đang trực tiếp thay thế CDP truyền thống.
1. Snowflake Data Clean Rooms
Cho phép brands và publishers chia sẻ tập dữ liệu khách hàng mà không cần di chuyển dữ liệu thực sự. Thay vì export CSV audience ra CDP trung gian, hai bên query trực tiếp trên Shared Data trong môi trường an toàn.
Ứng dụng thực tế: Một retailer có thể tạo lookalike audience kết hợp first-party data của mình với data của media partner — toàn bộ trong Snowflake, không cần CDP.
2. Native App Framework + Marketplace
Snowflake Marketplace giờ có các ứng dụng Identity Resolution (như LiveRamp, Neustar) chạy trực tiếp trên Snowflake. Doanh nghiệp không cần export data ra ngoài để thực hiện Identity Stitching — một trong những chức năng cốt lõi của CDP truyền thống.
3. Snowpark + Python/Java UDFs
Cho phép data engineer và data scientist xây dựng toàn bộ pipeline phân khúc khách hàng (segmentation), tính toán propensity score, RFM model — ngay trong Snowflake bằng Python. Output là các bảng segment sẵn sàng push vào MAP.
4. Cortex AI
Tích hợp ML/AI trực tiếp vào Snowflake: sentiment analysis, churn prediction, recommendation — các model chạy trên customer data mà không cần di chuyển sang ML platform riêng biệt.
Kết nối với MAP: Thông qua các Reverse ETL tools (Census, Hightouch) hoặc native connectors, các tập phân khúc khách hàng được định nghĩa trong Snowflake SQL có thể sync trực tiếp vào Braze, Salesforce Marketing Cloud, HubSpot theo lịch hoặc near real-time.
Databricks đang làm gì?
Databricks tiếp cận từ góc độ Data + AI Lakehouse, nhưng hướng đi rõ ràng là cạnh tranh trực tiếp với CDP trong phân khúc Enterprise.
1. Unity Catalog — Identity & Governance Layer
Unity Catalog là nền tảng quản trị dữ liệu thống nhất trên toàn bộ Databricks. Với customer data:
- Fine-grained access control theo từng cột → PII có thể được mask cho marketing team nhưng vẫn dùng được cho analytics
- Data lineage tự động → biết dữ liệu customer đến từ đâu, đã được dùng ở đâu
- Attribute tagging → tag PII, financial data, sensitive fields — critical cho compliance (GDPR, PDPA Việt Nam)
2. Delta Live Tables (DLT) cho Customer 360
DLT cho phép xây dựng pipeline streaming customer data với declarative syntax. Thay vì dùng CDP để ingest và unify data: python
Pipeline này chạy streaming, tự động rebuild khi upstream thay đổi, có lineage, và output là Delta table sẵn sàng cho Reverse ETL.
3. Databricks AI/BI + Genie
Genie cho phép marketing team tự query customer data bằng ngôn ngữ tự nhiên: “Cho tôi list khách hàng mua 3 lần trong 90 ngày nhưng chưa mua trong 30 ngày qua” — không cần viết SQL, không cần CDP UI.
4. Feature Store cho Personalization
Databricks Feature Store lưu trữ các đặc trưng (features) của khách hàng được tính toán tập trung: recency, frequency, monetary, product affinity, churn score… Các features này có thể được:
- Dùng bởi ML model để training
- Serve real-time cho recommendation engine
- Push sang MAP để personalize communication
Điều này thay thế hoàn toàn “Profile Enrichment” trong CDP truyền thống.
5. Lakehouse Federation & External Connections
Databricks giờ có thể query trực tiếp data từ MySQL, PostgreSQL, Salesforce, các operational databases — mà không cần ETL toàn bộ vào warehouse. Kết hợp với Delta Sharing (giao thức open-source chia sẻ data), toàn bộ ecosystem kết nối trở nên linh hoạt hơn nhiều.
Reverse ETL: cầu nối cuối cùng tới MAP
Mắt xích quan trọng nhất trong Composable CDP là Reverse ETL — công nghệ đẩy data từ warehouse ra các operational tools như marketing automation platform.
Hai Reverse ETL player dẫn đầu:
| # | Hightouch | Census |
|---|---|---|
| Mô hình | SQL-based, no-code | SQL-based + dbt integration |
| Điểm mạnh | AI Audiences, Journey orchestration | Data transformation trong pipeline |
| MAP support | Braze, SFMC, HubSpot, Klaviyo, 200+ | Braze, SFMC, HubSpot, Klaviyo, 150+ |
| Snowflake native | ✅ | ✅ |
| Databricks native | ✅ | ✅ |
Workflow thực tế:
- Data engineer định nghĩa
silver_customer_segmentstable trong Snowflake/Databricks - Marketing analyst dùng Hightouch để map table đó vào Braze segments
- Hightouch sync tự động theo lịch (mỗi 15 phút, mỗi giờ, hoặc event-triggered)
- Braze nhận segment đã cập nhật và trigger campaign tương ứng
Không cần CDP. Không cần duplicate data. Marketing team vẫn có UI thân thiện.
Thị trường Việt Nam có đặc thù riêng: chi phí CDP quốc tế ($50K–$500K+/năm) vượt ngân sách của phần lớn doanh nghiệp vừa và lớn trong nước, trong khi data team ngày càng trưởng thành và nhu cầu personalization marketing ngày càng cao. Đây chính là mảnh đất màu mỡ cho Composable CDP.
So Sánh: Traditional CDP vs Composable CDP
| Tiêu chí | CDP Truyền Thống | Composable CDP |
|---|---|---|
| Data storage | Copy vào CDP | Ở lại warehouse |
| Chi phí | $50K–$500K+/năm | Tổng hợp từ các tools |
| Vendor lock-in | Cao | Thấp |
| Data freshness | Batch, thường T+1 | Near real-time khả thi |
| ML/AI integration | Hạn chế | Native (Snowpark, MLflow) |
| Governance | Riêng trong CDP | Tập trung tại warehouse |
| Time to value | 6–18 tháng | 4–8 tuần |
| Scale | Tính theo profile/events | Theo compute |
Khi nào vẫn nên dùng Traditional CDP?
Composable CDP không phải silver bullet cho mọi tổ chức. CDP truyền thống vẫn phù hợp khi:
- Không có data team: Nếu công ty không có data engineer hoặc analytics engineer thành thạo SQL/Spark, CDP truyền thống với UI kéo-thả dễ dùng hơn
- Real-time event streaming phức tạp: Các CDP như Segment vẫn mạnh hơn ở việc collect và route event streaming real-time từ web/app
- SMB với hạ tầng đơn giản: Chi phí ban đầu của warehouse + Reverse ETL + transformation layer có thể cao hơn một CDP mid-market
- Third-party data enrichment: Một số CDP có quan hệ partnership với data enrichment providers rất chặt chẽ
Xu hướng hiện tại của thị trường
Các tín hiệu rõ ràng từ thị trường 2024–2025:
- Segment (Twilio) đã ra mắt “Twilio Segment Unify” với khả năng kết nối trực tiếp vào Snowflake/BigQuery — thừa nhận rằng warehouse là source of truth
- Adobe Real-Time CDP tích hợp sâu hơn với Snowflake và Azure Synapse
- Salesforce Data Cloud về bản chất là một Composable CDP layer trên đầu Salesforce ecosystem
- Hightouch định giá $700M (2024) — phản ánh niềm tin của thị trường vào Reverse ETL
Xu hướng rõ ràng: CDP đang trở thành một layer abstraction phía trên warehouse, không còn là data store độc lập.
Thách thức đặc thù tại Việt Nam
Dù xu hướng rõ ràng, Composable CDP tại Việt Nam còn đối mặt với một số rào cản:
1. Thiếu nhân lực Analytics Engineering: Vai trò Analytics Engineer (thành thạo dbt, SQL nâng cao, data modeling) vẫn còn khan hiếm. Nhiều công ty có data analyst nhưng chưa có người có thể xây dựng và vận hành transformation layer chất lượng.
2. Văn hóa “mua trọn gói”: C-level tại nhiều doanh nghiệp Việt Nam vẫn ưa “mua một sản phẩm có vendor support” hơn là tự lắp ghép. Câu chuyện “ai chịu trách nhiệm khi hỏng?” vẫn là barrier lớn với kiến trúc multi-vendor.
3. Quy định dữ liệu đang hoàn thiện: Nghị định 13/2023/NĐ-CP về bảo vệ dữ liệu cá nhân có hiệu lực từ 7/2023 tạo ra cả cơ hội lẫn thách thức: cơ hội vì doanh nghiệp cần kiểm soát dữ liệu chặt hơn (lợi thế của Composable), thách thức vì nhiều công ty chưa rõ boundary giữa “xử lý nội bộ” và “chia sẻ cho bên thứ ba” khi dùng SaaS tools.
4. Latency kỳ vọng cao từ marketing team: Marketing Việt Nam quen với “campaign chạy ngay lập tức” — trong khi Reverse ETL batch mỗi 15–60 phút có thể chưa đủ đáp ứng một số use case real-time như abandoned cart trong 10 phút.
