케이리뷰
A

Apache Spark (Managed)

대규모 분산 데이터 처리 엔진

3.9
리뷰 2무료

제품 소개

Apache Spark는 대용량 데이터 처리를 위한 오픈소스 분산 컴퓨팅 엔진으로, Databricks, EMR, Dataproc 등 관리형 서비스로도 활용됩니다. 배치/스트리밍/ML을 단일 엔진에서 처리합니다.

주요 기능

분산 처리스트리밍ML 라이브러리SQL 인터페이스다국어 API그래프 처리

연동 서비스

DatabricksAWS EMRGoogle DataprocKafkaHadoopDelta Lake

회사 정보

설립 2014직원 11-50본사 미국

이 제품의 벤더이신가요?

소유권을 인증하고 제품 정보를 관리하세요.

소유권 신청

안지영

CEO · 스타트업허브

3.7

2025년 8월 14일

데이터 웨어하우스의 새로운 표준을 경험했습니다

< 6개월매일추천

👍 장점

컴퓨팅과 스토리지 분리 아키텍처로 필요할 때만 클러스터를 키워서 비용을 최적화할 수 있습니다. 데이터 공유 기능으로 파트너사와 안전하게 데이터를 공유하고, 데이터 마켓플레이스에서 외부 데이터를 구매해 분석에 활용하고 있습니다.

👎 단점

크레딧 기반 과금 모델이 복잡해서 처음엔 비용 예측이 어렵습니다. 쿼리 최적화를 제대로 하지 않으면 비용이 예상보다 빠르게 올라가므로 팀 교육이 필요합니다. 완전히 클라우드 기반이라 인터넷 연결이 불안정하면 영향을 받습니다.

도움이 됐어요 8

김민준

IT 팀장 · 넥스트웨어

4.0

2025년 3월 15일

BigQuery로 페타바이트 데이터 분석이 빨라졌습니다

< 6개월매일추천

👍 장점

SQL 한 줄로 수십억 행 데이터를 몇 초 만에 처리할 수 있어서 데이터 분석 속도가 혁신적으로 빨라졌습니다. Google Looker Studio와의 연동이 뛰어나 비개발자도 자체적으로 대시보드를 만들 수 있게 되었습니다. 서버리스라 인프라 관리가 전혀 필요 없습니다.

👎 단점

쿼리마다 스캔 데이터 양에 따라 과금되어 개발 중에 실수로 대용량 쿼리를 실행하면 비용이 크게 나올 수 있습니다. GCP 생태계에 종속되어 다른 클라우드로 마이그레이션이 쉽지 않습니다. 실시간 스트리밍 쿼리는 비용이 높은 편입니다.

도움이 됐어요 2