[월간지 6호, 국외자료]페이스북 (Facebook), “프레스토” (Presto) 배포
  2. 2013.12.30
  6. 3728


2013년11월 초에, 소셜 네트워크계의 거물인 페이스북이, 자신의 프레스토(Presto) 소프트웨어를 아파치2.0 라이선스로, 일반 대중에게 공개한다고 발표하였다. 프레스토는, 인기있는 오픈소스 프레임워크인 하둡(Hadoop)과 함께 쓰여지도록 만들어진, SQL 컴플라이언트하게 배포된 “쿼리 엔진” (query engine) 이다.

한 블로그의 포스트에서 페이스북은, “페이스북의 웨어하우스 데이터(warehouse data)는, “Hadoop/HDFS에 바탕을둔” (Hadoop/HDFS-based) 몇 개의 커다란 클러스터(cluster)에 저장되어 있습니다. Hadoop의MapReduce와Hive는 대용량, 그리고 안정적인 계산을 위해 디자인 되었고, 전체적인 시스템 정보처리(overall system throughput)를 하는데 이상적으로 고안되었습니다. 하지만 저희의 웨어하우스(warehouse)가 이제는 페타바이트(petabyte) 규모로 커졌고, 저희가 필요로 하는 것 또한 과거와는 달라졌습니다. 이와 관련해서 이제는, 저희가 ‘로우 쿼리 레이턴시’ (low query latency) 에 최적화되어 있는 ‘인터액티브 시스템’ (interactive system)을 필요로 하는 것이 명백해졌습니다.” 라고 말했습니다.

많은 측면에서 “프레스토”는, 몇 년 전에 페이스북이 만들고 오픈소스로 공개하였던, 인기를 끌었던 프로그램인 ‘하이브’ (Hive)를 개선시킨 프로그램이다. 하지만 하이브와는 다르게, 프레스토는 로우 레이턴시(low-latency)에서 사용되도록, 그리고 즉각적인 인터액티브 데이터 분석(ad-hoc interactive data analysis)을 실행하도록 설계되었다. 하이브(Hive)가Hadoop의MapReduce system에 의존하는 것과는 달리, 프레스토(Presto)의 쿼리 엔진(query engine)은, 종단간(end-to-end)에 로우 레이턴시(low-latency)를 요구하는 쿼리 시나리오(query scenario)들을 잘 처리할 수 있도록 맞춤 제작되었다.

프레스토(Presto)는, 클라우데라의(Cloudera)의 임팔라(Impala), 호톤워크(Hortonwork)의 스틴저 프로젝트(Stinger project), 피빗탈(Pivital)의HAWQ, 아파치(Apache)의 드릴(Drill), IBM의 빅SQL (BigSQL) 그리고 구글(Google)의 드레멜(Dremel) 등과 같이, 서로 유사한 시스템들이 경쟁을 펼치고 있는 시장에 발을 들여놓게 되었다. 이 프레스토와 관련된 프로젝트가, 발표되는 즉시 에어비엔비(Airbnb)와 드랍박스(Dropbox) 로부터 주목을 받기는 하였지만, 이 소프트웨어의 개발과 관련된 오픈소스 커뮤니티가 발전할 것인지 여부는, 좀 더 지켜보아야 할 것으로 보인다.



In early November social networking giant Facebook announced that it was releasing its Presto software to the public under the Apache 2.0 license. Presto is an SQL-compliant distributed query engine designed for use with the popular open-source Hadoop framework.
Facebook in a blog post said "Facebook’s warehouse data is stored in a few large Hadoop/HDFS-based clusters. Hadoop MapReduce and Hive are designed for large-scale, reliable computation, and are optimized for overall system throughput. But as our warehouse grew to petabyte scale and our needs evolved, it became clear that we needed an interactive system optimized for low query latency."
Presto is, in many respects, an improvement upon the popular Hive software that Facebook created and open-sourced several years ago. Unlike Hive, Presto is architected for use in low-latency, ad-hoc interactive data analysis. Whereas Hive relies on Hadoop's MapReduce system , Presto's query engine is custom designed to accommodate querying scenarios that require low-latency end-to-end.
Presto joins a crowded field of similar systems such as Cloudera's Impala, Hortonwork's Stinger project, Pivital's HAWQ, Apache Drill, IBM' BigSQL and Google's Dremel. Although the project has received some immediate attention from Airbnb and Dropbox, it remains to be seen whether or not a community will develop around the software.


출 처 : SFLC (Software Freedom Law Center, http://www.softwarefreedom.org/)

