항목
-
데이터 분석 처리 시각화, 분산 파일 시스템 DFS, 分散-데이터 저장소와 검색엔진을 위해 개발한 분산 파일 시스템. 하드웨어의 안정성과 자료의 유실문제 처리 높은 데이터 처리율이 특징이다. 하둡 분산 파일 시스템(HDFS : Hadoop Distributed File System) GFS를 모델로 만든 오픈소스 분산파일시스템. GFS와 동일한 특징을 가진다. 대용량의 파일을 블록 단위로 분할하여...
-
Hive기반 처리를 위해 설계되었다. Hive 개발배경 하이브는 페이스북 프로그래머들이 개발한 소프트웨어로서 기존 SQL 문법과 상당히 유사한 HiveQL을 사용하여 하둡에 저장된 빅데이터를 질의 처리할 수 있다. 페이스북의 급증하는 소셜 네트워킹에서 매일 생성되는 대량의 데이터를 관리하고, 학습하기 위해 개발되었고...
- 유형 :
- 빅데이터 분산처리기술 분석기술
-
데이터 관리, 노에스큐엘 NoSQL작업을 위한 키 값을 최적화할 수 있어 지연(latency)과 처리율(throughput)이 우수하다. 그리고 대규모 확대가 가능한 수평적인 확장성을 가져 대규모의 데이터를 유연하게 처리할 수 있다. NoSQL에 기반을 둔 시스템의 대표적인 예로 아파치 카산드라(Apache Cassandra), 하둡(Hadoop), 몽고디비(MongoDB) 등이 있다.
- 참고 :
- 노에스큐엘 시스템은 SQL 계열 쿼리 언어를 사용할 수 있다는 사실을 강조한다는 면에서 ‘Not only SQL’로 불리기도 한다.
-
실시간대용량 스트림 분석포함된다. Apache Storm 아파치 스톰(Apache Storm)은 트위터가 내놓은 오픈소스 소프트웨어로 대용량 데이터를 실시간으로 분석할 수 있게 해주는 기술이다. 하둡이 배치분석에 특화된 대용량 분산처리 시스템이라면 스톰은 실시간 분석에 특화된 분산처리 시스템이다. Apache S4 S4의 네 개의 S는 단순 확장형...
- 유형 :
- 빅데이터 활용 및 관련 기술
-
Mahout분산/병렬처리가 가능한 기계학습 라이브러리이다. Mahout은 다양한 ML(Machine Learning) 알고리즘을 라이브러리 형태로 제공한다. Mahout 특징 Mahout은 하둡을 사용하여 클라우드 환경에서 확장성을 가지며 기존 기계학습 알고리즘의 한계 중의 하나인 대용량 학습 데이터 처리 시간 등의 문제를 해결하도록 하고...
- 유형 :
- 빅데이터 분산처리기술 분석기술
-
분산 파일 시스템 DFS, 分散-데이터 저장소와 검색 엔진을 위해 개발한 분산 파일 시스템. 하드웨어의 안정성과 자료의 유실문제 처리, 높은 데이터 처리율이 특징이다. - 하둡 분산 파일 시스템(HDFS: Hadoop Distributed File System): GFS를 모델로 만든 오픈소스 분산 파일 시스템. GFS와 동일한 특징을 가진다. 대용량의 파일을 블록 단위로...
-
타조 (소프트웨어)타조(Tajo)는 하둡 기반 데이터웨어하우스 시스템이다. 하둡 데이터 분석을 위해 일반적으로 사용되는 맵리듀스 기술 대신 관계형 데이터베이스에서 사용하는 SQL로 질의할 수 있다. 고려대학교 정보통신대학 컴퓨터학과 DB연구실 박사과정 중이던 손지훈과 최현식이 시작했으며, 2013년 3월에 그루터(Gruter), 고려...도서 위키백과