본문 바로가기

개인 스터디/정리

[정보처리기사 실기] 6. 데이터베이스 기초 활용

 

1. 데이터베이스 종류

  • 데이터베이스 다수의 인원이 사용할 목적으로 통합하여 관리되는 데이터의 집합
  • 데이터베이스의 정의
    • 통합된 데이터 : 자료의 중복 배제
    • 저장된 데이터 : 저장 매체에 저장
    • 운영 데이터 : 조직의 업무를 수행하는 데 필요
    • 공용 데이터 : 여러 애플리케이션, 시스템들이 공동으로 사용하는 데이터
  • 데이터베이스 특성
    • 실시간 접근성 : 쿼리에 대하여 실시간 응답이 가능해야 한다는 특성
    • 계속적인 변화 : 새로운 데이터의 삽입, 삭제, 갱신으로 항상 최신의 데이터를 유지한다는 특성
    • 동시 공용 : 다수의 사용자가 동시에 같은 내용의 데이터를 이용할 수 있어야 한다는 특성
    • 내용 참조 : 데이터 참조 시 사용자가 요구하는 데이터의 내용으로 데이터를 찾아야 한다는 특성
  • DBMS : 데이터 관리의 복잡성을 해결하는 동시에 데이터 검색, 삭제, 백업, 보안 등의 기능을 지원하는 SW
  • 데이터베이스 저장 기술
    • 데이터 웨어하우스(Data Warehouse) : 축적된 데이터를 공통 형식으로 변환해서 관리하는 데이터베이스
      • 데이터 웨어하우스 특징 
        • 주제 지향적 : 기능이나 업무가 아닌 주제 중심적으로 구성
        • 통합적 : 데이터의 일관성을 유지하면서 전사적 관점에서 하나로 통합
        • 시계열적 : 시간에 따른 변경을 항상 반영
        • 비휘발적 : 적재가 완료되면 읽기 전용 형태의 스냅 샷 형태로 존재
    • 데이터 마트(Data Mart) : 전사적으로 구축된 데이터 속의 소규모 단위 주제의 데이터 웨어하우스
      • 데이터 마트 특징 : 데이터 웨어하우스의 부분이며, 특정 조직 혹은 팀에서 사용하는 것을 목적으로 함
      • 빅데이터 특성
        • 데이터의 양 : 페타바이트(10^15)의 대규모 데이터
        • 데이터의 다양성 : 정형/비정형/반정형의 다양한 데이터
        • 데이터의 속도 : 빠르게 증가하고 수집되며, 처리되는 데이터. 실시간 분석이 중요함
  • 하둡(Hadoop) : 오픈 소스를 기반으로 한 분산 컴퓨팅 플랫폼. 가상화된 대형 스토리지를 형성하고 보관된 데이터 세트를 병렬적으로 처리할 수 있도록 개발된 자바 소프트웨어 프레임워크
    • 하둡 주요 기술
      • ETL : 원본 데이터를 추출(Extract), 변환(Transform)하여 적재(Load)하는 작업 및 기술
      • 플럼 : 많은 양의 로그 데이터를 다루기 위해 이벤트와 에이전트를 활용하는 기술
      • 스쿱 : 커넥터를 사용하여 RDBMS에서 하둡 파일 시스템(HDFS)으로 데이터를 수집하거나 반대로 보내는 기술
      • 스크래파이 : 파이썬 언어 기반의 비정형 데이터 수집 기술
      • HDFS : 대용량 데이터의 집합을 처리하도록 설계된 하둡 분산 파일 시스템
      • 맵 리듀스 : 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위해 만든 소프트웨어 프레임워크
    • NoSQL : 고정된 테이블 스키마와 조인 연산이 없고, 수평적으로 확장 가능한 DBMS
      • NoSQL의 특성
        • Basically Available : 데이터는 언제든 접근 가능. 가용성 중시
        • Soft-State : 노드의 상태는 외부에서 전송된 정보를 통해 결정. 특정 시점에서는 데이터의 일관성이 보장되지 않음
        • Eventurally Constistency : 일정 시간이 지나면 데이터의 일과성이 유지
      • NoSQL의 유형
        • Key-Value Store : Unique한 Key에 하나의 Value를 가지고 있는 형태
        • Column Family Data Store : Key 안에 (Column, Value) 조합으로 된 여러 필드를 갖는 DB
        • Document Store : Value의 타입이 Document 타입. 복잡한 계층 구조 표현 가능
        • Graph Store : 시맨틱 웹과 온톨로지 분야에서 활용되는 그래프로 데이터 표현
  • 데이터 마이닝(Data Mining) : 대규모 데이터에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아내는 기술
  • 데이터 마이닝 주요 기법
    • 분류 규칙 : 과거 데이터로부터 특성을 찾아내요 분류 모형을 만들고 새로운 레코드의 결과 값을 예측하는 기법
    • 연관 규칙 : 데이터 항목들 간의 종속관계를 찾아내는 기법
    • 연속 규칙 : 연관 규칙에 시간 관련 정보가 포함된 기법
    • 데이터 군집화 : 유사한 특성을 지닌 몇 개의 소그룹으로 분할하는 작업
  • 데이터 관련 용어
    • 텍스트 마이닝 : 대량의 텍스트 데이터로부터 패턴 또는 관계를 추출하여 의미 있는 정보를 찾아내는 기법
    • 웹 마이닝 : 웹으로부터 얻어지는 방대한 데이터에서 유용한 정보를 찾기 위해 분석하는 기법
    • 다크 데이터 : 수집된 후 저장은 되어 있지만, 분석에 활용되지 않는 다량의 데이터
    • 메타 데이터 : 데이터에 대한 구조저긴 데이터로서, 일련의 데이터를 정의하고 설명하는 데이터
    • 디지털 아키이빙 : 보존할 가치를 지닌 객체를 장기간 관리하기 위해 변환, 압축 저장하여 DB 화하는 작업
    • 마이 데이터 : 개인이 정보 관리의 주체가 되어 능동적으로 본인의 정보를 관리