Q1. Docker란 무엇인가요?A. Docker는 컨테이너를 생성하고 관리하는 오픈 소스 플랫폼입니다. 애플리케이션 실행 환경의 일관성을 보장하고, 배포와 확장이 쉬운 가벼운 환경을 제공합니다. 또한, 컨테이너 격리를 통해 보안성과 성능이 향상됩니다. Q2. Docker 이미지란 무엇인가요?A. Docker 이미지는 애플리케이션의 실행에 필요한 코드, 라이브러리, 설정 등을 포함한 불변의 템플릿입니다. 컨테이너는 이 이미지를 기반으로 생성됩니다. Q3. Docker 컨테이너란 무엇인가요?A. Docker 컨테이너는 이미지에서 생성된 실행 가능한 인스턴스입니다. 이를 통해 애플리케이션을 격리된 환경에서 실행할 수 있습니다. Q4. Docker의 레이어개념이 무엇이며, 레이어 캐싱이 왜 중요한가요?A. D..
CAST 함수는 특정 칼럼이나 값을 데이터 타입을 변환하는 함수입니다.아래처럼 사용할 수 있습니다.CAST (바꾸고 싶은 값 AS 데이터타입)기본 활용 예1. 기본적인 타입 변환SELECT CAST('123' AS INT) + 10;>>> 133SELECT CAST('2024-01-01' AS DATE);>>> 2024-01-01 2. 소수점 자릿수 조절SELECT CAST(123 AS DECIMAL(5, 2));>>> 123.00JSON 데이터 추출 iddata01{ "age": "26", "name": "meeseeks" }12 { "age": "27", "name": "morty"} User테이블에는 JSON타입의 data칼럼이 있습니다. 여기서 첫 행의 data칼럼..
대부분의 SQL 데이터베이스에서는 대소문자 구분을 하지 않습니다. 테이블과 칼럼명뿐만 아니라 쿼리 내에서 조건으로 사용되는 문자열 또한 대소문자의 구분이 없는데요, 이 부분을 간단하게 알아보겠습니다.기본 설정 idname01meeseeks12Meeseeks23MEEseekS Tistory 데이터베이스의 User 테이블이 있고, name에는 문자열 값들이 있습니다. 데이터베이스는 영여의 대소문자를 구분하지 않으므로, 이 세 값을 모두 같다고 판단합니다. SELECT *FROM UserWHERE name = "meeseeks";>>> id name 1 meeseeks 2 Meeseeks 3 MEEseekS 따라서 위 쿼리를 실행하면 우리가 원하는 값과 달리 세 개 행 모두를 반환합니다.BIN..
Q1. Kubernetes의 Pod은 무엇인가요?A. 쿠버네티스의 가장 작은 배포 단위로,하나 혹은 여러 컨테이너로 구성됩니다. 동일 Pod 내의 컨테이너들은 같은 네트워크과 스토리지를 공유합니다. Q2. Kubernetese의 Node는 무엇인가요?A. Pod가 실제로 실행되는 서버입니다. 여러 Pod가 하나의 Node에 배포될 수 있습니다. 각 노드는 Pod를 관리하는데 필요한 리소스(CPU/메모리)를 제공합니다. 마스터/워커노드가 있으며 마스터 노드는 쿠버네티스 전체 시스템을 통제하는 역할을 담당하고, 워커노드는 실제 실행을 담당합니다. Q3. Kubernetes의 클러스터는 무엇인가요?A. 여러 노드로 구성된 하나의 큰 시스템입니다. 마스터노드와 워커노드들이 클러스터를 구성합니다. Q4. Kube..
Q1. Airflow란 무엇인가요?A. 에어플로우는 워크플로우 자동화와 스케줄링을 위한 오픈소스 플랫폼입니다. 데이터 파이프라인을 쉽게 구성하고, 모니터링할 수 있는 툴입니다. Q2. Airflow의 구성 요소는 무엇이 있나요?A. DAG, Task, Operator, Scheduler, Executor, Web Server 등이 있습니다. Q3. Airflow의 DAG는 무엇인가요?A. 먼저 DAG는 데이터 파이프라인을 정의하는 기본 단위입니다. Task들의 순서와 종속 관계를 설정해서, 특정 작업이 끝나면 다음 작업이 실행되도록 흐름을 구성합니다. Q4. Operator란 무엇인가요?A. Operator는 Airflow에서 작업의 실제 로직을 정의하는 구성 요소입니다. PythonOperator는 ..
Q1. 하둡은 무엇인가요?A. 하둡은 빅데이터의 분산 저장과 처리를 위한 오픈소스 프레임워크입니다. HDFS/맵리듀스/YARN이 주요 구성 요소입니다. Q2. HDFS란 무엇이며, 어떻게 동작하나요?A. HDFS는 대규모 데이터를 분산 저장하는 파일 시스템입니다. 큰 데이터를 작은 단위의 여러 블록으로 나누어 저장하고, 각 블록은 복제되어 데이터 손실을 방지합니다. Q3. RDBMS와 HDFS의 차이점은 무엇인가요?A. RDBMS는 Schema on Write 방식을 사용하여, 사전에 스키마를 정의하며 데이터를 저장할 때 이 스키마에 맞아야합니다. HDFS는 Schema on Read를 사용하여, 원본 파일을 그대로 저장하고 데이터를 처리하는 시점에서 스키마를 적용합니다. 확장 시에도 RDBMS는 Sca..

회사에서 진행하는 SQL 스터디!(인턴ing) 사실 스터디라기보단 현직자 "데이터 마법사(?!) TY님" 의 일방향 데이터 특강ㅎ 스터디 내용을 토대로 공부한 내용과 느낀 점을 간단히 정리해보겠어요.실제 DB를 활용해서 스터디를 진행하기 때문에 대외비인 내용을 제외해야해서 블로그에 얼마나 많은 내용을 담을 수 있을진 모르겠지만... 스터디 내용 자체보다는 제가 새로 알게 된 점 등을 정리하는 목적으로 작성해보겠습니다!데이터 엔지니어링의 중요성 긴 설명 대신 그림으로 전하는 데이터 엔지니어링의 중요성. AI, 데이터 관련 직군의 업무 영역을 그림으로 나타낸 표입니다. 가장 왼쪽 '데이터 엔지니어링'은 전 직군에 걸쳐 요구되는 역량임을 알 수 있습니다. 데이터 엔지니어를 희망하며 취준 중이지만, 데이터 엔지..

💡 기존에 우리가 다루어 본 데이터 수준이 아닌 ‘빅데이터’는 어떻게 저장하고, 처리해야할까요? 빅데이터 처리에 대해 꼭 알아야하는 내용만 선별하여 간략하게 정리했습니다. 자바와 파이썬으로 만드는 빅데이터 시스템 - 예스24 빅데이터 프로그래밍을 위한 최고의 입문서!로컬에서 작은 규모나마 직접 빅데이터 서비스를 구현함으로써 독자들이 서비스 아키텍처에 대한 이해와 통찰력을 얻는 데 목표를 두며, 빅데이터 www.yes24.com 위 도서를 참고했습니다. '빅데이터 분산' 을 주제로 프로젝트를 진행하며 팀원들과 학습 내용을 공유하기 위해 정리한 자료로, 백엔드/프론트엔드 팀원들이 쉽게 이해할 수 있도록 기본적인 내용만 정리되어있습니다. 빅데이터 기술에 관한 자세한 내용은 위 책과 '빅데이터를 지탱하는 기술'..
- Total
- Today
- Yesterday
- 우분투
- ubuntu
- django
- 프로그래머스
- 리눅스
- re라이브러리
- 백트래킹
- Linux
- mysql binary
- sql 데이터타입 변경
- 하둡
- SQL
- MySQL
- 완전탐색
- docker
- 정규표현식
- sql대소문자
- 백준 3020
- 백준
- json필드
- 파이썬
- stream=true
- 오블완
- 빅데이터
- 싸피
- 티스토리챌린지
- hdfs
- SSAFY
- 스택
- 바이너리 조건
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |