Thiết kế Data Pipeline thu thập dữ liệu từ nhiều nguồn
Tự xây dựng hệ thống Data Warehouse, Data Lakehouse hoàn chỉnh
Xây dựng Data Warehouse, Data Lakehouse trên Cloud
Đáp ứng nhu cầu tuyển dụng Data Engineer
Chi tiết kỹ năng làm được sau khóa học
Thành thạo kỹ năng truy vấn và lấy dữ liệu SQL dạng chuẩn, các kỹ viết câu truy vấn tối ưu cho hàng triệu bản ghi.
Thành thạo cách thiết kế các Data Model trong việc thiết kế Data Warehouse, Data Lakehouse, Cloud
Thành thạo các công nghệ ETL và quy trình ETL với công nghệ nền tảng SSIS
Cài đặt hadoop yarn single node và multinode, Sử dụng HDFS command line, thực hành map-reduce
Sử dụng spark, các thành phần của park, cài đặt spark single node
Sử dụng ngôn ngữ scala để thực hành spark
Thực hành spark context, spark rdd, spark transformation & action
Spark GroupbyKey và ReducebyKey, intersect, distinct, join, linear RDD & DAG
Spark Session, cache và persist
Cài đặt spark cluster
Làm quy trình pipeline trong quản trị dữ liệu
Thành thạo quy trình và các bước làm phân tích dữ liệu với Power BI
Xây dựng bộ phận báo cáo quản trị, báo cáo phân tích dữ liệu
Phân tích dữ liệu trong các công ty lớn như ngân hàng, tập đoàn lớn,…
Thành thạo các dịch vụ dữ liệu của AWS một trong những platform được dùng phổ biến nhất trong các dự án về Big Data
Xây dựng datalake , data warehouse trên công nghệ Cloud
Lộ trình khóa học
PHẦN 1: SQL TO DATA WAREHOUSE (KIẾN THỨC TRỌNG TÂM)
DATABASE DESIGN – THIẾT KẾ DATABASE
Bài tập buổi Truy vấn dữ liệu
Tạo database
Tạo bảng
Khóa chính – Khóa phụ – Ràng buộc dữ liệu
Thao tác với dữ liệu: thêm sửa xóa
Bài tập
THỰC HÀNH THIẾT KẾ – CƠ SỞ DỮ LIỆU
Quan hệ giữa các bảng
Chuẩn hóa cơ sở dữ liệu (1NF, 2NF, 3NF)
Thực hành thiết kế cơ sở dữ liệu theo bộ dữ liệu thật được giảng viên cung cấp
VIEW, INDEX, TURNING
Views
Index (Chỉ mục)
Transaction
Deadlock
Bài tập
TURNING SQL – KỸ THUẬT TĂNG TỐC ĐỘ CÂU TRUY VẤN
Nguyên nhân gây chậm câu truy vấn SQL
Công cụ turning, debug, tracing
Tối ưu hóa câu lệnh SQL
Execution plan (Kế hoạch thực thi)
Bài tập thực hành
Thực hành Project:
THIẾT KẾ DATABASE VÀ TẠO CÁC PROCEDURE XỬ LÝ NGHIỆP VỤ CHO BÀI TOÀN EVOUCHER
Dựa trên Chi tiết nghiệp vụ mô tả trong file SRS: XÂY DỰNG VÀ TRIỂN KHAI PHẦN MỀM QUẢN LÝ EVOUCHER CHO CÁN BỘ NHÂN VIÊN
Học viên sẽ được cung cấp bộ data thực bao gồm: – File dữ liệu Nhân viên – File dữ liệu ngân sách – File dữ liệu voucher Sau đó tiến hành thiết kế lên 1 Database hoàn chỉnh Bài làm học viên K7: Link
PHẦN 2: XÂY DỰNG DATA WAREHOUSE -ETL KIẾN THỨC TRỌNG TÂM
TỔNG QUAN VỀ DATA WAREHOUSE
Data Warehouse
ETL – Công nghệ ETL
SQL Server Integration Service
Bài tập
THỰC HÀNH XÂY DỰNG DATA WAREHOUSE – ETL
Bài tập Thiết kế Data Warehouse
Thiết kế Data Warehouse
Thiết kế ETL lần đầu
Bài tập
THỰC HÀNH DATA WAREHOUSE – ETL
ETL Lần sau
Xử lý lỗi
Logging+ Checkpoint
Triển khai và lập lịch
PROJECT XÂY DỰNG DATA WAREHOUSE
Mở rộng DWH đã xây dựng, thiết kế ETL trên SSIS với các báo cáo.
Thực hành project
XÂY DỰNG KHO DỮ LIỆU (DATA WAREHOUSE) TỪ HỆ THỐNG BÁN TOUR DU LỊCH
Dựa trên Chi tiết nghiệp vụ mô tả trong file SRS: – Thu thập dữ liệu từ nguồn – Phân tích, tổng hợp báo cáo đưa vào Data Warehouse
PHẦN 3: BUSINESS INTELIGENCE – DATA VISUALIZATION
TƯ DUY ĐÚNG KHI DATA VISUALIZATION
Cách xây dashboard dễ hiểu
Phân tích mô hình kinh doanh
Thực hành
DATA VISUALIZAITION TRÊN POWER BI
Lấy dữ liệu vào Power BI
Xây dựng biểu đồ trên Power BI
Thực hành
BUSINESS INTELLIGENCE TRÊN POWER BI
Diễn giải dữ liệu dễ hiểu
Thực hành
Thực hành Project:
XÂY BÁO CÁO DASHBOARD CHO HỆ THỐNG BÁN TOUR DU LỊCH
Dựa trên Chi tiết nghiệp vụ mô tả trong file SRS: – Xây dựng mô hình chỉ số đo lường hiệu quả kinh doanh – Phân tích mô hình kinh doanh của hệ thống tour du lịch qua biểu đồ – Trực quan hóa báo cáo bằng các biểu đồ trên PowerBI
PHẦN 4: CLOUD: AWS, GOOGLE CLOUD, AZURE
Thành thạo xây dựng Data Warehouse trên Top 3 Cloud hàng đầu: AWS + Google Cloud + Azure
Học viên sẽ được cung cấp tài khoản AWS: – Tiếp cận các nền tảng dữ liệu Cloud phổ biến nhất trên thị trường hiện tại (AWS, Azure, Cloud) – Kéo dữ liệu từ nhiều nguồn – Back up theo định kỳ – Chạy job theo định kỳ – Lưu trữ file trên S3 – Visual ETL với AWS Glue – Ứng dụng xây dựng Data Pipeline, Data Warehouse, Data Lake trên Cloud.
Thực hành Project:
Thiết kế và tạo database trên nền tảng Amazon Web Service S3 cho cửa hàng kinh doanh sách online và offline.
PHẦN 5: BIG DATA – DATA LAKE
TẤT TẦN TẬT VỀ BIG DATA DÀNH RIÊNG CHO DATA ENGINEER
– Vận dụng được tình huống phân tán – Sử dụng hệ thống phân tán trong bigdata – Kiến trúc và các thành phần trong hệ thống phân tán – Xây dựng Data lake và liên hệ với Quy trình xử lý bigdata – Sử dụng Batch processing và Stream processing – Tiếp Cận được kiến trúc Data Lake – Hiểu về siêu dữ liệu & quản lý siêu dữ liệu trong Data Lake – Nắm bắt các hệ sinh thái công nghệ trong Hadoop để làm việc với Data Lake – Sử dụng thành thạo công cụ làm việc với Data Lake – Áp dụng công cụ trong các công đoạn làm việc với DataLake – Kiến thức và kĩ thuật phân tích dữ liệu và phân tán – Liên hệ giữa bản chất của phân tích phân tán và hệ thống phân tán – Làm được phương pháp lập trình Map-Reduce – Lập trình phân tích dữ liệu Spark RDD cùng các phương pháp tối ưu – Lập trình phân tích dữ liệu Spark DataFrame – Lập trình phân tích dữ liệu Spark SQL – Lập trình phân tích dữ liệu thời gian thực với Dstream và StructStream.
Thực hành 3 Project Big Data:
Xây dựng AWS Data Pipeline ELT pipeline sử dụng AWS, Airflow, dbt, Terraform, Metabase
Hệ thống xử lý dữ liệu Apache Kafka với dữ liệu thu từ các thiết bị NEST
ĐỘI NGŨ GIẢNG VIÊN
Giảng viên khóa học sở hữu những bằng cấp lớn cùng với nhiều kinh nghiệm trong cả lĩnh vực tài chính và công nghệ thông tin.
NGUYỄN THẾ ANH
Enterprise Architecture at BRG
15+ năm kinh nghiệm làm việc thực tế về chuyển đổi số, tham gia phát triển nhiều dự án CNTT lớn.
Đã có kinh nghiêm làm việc chuyển đổi số cho hơn 100 dự án phần mềm trong và ngoài nước (Mỹ và Malaysia)
Đã làm các dự án phần mềm – Chuyển đổi số cho Chính phủ