ERP
Chuyên ngành
Tools/Apps
Công nghệ
Code riêng
Xem thêm kho ứng dụng phần mềm >> Xem tại đây

Khóa học Big Data Engineer

28/05/2025

Mục tiêu khóa học Big Data Engineer tại TacaSoft

  • Thiết kế Data Pipeline thu thập dữ liệu từ nhiều nguồn
  • Tự xây dựng hệ thống Data Warehouse, Data Lakehouse hoàn chỉnh
  • Xây dựng Data Warehouse, Data Lakehouse trên Cloud
  • Đáp ứng nhu cầu tuyển dụng Data Engineer

Chi tiết kỹ năng làm được sau khóa học

  • Thành thạo kỹ năng truy vấn và lấy dữ liệu SQL dạng chuẩn, các kỹ viết câu truy vấn tối ưu cho hàng triệu bản ghi.
  • Thành thạo cách thiết kế các Data Model trong việc thiết kế Data Warehouse, Data Lakehouse, Cloud
  • Thành thạo các công nghệ ETL và quy trình ETL với công nghệ nền tảng SSIS
  • Cài đặt hadoop yarn single node và multinode, Sử dụng HDFS command line, thực hành map-reduce
  • Sử dụng spark, các thành phần của park, cài đặt spark single node
  • Sử dụng ngôn ngữ scala để thực hành spark
  • Thực hành spark context, spark rdd, spark transformation & action
  • Spark GroupbyKey và ReducebyKey, intersect, distinct, join, linear RDD & DAG
  • Spark Session, cache và persist
  • Cài đặt spark cluster
  • Làm quy trình pipeline trong quản trị dữ liệu
  • Thành thạo quy trình và các bước làm phân tích dữ liệu với Power BI
  • Xây dựng bộ phận báo cáo quản trị, báo cáo phân tích dữ liệu
  • Phân tích dữ liệu trong các công ty lớn như ngân hàng, tập đoàn lớn,…
  • Thành thạo các dịch vụ dữ liệu của AWS một trong những platform được dùng phổ biến nhất trong các dự án về Big Data
  • Xây dựng datalake , data warehouse trên công nghệ Cloud

Lộ trình khóa học

PHẦN 1: SQL TO DATA WAREHOUSE (KIẾN THỨC TRỌNG TÂM)

DATABASE DESIGN – THIẾT KẾ DATABASE

  • Bài tập buổi Truy vấn dữ liệu
  • Tạo database
  • Tạo bảng
  • Khóa chính – Khóa phụ – Ràng buộc dữ liệu
  • Thao tác với dữ liệu: thêm sửa xóa
  • Bài tập

THỰC HÀNH THIẾT KẾ – CƠ SỞ DỮ LIỆU

  • Quan hệ giữa các bảng
  • Chuẩn hóa cơ sở dữ liệu (1NF, 2NF, 3NF)
  • Thực hành thiết kế cơ sở dữ liệu theo bộ dữ liệu thật được giảng viên cung cấp

VIEW, INDEX, TURNING

  • Views
  • Index (Chỉ mục)
  • Transaction
  • Deadlock
  • Bài tập

TURNING SQL – KỸ THUẬT TĂNG TỐC ĐỘ CÂU TRUY VẤN

  • Nguyên nhân gây chậm câu truy vấn SQL
  • Công cụ turning, debug, tracing
  • Tối ưu hóa câu lệnh SQL
  • Execution plan (Kế hoạch thực thi)
  • Bài tập thực hành

Thực hành Project: 

THIẾT KẾ DATABASE VÀ TẠO CÁC PROCEDURE XỬ LÝ NGHIỆP VỤ CHO BÀI TOÀN EVOUCHER

big-data-engineer-xu-ly-nghiep-vu-bai-toan-evoucher

Dựa trên Chi tiết nghiệp vụ mô tả trong file SRS: XÂY DỰNG VÀ TRIỂN KHAI PHẦN MỀM QUẢN LÝ EVOUCHER CHO CÁN BỘ NHÂN VIÊN
Học viên sẽ được cung cấp bộ data thực bao gồm:
– File dữ liệu Nhân viên
– File dữ liệu ngân sách
– File dữ liệu voucher
Sau đó tiến hành thiết kế lên 1 Database hoàn chỉnh
Bài làm học viên K7: Link

PHẦN 2: XÂY DỰNG DATA WAREHOUSE -ETL KIẾN THỨC TRỌNG TÂM

TỔNG QUAN VỀ DATA WAREHOUSE
  • Data Warehouse
  • ETL – Công nghệ ETL
  • SQL Server Integration Service
  • Bài tập
THỰC HÀNH XÂY DỰNG DATA WAREHOUSE – ETL
  • Bài tập Thiết kế Data Warehouse
  • Thiết kế Data Warehouse
  • Thiết kế ETL lần đầu
  • Bài tập
THỰC HÀNH DATA WAREHOUSE – ETL
  • ETL Lần sau
  • Xử lý lỗi
  • Logging+ Checkpoint
  • Triển khai và lập lịch
PROJECT XÂY DỰNG DATA WAREHOUSE
  • Mở rộng DWH đã xây dựng, thiết kế ETL trên SSIS với các báo cáo.

Thực hành project 

XÂY DỰNG KHO DỮ LIỆU (DATA WAREHOUSE) TỪ HỆ THỐNG BÁN TOUR DU LỊCH

big-data-engineer-xay-dung-kho-du-lieu-tu-he-thong-ban-tour-du-lich

Dựa trên Chi tiết nghiệp vụ mô tả trong file SRS:
– Thu thập dữ liệu từ nguồn
– Phân tích, tổng hợp báo cáo đưa vào Data Warehouse

PHẦN 3: BUSINESS INTELIGENCE – DATA VISUALIZATION

TƯ DUY ĐÚNG KHI DATA VISUALIZATION

  • Cách xây dashboard dễ hiểu
  • Phân tích mô hình kinh doanh
  • Thực hành

DATA VISUALIZAITION TRÊN POWER BI

  • Lấy dữ liệu vào Power BI
  • Xây dựng biểu đồ trên Power BI
  • Thực hành

BUSINESS INTELLIGENCE TRÊN POWER BI

  • Diễn giải dữ liệu dễ hiểu
  • Thực hành

Thực hành Project: 

XÂY BÁO CÁO DASHBOARD CHO HỆ THỐNG BÁN TOUR DU LỊCH
big-data-engineer-xay-dung-bao-cao-dashboard-cho-he-thong-ban-tour-du-lich
Dựa trên Chi tiết nghiệp vụ mô tả trong file SRS:
– Xây dựng mô hình chỉ số đo lường hiệu quả kinh doanh
– Phân tích mô hình kinh doanh của hệ thống tour du lịch qua biểu đồ
– Trực quan hóa báo cáo bằng các biểu đồ trên PowerBI

PHẦN 4: CLOUD: AWS, GOOGLE CLOUD, AZURE

Thành thạo xây dựng Data Warehouse trên
Top 3 Cloud hàng đầu: AWS + Google Cloud + Azure
big-data-engineer-thanh-thao-xay-dung-data-warehouse-tren-aws-googlecloud-azure
Học viên sẽ được cung cấp tài khoản AWS:
– Tiếp cận các nền tảng dữ liệu Cloud phổ biến nhất trên thị trường hiện tại (AWS, Azure, Cloud)
– Kéo dữ liệu từ nhiều nguồn
– Back up theo định kỳ
– Chạy job theo định kỳ
– Lưu trữ file trên S3
– Visual ETL với AWS Glue
– Ứng dụng xây dựng Data Pipeline, Data Warehouse, Data Lake trên Cloud.
Thực hành Project: 
big-data-engineer-thiet-ke-va-dao-tao-database-tren-amazon-web-service-s3
big-data-engineer-xay-dung-he-thong-datalake-voi-gcp-aws-aruze
Thiết kế và tạo database trên nền tảng Amazon Web Service S3 cho cửa hàng kinh doanh sách online và offline.

PHẦN 5: BIG DATA – DATA LAKE 

TẤT TẦN TẬT VỀ BIG DATA DÀNH RIÊNG CHO DATA ENGINEER
big-data-engineer-tat-tan-tat-ve-big-data-danh-rieng-cho-data-engineer
– Vận dụng được tình huống phân tán
– Sử dụng hệ thống phân tán trong bigdata
– Kiến trúc và các thành phần trong hệ thống phân tán
– Xây dựng Data lake và liên hệ với Quy trình xử lý bigdata
– Sử dụng Batch processing và Stream processing
– Tiếp Cận được kiến trúc Data Lake
– Hiểu về siêu dữ liệu & quản lý siêu dữ liệu trong Data Lake
– Nắm bắt các hệ sinh thái công nghệ trong Hadoop để làm việc với Data Lake
– Sử dụng thành thạo công cụ làm việc với Data Lake
– Áp dụng công cụ trong các công đoạn làm việc với DataLake
– Kiến thức và kĩ thuật phân tích dữ liệu và phân tán
– Liên hệ giữa bản chất của phân tích phân tán và hệ thống phân tán
– Làm được phương pháp lập trình Map-Reduce
– Lập trình phân tích dữ liệu Spark RDD cùng các phương pháp tối ưu
– Lập trình phân tích dữ liệu Spark DataFrame
– Lập trình phân tích dữ liệu Spark SQL
– Lập trình phân tích dữ liệu thời gian thực với Dstream và StructStream.

Thực hành 3 Project Big Data:

big-data-engineer-xay-dung-aws-data-pipeline

  • Xây dựng AWS Data Pipeline ELT pipeline sử dụng AWS, Airflow, dbt, Terraform, Metabase
  • Hệ thống xử lý dữ liệu Apache Kafka với dữ liệu thu từ các thiết bị NEST

ĐỘI NGŨ GIẢNG VIÊN

Giảng viên khóa học sở hữu những bằng cấp lớn cùng với nhiều kinh nghiệm trong cả lĩnh vực tài chính và công nghệ thông tin.

NGUYỄN THẾ ANH

Enterprise Architecture at BRG

  • 15+ năm kinh nghiệm làm việc thực tế về chuyển đổi số, tham gia phát triển nhiều dự án CNTT lớn.
  • Đã có kinh nghiêm làm việc chuyển đổi số cho hơn 100 dự án phần mềm trong và ngoài nước (Mỹ và Malaysia)
  • Đã làm các dự án phần mềm – Chuyển đổi số cho Chính phủ
Kho phần mềm
Công nghệ
Câu chuyện thành công
Subscribe
Thông báo cho
guest
0 Comments
Inline Feedbacks
View all comments

Bài viết liên quan

youtube
Xây dựng và triển khai hệ thống Báo cáo quản trị doanh nghiệp - Trải nghiệm Demo phần mềm Power Bi

    Đăng ký tư vấn
    Nhận ngay những bài viết giá trị qua email đầu tiên
    Icon

      error: Content is protected !!
      0
      Would love your thoughts, please comment.x