Data Analytics trong 90 ngày

Syllabus tổng quan

Phần 1: Nền Tảng SQL & Python (25 ngày)

  • Ngày 1-7: SQL

    • Window Functions: Sử dụng thành thạo các hàm ranking, phân tích và tổng hợp trong window functions.

    • Common Table Expressions (CTEs): Tối ưu hóa truy vấn phức tạp và cải thiện khả năng đọc code.

    • Recursive Queries: Giải quyết các bài toán liên quan đến cấu trúc dữ liệu phân cấp.

    • Indexing: Tìm hiểu về các loại index, cách tạo và tối ưu hóa index để tăng tốc độ truy vấn.

    • Query Optimization: Sử dụng EXPLAIN để phân tích kế hoạch truy vấn và áp dụng các kỹ thuật tối ưu hóa.

    • Project 1: Xây dựng một hệ thống báo cáo phân tích dữ liệu bán hàng, sử dụng CTEs và window functions để tính toán các chỉ số phức tạp như doanh thu tích lũy, thứ hạng sản phẩm bán chạy, v.v.

  • Ngày 8-14: Python

    • Object-Oriented Programming (OOP): Nắm vững các khái niệm về lớp, đối tượng, kế thừa, tính đa hình, và ứng dụng chúng trong việc xây dựng các chương trình Python phức tạp.

    • Regular Expressions (Regex): Sử dụng regex để tìm kiếm và thao tác với chuỗi văn bản một cách hiệu quả.

    • Error Handling: Sử dụng try-except để xử lý các lỗi có thể xảy ra trong quá trình thực thi chương trình.

    • Unit Testing: Viết các unit test để đảm bảo tính đúng đắn của code.

    • Project 2: Phát triển một ứng dụng dòng lệnh (CLI) sử dụng OOP để quản lý danh sách công việc (to-do list), cho phép người dùng thêm, sửa, xóa, và đánh dấu hoàn thành công việc.

  • Ngày 15-25: Thư viện Python

    • NumPy: Thao tác với mảng nhiều chiều, tính toán toán học và đại số tuyến tính.

    • Pandas: Xử lý, phân tích và biến đổi dữ liệu dạng bảng.

    • Matplotlib & Seaborn: Trực quan hóa dữ liệu với các loại biểu đồ đa dạng.

    • Scikit-learn: Xây dựng các mô hình học máy (machine learning) như hồi quy tuyến tính, cây quyết định, rừng ngẫu nhiên, v.v.

    • Project 3: Phân tích bộ dữ liệu về giá nhà, sử dụng Pandas để làm sạch và tiền xử lý dữ liệu, sau đó xây dựng mô hình hồi quy tuyến tính để dự đoán giá nhà dựa trên các đặc trưng khác nhau.

Phần 2: Kỹ Thuật Phân Tích Dữ Liệu (35 ngày)

  • Ngày 26-32: Thống Kê

    • Phân tích hồi quy (Regression Analysis): Tìm hiểu các mô hình hồi quy phức tạp hơn như hồi quy đa thức, hồi quy logistic, hồi quy Poisson, v.v.

    • Phân tích chuỗi thời gian (Time Series Analysis): Sử dụng các mô hình như ARIMA, SARIMA, Prophet để dự báo các chuỗi thời gian.

    • Kiểm định giả thuyết nâng cao: Tìm hiểu về các phương pháp kiểm định giả thuyết không tham số và các kiểm định đa biến.

    • Project 4: Thực hiện phân tích hồi quy để tìm hiểu mối quan hệ giữa các yếu tố ảnh hưởng đến doanh số bán hàng của một sản phẩm.

  • Ngày 33-42: Phân Tích Dữ Liệu Khám Phá (EDA)

    • Phân tích nhân tố (Factor Analysis): Sử dụng phân tích nhân tố khám phá (EFA) và phân tích nhân tố khẳng định (CFA) để giảm số lượng biến và tìm ra các nhân tố tiềm ẩn.

    • Phân tích thành phần chính (Principal Component Analysis - PCA): Giảm chiều dữ liệu và trực quan hóa dữ liệu nhiều chiều.

    • Phân tích tương ứng (Correspondence Analysis - CA): Trực quan hóa mối quan hệ giữa các biến phân loại.

    • Project 5: Thực hiện phân tích nhân tố trên bộ dữ liệu khảo sát khách hàng để tìm ra các nhóm yếu tố quan trọng ảnh hưởng đến sự hài lòng của khách hàng.

  • Ngày 43-57: Học Máy (Machine Learning)

    • Học sâu (Deep Learning): Tìm hiểu về mạng nơ-ron nhân tạo (neural networks), mạng nơ-ron tích chập (convolutional neural networks - CNN), mạng nơ-ron hồi quy (recurrent neural networks - RNN), v.v.

    • Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP): Sử dụng các kỹ thuật NLP để phân tích văn bản, trích xuất thông tin, phân loại văn bản, v.v.

    • Tối ưu hóa siêu tham số (Hyperparameter Tuning): Tìm kiếm các giá trị tối ưu cho các siêu tham số của mô hình học máy.

    • Project 6: Xây dựng mô hình học sâu để phân loại hình ảnh hoặc thực hiện một tác vụ NLP như phân tích cảm xúc (sentiment analysis).

Phần 3: Trình Bày & Giao Tiếp Dữ Liệu

  • Ngày 58-67: Power BI Nâng Cao

    • DAX nâng cao: Sử dụng các hàm DAX phức tạp như CALCULATE, FILTER, ALL, v.v. để tính toán các chỉ số tùy chỉnh.

    • Mô hình dữ liệu phức tạp: Thiết kế mô hình dữ liệu sao (star schema) hoặc bông tuyết (snowflake schema) để tối ưu hóa hiệu suất truy vấn.

    • Tương tác nâng cao: Tạo các báo cáo tương tác với drillthrough, bookmark, v.v.

    • Project 7: Xây dựng một dashboard tương tác trong Power BI để theo dõi và phân tích hiệu suất kinh doanh của một công ty, sử dụng các kỹ thuật DAX nâng cao và mô hình dữ liệu phức tạp.

  • Ngày 68-77: Kể Chuyện với Dữ Liệu (Data Storytelling)

    • Storytelling với các loại hình trực quan khác nhau: Sử dụng infographics, video, bản đồ tư duy, v.v. để kể chuyện với dữ liệu một cách sáng tạo và hấp dẫn.

    • Thuyết trình hiệu quả: Luyện tập các kỹ năng thuyết trình như giọng nói, ngôn ngữ cơ thể, quản lý thời gian, v.v.

    • Tạo slide thuyết trình chuyên nghiệp: Sử dụng các công cụ thiết kế để tạo các slide thuyết trình đẹp mắt và dễ hiểu.

    • Project 8: Tạo một video hoặc infographic kể chuyện với dữ liệu về một vấn đề xã hội mà bạn quan tâm.

  • Ngày 78-87: Giao Tiếp Hiệu Quả

    • Thuyết phục bằng dữ liệu: Sử dụng dữ liệu và phân tích để đưa ra các lập luận thuyết phục và đưa ra quyết định dựa trên bằng chứng.

    • Xây dựng mối quan hệ với các bên liên quan: Học cách giao tiếp hiệu quả với các bên liên quan khác nhau như quản lý, đồng nghiệp, khách hàng, v.v.

    • Quản lý xung đột: Giải quyết các xung đột có thể xảy ra trong quá trình làm việc nhóm.

    • Project 9: Tổ chức một buổi workshop về phân tích dữ liệu cho các đồng nghiệp không chuyên về kỹ thuật, giúp họ hiểu và sử dụng dữ liệu để đưa ra quyết định tốt hơn.

Phần 4: Dự Án Thực Tế (5 ngày)

  • Ngày 88-90: Dự Án Capstone

    • Chọn một bài toán thực tế: Bạn có thể chọn một bài toán từ công ty bạn đang làm việc, một bộ dữ liệu mở, hoặc một dự án cá nhân mà bạn quan tâm.

    • Áp dụng toàn bộ kiến thức: Sử dụng tất cả các kỹ năng và kiến thức đã học để giải quyết bài toán một cách toàn diện.

    • Trình bày kết quả: Chuẩn bị một bài báo cáo hoặc bài thuyết trình để trình bày kết quả dự án.

Syllabus chi tiết

Phần 1: Nền Tảng SQL & Python

SQL Nâng Cao

  • Ngày 1:

    • Sáng: Window Functions: Tìm hiểu về các hàm RANK, DENSE_RANK, ROW_NUMBER, NTILE.

    • Chiều: Thực hành:

      • Tính toán thứ hạng của khách hàng dựa trên tổng số tiền mua hàng.

      • Tìm ra top 3 sản phẩm bán chạy nhất trong mỗi tháng.

      • Phân loại khách hàng thành các nhóm dựa trên tổng số tiền mua hàng (ví dụ: nhóm VIP, nhóm thường, v.v.).

  • Ngày 2:

    • Sáng: Window Functions: Tìm hiểu về các hàm LEAD, LAG, FIRST_VALUE, LAST_VALUE.

    • Chiều: Thực hành:

      • Tính toán sự thay đổi doanh số bán hàng so với tháng trước cho từng sản phẩm.

      • Tìm ra sản phẩm có sự tăng trưởng doanh số cao nhất trong quý gần nhất.

      • Tính toán giá trị trung bình của đơn hàng trong 30 ngày gần nhất.

  • Ngày 3:

    • Sáng: Window Functions: Tìm hiểu về các hàm SUM, AVG, COUNT, MAX, MIN trong window functions.

    • Chiều: Thực hành:

      • Tính toán doanh số bán hàng tích lũy theo tháng cho từng sản phẩm.

      • Tìm ra khách hàng có tổng số tiền mua hàng cao nhất trong mỗi năm.

      • Tính toán số lượng sản phẩm trung bình được bán ra trong mỗi đơn hàng.

  • Ngày 4:

    • Sáng: Common Table Expressions (CTEs): Tìm hiểu về cú pháp và cách sử dụng CTEs.

    • Chiều: Thực hành:

      • Sử dụng CTEs để tính toán tỷ lệ hoàn thành đơn hàng theo từng khu vực và so sánh với tỷ lệ trung bình.

      • Tìm ra các sản phẩm chưa từng được đặt hàng.

      • Tạo một báo cáo phân tích chi tiết về hành vi mua hàng của khách hàng, sử dụng CTEs để tổ chức và tính toán các chỉ số khác nhau.

  • Ngày 5:

    • Sáng: Recursive Queries: Tìm hiểu về cú pháp và cách sử dụng recursive queries.

    • Chiều: Thực hành:

      • Sử dụng recursive queries để xây dựng cây phân cấp sản phẩm theo danh mục.

      • Tìm ra tất cả các cấp quản lý của một nhân viên cụ thể trong công ty.

      • Tính toán tổng chi phí của một dự án, bao gồm cả chi phí của các dự án con.

  • Ngày 6:

    • Sáng: Indexing: Tìm hiểu về các loại index (B-tree, hash, v.v.) và cách chúng hoạt động.

    • Chiều: Thực hành:

      • Tạo index cho các cột thường xuyên được sử dụng trong truy vấn, chẳng hạn như cột "customer_id" trong bảng đơn hàng.

      • So sánh hiệu suất truy vấn trước và sau khi tạo index.

      • Tìm hiểu về các trường hợp không nên sử dụng index.

  • Ngày 7:

    • Sáng: Query Optimization: Sử dụng EXPLAIN để phân tích kế hoạch truy vấn.

    • Chiều: Project 1: Xây dựng hệ thống báo cáo phân tích dữ liệu bán hàng của một cửa hàng điện tử, bao gồm các chỉ số như doanh thu theo thời gian, sản phẩm bán chạy nhất, khách hàng tiềm năng, v.v.

      • Sử dụng các kiến thức về window functions, CTEs, recursive queries, indexing và query optimization để tối ưu hóa hiệu suất của hệ thống báo cáo.

Python

  • Ngày 8:

    • Sáng: OOP: Tìm hiểu về các khái niệm lớp (class), đối tượng (object), thuộc tính (attribute), phương thức (method).

    • Chiều: Thực hành:

      • Tạo một lớp "Student" với các thuộc tính như tên, tuổi, điểm trung bình và các phương thức như tính điểm trung bình, xếp loại học lực.

      • Tạo một lớp "Course" với các thuộc tính như tên khóa học, giảng viên, danh sách sinh viên và các phương thức như thêm, xóa sinh viên, tính điểm trung bình của lớp.

      • Tạo một lớp "Library" với các thuộc tính như tên thư viện, danh sách sách và các phương thức như thêm, xóa sách, tìm kiếm sách theo tên hoặc tác giả.

  • Ngày 9:

    • Sáng: OOP: Tìm hiểu về kế thừa (inheritance) và tính đa hình (polymorphism).

    • Chiều: Thực hành:

      • Tạo một lớp "GraduateStudent" kế thừa từ lớp "Student" và thêm các thuộc tính và phương thức đặc trưng cho sinh viên đã tốt nghiệp, chẳng hạn như năm tốt nghiệp, luận văn tốt nghiệp.

      • Tạo một lớp "PartTimeStudent" kế thừa từ lớp "Student" và thêm các thuộc tính và phương thức đặc trưng cho sinh viên bán thời gian, chẳng hạn như số giờ làm việc mỗi tuần.

      • Tạo một lớp "Animal" với các phương thức như "speak" và "move". Sau đó, tạo các lớp con như "Dog", "Cat", "Bird" kế thừa từ lớp "Animal" và ghi đè (override) các phương thức này để mỗi loài vật có tiếng kêu và cách di chuyển riêng.

  • Ngày 10:

    • Sáng: Regular Expressions (Regex): Tìm hiểu về cú pháp cơ bản của regex.

    • Chiều: Thực hành:

      • Sử dụng regex để tìm kiếm và trích xuất các địa chỉ email từ một đoạn văn bản.

      • Sử dụng regex để kiểm tra tính hợp lệ của một số điện thoại.

      • Sử dụng regex để thay thế tất cả các từ viết hoa bằng từ viết thường trong một đoạn văn bản.

  • Ngày 11:

    • Sáng: Error Handling: Tìm hiểu về try-except và cách xử lý các loại ngoại lệ khác nhau.

    • Chiều: Thực hành:

      • Viết một chương trình tính toán phép chia, sử dụng try-except để xử lý trường hợp chia cho 0.

      • Viết một chương trình đọc dữ liệu từ một file, sử dụng try-except để xử lý trường hợp file không tồn tại.

      • Viết một chương trình yêu cầu người dùng nhập một số nguyên, sử dụng try-except để xử lý trường hợp người dùng nhập một giá trị không phải là số nguyên.

  • Ngày 12:

    • Sáng: Unit Testing: Tìm hiểu về unittest framework và cách viết các unit test đơn giản.

    • Chiều: Thực hành:

      • Viết unit test cho các phương thức của lớp "Student" đã tạo ở các ngày trước.

      • Viết unit test cho các hàm xử lý chuỗi, chẳng hạn như hàm đảo ngược chuỗi, hàm đếm số lượng từ trong chuỗi.

      • Viết unit test cho các hàm tính toán, chẳng hạn như hàm tính giai thừa, hàm tính tổng của một dãy số.

  • Ngày 13:

    • Cả ngày: Project 2: Phát triển ứng dụng quản lý danh sách công việc (to-do list) sử dụng OOP và các kỹ thuật đã học.

Thư viện Python

  • Ngày 14:

    • Sáng: NumPy: Tìm hiểu về mảng NumPy (ndarray) và các thao tác cơ bản.

    • Chiều: Thực hành:

      • Tạo mảng NumPy chứa các số ngẫu nhiên, các số nguyên liên tiếp, v.v.

      • Thực hiện các phép tính toán học trên mảng NumPy, chẳng hạn như cộng, trừ, nhân, chia, lũy thừa.

      • Thực hiện các phép toán đại số tuyến tính trên mảng NumPy, chẳng hạn như tính định thức, ma trận nghịch đảo, nhân ma trận.

  • Ngày 15:

    • Sáng: Pandas: Tìm hiểu về Series và DataFrame, hai cấu trúc dữ liệu chính của Pandas.

    • Chiều: Thực hành:

      • Đọc dữ liệu từ file CSV vào DataFrame, thực hiện các thao tác làm sạch và biến đổi dữ liệu.

      • Tạo DataFrame từ một dictionary hoặc một list.

      • Lọc, sắp xếp, và truy cập các phần tử trong DataFrame.

  • Ngày 16:

    • Sáng: Pandas: Tìm hiểu về các hàm thống kê và nhóm dữ liệu trong Pandas.

    • Chiều: Thực hành:

      • Tính toán các chỉ số thống kê mô tả cho các cột trong DataFrame, chẳng hạn như giá trị trung bình, trung vị, độ lệch chuẩn.

      • Nhóm dữ liệu theo các tiêu chí khác nhau, chẳng hạn như nhóm khách hàng theo độ tuổi, nhóm sản phẩm theo danh mục.

      • Tính toán tổng doanh thu theo từng tháng, từng sản phẩm.

  • Ngày 17:

    • Sáng: Matplotlib: Tìm hiểu về các loại biểu đồ cơ bản như line chart, bar chart, scatter plot.

    • Chiều: Thực hành:

      • Vẽ biểu đồ thể hiện xu hướng doanh số bán hàng theo thời gian.

      • Vẽ biểu đồ so sánh doanh số bán hàng của các sản phẩm khác nhau.

      • Vẽ biểu đồ phân bố của một biến số, chẳng hạn như phân bố độ tuổi của khách hàng.

  • Ngày 18:

    • Sáng: Seaborn: Tìm hiểu về các biểu đồ nâng cao như heatmap, pairplot, violin plot.

    • Chiều: Thực hành:

      • Vẽ biểu đồ heatmap thể hiện mối tương quan giữa các biến trong DataFrame về chất lượng rượu vang.

      • Vẽ biểu đồ pairplot để khám phá mối quan hệ giữa các đặc trưng của rượu vang.

      • Vẽ biểu đồ violin plot để so sánh phân bố của một biến giữa các nhóm khác nhau, ví dụ: phân bố độ cồn theo loại rượu vang.

  • Ngày 19:

    • Sáng: Scikit-learn: Tìm hiểu về quy trình xây dựng mô hình học máy và các thuật toán cơ bản như hồi quy tuyến tính, logistic regression.

    • Chiều: Thực hành:

      • Xây dựng mô hình hồi quy tuyến tính để dự đoán giá rượu vang dựa trên các đặc trưng như độ cồn, độ pH, v.v.

      • Xây dựng mô hình logistic regression để phân loại rượu vang thành các loại khác nhau (đỏ, trắng, rosé).

      • Đánh giá hiệu suất của các mô hình bằng các độ đo như MSE, MAE, accuracy, precision, recall.

  • Ngày 20:

    • Sáng: Scikit-learn: Tìm hiểu về các thuật toán cây quyết định và rừng ngẫu nhiên.

    • Chiều: Thực hành:

      • Xây dựng mô hình cây quyết định để dự đoán chất lượng rượu vang.

      • Xây dựng mô hình rừng ngẫu nhiên để dự đoán chất lượng rượu vang.

      • So sánh hiệu suất của các mô hình cây quyết định và rừng ngẫu nhiên.

  • Ngày 21-25:

    Project 3: Phân tích bộ dữ liệu về chất lượng rượu vang, sử dụng Pandas để làm sạch và tiền xử lý dữ liệu, sau đó xây dựng mô hình phân loại để dự đoán chất lượng rượu vang dựa trên các đặc trưng hóa học.

    • Áp dụng các kỹ thuật NumPy, Pandas, Matplotlib, Seaborn và scikit-learn đã học để phân tích và trực quan hóa dữ liệu.

    • Thử nghiệm các mô hình học máy khác nhau để tìm ra mô hình tốt nhất cho bài toán.

    • Đánh giá hiệu suất của mô hình và tối ưu hóa các siêu tham số.

    • Trình bày kết quả phân tích và dự đoán dưới dạng báo cáo hoặc bài thuyết trình.

Project 3: Phân tích và Dự đoán Chất Lượng Rượu Vang (5 ngày)

Ngày 21:

  • Sáng: Khám phá và làm sạch dữ liệu:

    • Đọc dữ liệu từ file CSV vào DataFrame Pandas.

    • Kiểm tra thông tin tổng quan về dữ liệu (số lượng dòng, cột, kiểu dữ liệu, giá trị thiếu, v.v.) bằng các hàm df.info(), df.describe().

    • Xử lý các giá trị thiếu: Loại bỏ hoặc điền giá trị thay thế (ví dụ: giá trị trung bình, trung vị) tùy thuộc vào đặc điểm của từng cột.

    • Kiểm tra và loại bỏ các giá trị ngoại lai (outliers) nếu cần thiết.

  • Chiều: Phân tích dữ liệu thăm dò (EDA):

    • Trực quan hóa phân bố của các biến số liên tục bằng histogram, boxplot.

    • Trực quan hóa mối quan hệ giữa các biến số liên tục bằng scatter plot, pairplot.

    • Trực quan hóa mối quan hệ giữa các biến phân loại và biến mục tiêu bằng bar chart, countplot.

    • Tính toán các chỉ số thống kê mô tả như giá trị trung bình, độ lệch chuẩn, phân vị, v.v.

Ngày 22:

  • Sáng: Tiền xử lý dữ liệu:

    • Mã hóa các biến phân loại (categorical) bằng các kỹ thuật như one-hot encoding, label encoding.

    • Chuẩn hóa hoặc chia tỷ lệ các biến số liên tục để đưa chúng về cùng một khoảng giá trị.

    • Chia dữ liệu thành tập huấn luyện (train set) và tập kiểm tra (test set) theo tỷ lệ phù hợp (ví dụ: 80/20).

  • Chiều: Xây dựng mô hình cơ sở (baseline model):

    • Chọn một mô hình phân loại đơn giản như logistic regression hoặc cây quyết định làm mô hình cơ sở.

    • Huấn luyện mô hình trên tập huấn luyện và đánh giá hiệu suất trên tập kiểm tra bằng các độ đo như accuracy, precision, recall, F1-score.

Ngày 23:

  • Sáng: Thử nghiệm các mô hình học máy khác nhau:

    • Thử nghiệm các mô hình phân loại khác nhau như SVM, random forest, gradient boosting, v.v.

    • Sử dụng kỹ thuật cross-validation để đánh giá hiệu suất của các mô hình một cách chính xác hơn.

  • Chiều: Tối ưu hóa siêu tham số:

    • Sử dụng các kỹ thuật như grid search hoặc random search để tìm ra các giá trị tối ưu cho các siêu tham số của mô hình.

    • Đánh giá lại hiệu suất của mô hình sau khi tối ưu hóa siêu tham số.

Ngày 24:

  • Sáng: Đánh giá và so sánh các mô hình:

    • So sánh hiệu suất của các mô hình đã thử nghiệm và lựa chọn mô hình tốt nhất dựa trên các tiêu chí đánh giá đã chọn.

    • Phân tích ma trận nhầm lẫn (confusion matrix) của mô hình tốt nhất để hiểu rõ hơn về các lỗi phân loại.

  • Chiều: Giải thích mô hình:

    • Sử dụng các kỹ thuật như feature importance hoặc partial dependence plot để hiểu rõ hơn về tầm quan trọng của các đặc trưng trong việc dự đoán chất lượng rượu vang.

    • Giải thích các quyết định của mô hình bằng các ví dụ cụ thể.

Ngày 25:

  • Cả ngày: Trình bày kết quả:

    • Chuẩn bị báo cáo hoặc bài thuyết trình để trình bày kết quả phân tích và dự đoán.

    • Mô tả quá trình phân tích dữ liệu, các mô hình đã sử dụng, kết quả đánh giá mô hình, và các thông tin chi tiết rút ra từ phân tích.

    • Trực quan hóa kết quả bằng các biểu đồ, bảng biểu, và các hình ảnh khác.

    • Đưa ra các khuyến nghị dựa trên kết quả phân tích để cải thiện chất lượng rượu vang hoặc hỗ trợ quá trình sản xuất rượu vang.

Phần 2: Kỹ Thuật Phân Tích Dữ Liệu

Thống Kê

  • Ngày 26:

    • Sáng: Polynomial Regression: Tìm hiểu về mô hình và cách đánh giá.

    • Chiều: Thực hành:

      • Polynomial Regression trên dữ liệu giá nhà: Sử dụng biến "diện tích" (area) và "diện tích bình phương" (area squared) để dự đoán giá nhà.

      • Polynomial Regression trên dữ liệu doanh số bán hàng: Sử dụng biến "chi phí quảng cáo" (advertising cost) và "chi phí quảng cáo bình phương" (advertising cost squared) để dự đoán doanh số.

      • Polynomial Regression trên dữ liệu tăng trưởng dân số: Sử dụng biến "thời gian" (time) và "thời gian bình phương" (time squared) để dự đoán dân số.

      • Giải thích thuật ngữ:

        • Polynomial Regression: là thuật toán hồi quy đa thức, nó giống như thuật toán hồi quy tuyến tính, sử dụng mối quan hệ giữa các biến độc lập x và biến phụ thuộc y được biểu diễn dưới dạng đa thức bậc n, để tìm cách tốt nhất vẽ một đường qua các điểm dữ liệu sao cho tối ưu và phù hợp nhất. Polynomial Regression được dùng cho các bài toán về dự đoán, dự báo (prediction).
  • Ngày 27:

    • Sáng: Hồi quy logistic: Tìm hiểu về mô hình và ứng dụng trong phân loại nhị phân.

    • Chiều: Thực hành:

      • Xây dựng mô hình hồi quy logistic để dự đoán khả năng khách hàng mua sản phẩm dựa trên thông tin nhân khẩu học.

      • Xây dựng mô hình hồi quy logistic để dự đoán khả năng một bệnh nhân mắc bệnh dựa trên kết quả xét nghiệm.

      • Xây dựng mô hình hồi quy logistic để dự đoán khả năng một email là spam dựa trên nội dung email.

  • Ngày 28:

    • Sáng: Hồi quy Poisson: Tìm hiểu về mô hình và ứng dụng trong dự báo số lượng sự kiện; Phân tích chuỗi thời gian (ARIMA): Tìm hiểu về các thành phần của mô hình ARIMA và cách lựa chọn tham số.

    • Chiều: Thực hành:

      • Xây dựng mô hình hồi quy Poisson để dự báo số lượng cuộc gọi đến trung tâm hỗ trợ khách hàng theo giờ.

      • Xây dựng mô hình hồi quy Poisson để dự báo số lượng tai nạn giao thông xảy ra trong một ngày.

      • Xây dựng mô hình hồi quy Poisson để dự báo số lượng bàn thắng được ghi trong một trận bóng đá.

      • Xây dựng mô hình ARIMA để dự báo doanh số bán hàng theo tháng.

      • Xây dựng mô hình ARIMA để dự báo số lượng khách hàng truy cập website theo ngày.

      • Xây dựng mô hình ARIMA để dự báo giá cổ phiếu theo tuần.

  • Ngày 29:

    • Sáng: Phân tích chuỗi thời gian (Seasonal Autoregressive Integrated Moving Average - SARIMA): Tìm hiểu về mô hình SARIMA và cách xử lý tính mùa vụ trong dữ liệu chuỗi thời gian.

    • Chiều: Thực hành:

      • Xây dựng mô hình SARIMA để dự báo doanh số bán hàng theo tháng, có tính đến tính mùa vụ.

      • Xây dựng mô hình SARIMA để dự báo số lượng khách du lịch đến một địa điểm theo tháng, có tính đến tính mùa vụ.

      • Xây dựng mô hình SARIMA để dự báo lượng mưa theo tháng, có tính đến tính mùa vụ.

  • Ngày 30:

    • Sáng: Kiểm định giả thuyết không tham số: Tìm hiểu về các kiểm định như Mann-Whitney U test, Wilcoxon signed-rank test, Kruskal-Wallis H test.

    • Chiều: Thực hành:

      • Sử dụng Mann-Whitney U test để so sánh hai nhóm độc lập về một biến số liên tục, ví dụ: so sánh hiệu quả của hai loại thuốc giảm đau.

      • Sử dụng Wilcoxon signed-rank test để so sánh hai nhóm phụ thuộc về một biến số liên tục, ví dụ: so sánh hiệu quả của một loại thuốc trước và sau khi điều trị.

      • Sử dụng Kruskal-Wallis H test để so sánh ba hoặc nhiều nhóm độc lập về một biến số liên tục, ví dụ: so sánh mức độ hài lòng của khách hàng với ba sản phẩm khác nhau.

  • Ngày 31:

    • Sáng: Kiểm định giả thuyết đa biến: Tìm hiểu về các kiểm định như MANOVA (Multivariate analysis of variance), Hotelling's T-squared test.

    • Chiều: Thực hành:

      • Sử dụng MANOVA để so sánh hai hoặc nhiều nhóm về nhiều biến số liên tục, ví dụ: so sánh hiệu quả của hai phương pháp giảng dạy trên nhiều tiêu chí đánh giá.

      • Sử dụng Hotelling's T-squared test để so sánh hai nhóm về nhiều biến số liên tục, ví dụ: so sánh hiệu quả của một loại thuốc trên nhiều triệu chứng bệnh.

  • Ngày 32:

    • Cả ngày: Project 4: Thực hiện phân tích hồi quy để tìm hiểu mối quan hệ giữa các yếu tố ảnh hưởng đến doanh số bán hàng của một sản phẩm.

      • Thu thập dữ liệu về doanh số bán hàng, giá cả, chi phí quảng cáo, và các yếu tố khác có thể ảnh hưởng đến doanh số.

      • Xây dựng mô hình hồi quy tuyến tính hoặc hồi quy đa thức để dự đoán doanh số dựa trên các yếu tố này.

      • Đánh giá mô hình và giải thích kết quả.

      • Đưa ra khuyến nghị dựa trên kết quả phân tích.

Phân Tích Dữ Liệu Khám Phá (Exploratory Data Analysis – EDA)

  • Ngày 33:

    • Sáng: Phân tích nhân tố khám phá (Exploratory Factor Analysis - EFA): Tìm hiểu về các khái niệm cơ bản và các bước thực hiện EFA.

    • Chiều: Thực hành: Thực hiện EFA trên một bộ dữ liệu khảo sát để tìm ra các nhân tố tiềm ẩn giải thích sự biến thiên của các biến quan sát.

  • Ngày 34:

    • Sáng: Phân tích nhân tố khẳng định (Confirm Factor Analysis - CFA): Tìm hiểu về các khái niệm cơ bản và các bước thực hiện CFA.

    • Chiều: Thực hành: Thực hiện CFA để kiểm tra tính phù hợp của một mô hình nhân tố đã được đề xuất trước đó.

  • Ngày 35:

    • Sáng: Phân tích thành phần chính (Principal Components Analysis - PCA): Tìm hiểu về các khái niệm cơ bản và các bước thực hiện PCA.

    • Chiều: Thực hành: Thực hiện PCA trên một bộ dữ liệu nhiều chiều để giảm số lượng biến và trực quan hóa dữ liệu.

  • Ngày 36:

    • Sáng: Phân tích tương ứng (Correspondence Analysis - CA): Tìm hiểu về các khái niệm cơ bản và các bước thực hiện CA.

    • Chiều: Thực hành: Thực hiện CA trên một bảng dự phòng để trực quan hóa mối quan hệ giữa các biến phân loại.

  • Ngày 37:

    • Sáng: Phân tích cụm (Cluster Analysis): Tìm hiểu về các thuật toán phân cụm như k-means, hierarchical clustering.

    • Chiều: Thực hành:

      • Thực hiện phân cụm k-means trên một bộ dữ liệu khách hàng để phân loại khách hàng thành các nhóm khác nhau dựa trên hành vi mua sắm.

      • Thực hiện phân cụm hierarchical clustering trên một bộ dữ liệu về các loài thực vật để tìm ra các nhóm loài có quan hệ gần gũi với nhau.

  • Ngày 38:

    • Sáng: Phân tích quy tắc kết hợp (Association Rule Mining): Tìm hiểu về thuật toán Apriori và các chỉ số đánh giá như support, confidence, lift.

    • Chiều: Thực hành:

      • Thực hiện phân tích quy tắc kết hợp trên dữ liệu giỏ hàng của khách hàng để tìm ra các sản phẩm thường được mua cùng nhau.

      • Sử dụng các quy tắc kết hợp để đưa ra các khuyến nghị sản phẩm cho khách hàng.

  • Ngày 39:

    • Sáng: Phân tích mạng xã hội (Social Network Analysis - SNA): Tìm hiểu về các khái niệm cơ bản của SNA như độ trung tâm, độ kết nối, phân cụm.

    • Chiều: Thực hành:

      • Thực hiện SNA trên một mạng lưới các mối quan hệ bạn bè trên Facebook để tìm ra những người có ảnh hưởng lớn nhất trong mạng lưới.

      • Thực hiện SNA trên một mạng lưới các trang web để tìm ra các trang web quan trọng nhất.

  • Ngày 40:

    • Sáng: Phân tích dữ liệu văn bản (Text Analysis): Tìm hiểu về các kỹ thuật tiền xử lý văn bản như tách từ, loại bỏ stop words, stemming, lemmatization.

    • Chiều: Thực hành:

      • Tiền xử lý một tập hợp các bài đánh giá sản phẩm để chuẩn bị cho phân tích tiếp theo.

      • Trích xuất các tính năng (features) từ văn bản, chẳng hạn như tần suất xuất hiện của các từ, độ dài của văn bản, v.v.

  • Ngày 41:

    • Sáng: Phân tích dữ liệu văn bản (Text Analysis): Tìm hiểu về các mô hình phân tích văn bản như phân tích chủ đề (topic modeling), phân tích cảm xúc (sentiment analysis).

    • Chiều: Thực hành:

      • Thực hiện phân tích chủ đề trên một tập hợp các bài báo để tìm ra các chủ đề chính được thảo luận trong các bài báo.

      • Thực hiện phân tích cảm xúc trên một tập hợp các bài đánh giá sản phẩm để xác định xem các bài đánh giá là tích cực, tiêu cực hay trung tính.

  • Ngày 42:

    • Cả ngày: Project 5: Thực hiện EDA trên bộ dữ liệu về hành vi khách hàng của một trang thương mại điện tử, tìm kiếm các mẫu, xu hướng và mối liên hệ tiềm ẩn.

      • Áp dụng các kỹ thuật EDA nâng cao như phân tích nhân tố, PCA, CA, phân tích cụm, phân tích quy tắc kết hợp và phân tích dữ liệu văn bản.

      • Trực quan hóa dữ liệu bằng các biểu đồ phù hợp.

      • Rút ra các kết luận và đưa ra các khuyến nghị dựa trên kết quả phân tích.

Học Máy (Machine Learning)

  • Ngày 43:

    • Sáng: Học sâu (Deep Learning): Tìm hiểu về mạng nơ-ron nhân tạo (neural networks) và các khái niệm cơ bản như perceptron, hàm kích hoạt, lan truyền ngược.

    • Chiều: Thực hành: Xây dựng một mạng nơ-ron đơn giản để giải quyết một bài toán phân loại nhị phân, ví dụ: phân loại email là spam hay không spam.

  • Ngày 44:

    • Sáng: Học sâu (Deep Learning): Tìm hiểu về các mạng nơ-ron tích chập (CNN) và ứng dụng của chúng trong nhận dạng hình ảnh.

    • Chiều: Thực hành: Xây dựng một mô hình CNN đơn giản để phân loại hình ảnh viết tay các chữ số (MNIST dataset).

  • Ngày 45:

    • Sáng: Học sâu (Deep Learning): Tìm hiểu về các mạng nơ-ron hồi quy (RNN) và ứng dụng của chúng trong xử lý ngôn ngữ tự nhiên.

    • Chiều: Thực hành: Xây dựng một mô hình RNN đơn giản để tạo ra văn bản (text generation).

  • Ngày 46:

    • Sáng: Học sâu (Deep Learning): Tìm hiểu về các mạng nơ-ron tự động mã hóa (autoencoders) và ứng dụng của chúng trong giảm chiều dữ liệu và tạo sinh dữ liệu.

    • Chiều: Thực hành: Xây dựng một mô hình autoencoder để giảm chiều dữ liệu MNIST và tạo ra các hình ảnh chữ số mới.

  • Ngày 47:

    • Sáng: Học sâu (Deep Learning): Tìm hiểu về các mạng đối nghịch tạo sinh (GANs) và ứng dụng của chúng trong tạo ra hình ảnh, âm thanh, video chân thực.

    • Chiều: Thực hành: Xây dựng một mô hình GAN đơn giản để tạo ra hình ảnh khuôn mặt người.

  • Ngày 48:

    • Sáng: Xử lý ngôn ngữ tự nhiên (NLP): Tìm hiểu về các kỹ thuật biểu diễn văn bản như bag-of-words, TF-IDF, word embeddings (Word2Vec, GloVe).

    • Chiều: Thực hành: Biểu diễn một tập hợp các bài đánh giá sản phẩm bằng các kỹ thuật khác nhau và so sánh kết quả.

  • Ngày 49:

    • Sáng: Xử lý ngôn ngữ tự nhiên (NLP): Tìm hiểu về các mô hình phân loại văn bản như Naive Bayes, SVM, logistic regression.

    • Chiều: Thực hành: Xây dựng mô hình phân loại văn bản để phân loại các bài đánh giá sản phẩm thành tích cực, tiêu cực hoặc trung tính.

  • Ngày 50:

    • Sáng: Xử lý ngôn ngữ tự nhiên (NLP): Tìm hiểu về các mô hình dịch máy (machine translation) như seq2seq, Transformer.

    • Chiều: Thực hành: Sử dụng một thư viện như Google Translate API để dịch một đoạn văn bản từ tiếng Anh sang tiếng Việt.

  • Ngày 51:

    • Sáng: Tối ưu hóa siêu tham số (Hyperparameter Tuning): Tìm hiểu về các kỹ thuật như grid search, random search, Bayesian optimization.

    • Chiều: Thực hành: Tối ưu hóa các siêu tham số của một mô hình học máy đã xây dựng trước đó, chẳng hạn như mô hình hồi quy logistic hoặc rừng ngẫu nhiên.

  • Ngày 52:

    • Sáng: Học tăng cường (Reinforcement Learning): Tìm hiểu về các khái niệm cơ bản của học tăng cường như agent, environment, reward, policy.

    • Chiều: Thực hành: Xây dựng một agent đơn giản để chơi một trò chơi như Tic-Tac-Toe hoặc CartPole bằng cách sử dụng thuật toán Q-learning.

  • Ngày 53:

    • Sáng: Học máy trên tập dữ liệu lớn (Big Data Machine Learning): Tìm hiểu về các thư viện như Spark MLlib, Dask-ML.

    • Chiều: Thực hành: Sử dụng Spark MLlib để xây dựng mô hình học máy trên một tập dữ liệu lớn, chẳng hạn như tập dữ liệu về lịch sử giao dịch của khách hàng.

  • Ngày 54-57:

    Project 6: Xây dựng mô hình học sâu để phân loại hình ảnh trang phục.

    • Thu thập và tiền xử lý dữ liệu hình ảnh trang phục từ các nguồn khác nhau.

    • Xây dựng mô hình CNN để phân loại hình ảnh trang phục thành các loại khác nhau (áo sơ mi, quần jean, váy, v.v.).

    • Đánh giá hiệu suất của mô hình và tối ưu hóa các siêu tham số.

    • Triển khai mô hình trên một ứng dụng web hoặc di động để người dùng có thể tải lên hình ảnh và nhận được dự đoán về loại trang phục.

Project 6: Phân Loại Hình Ảnh Trang Phục (4 ngày)

Ngày 54:

  • Sáng: Thu thập dữ liệu hình ảnh trang phục:

    • Xác định các nguồn dữ liệu phù hợp: Các trang web thương mại điện tử, kho dữ liệu hình ảnh mở, v.v.

    • Sử dụng các công cụ và thư viện như BeautifulSoup, Scrapy để thu thập dữ liệu.

    • Lưu trữ dữ liệu theo cấu trúc thư mục rõ ràng, phân loại theo loại trang phục.

  • Chiều: Tiền xử lý dữ liệu hình ảnh:

    • Thay đổi kích thước ảnh về cùng một kích thước chuẩn.

    • Chuyển đổi ảnh sang dạng grayscale (nếu cần).

    • Chuẩn hóa dữ liệu pixel (ví dụ: chia cho 255 để đưa giá trị pixel về khoảng 0-1).

    • Chia dữ liệu thành tập huấn luyện, tập validation và tập kiểm tra.

Ngày 55:

  • Sáng: Xây dựng mô hình CNN:

    • Xác định kiến trúc mô hình: Số lượng lớp convolutional, pooling, fully connected, v.v.

    • Lựa chọn hàm kích hoạt (activation function) phù hợp: ReLU, sigmoid, tanh, v.v.

    • Sử dụng các kỹ thuật như dropout, batch normalization để tránh overfitting.

  • Chiều: Huấn luyện mô hình:

    • Lựa chọn hàm mất mát (loss function) và thuật toán tối ưu (optimizer) phù hợp.

    • Huấn luyện mô hình trên tập huấn luyện, sử dụng tập validation để theo dõi quá trình huấn luyện và điều chỉnh siêu tham số.

Ngày 56:

  • Sáng: Đánh giá mô hình:

    • Đánh giá hiệu suất mô hình trên tập kiểm tra bằng các độ đo như accuracy, precision, recall, F1-score.

    • Phân tích ma trận nhầm lẫn (confusion matrix) để hiểu rõ hơn về các lỗi phân loại của mô hình.

  • Chiều: Tối ưu hóa siêu tham số:

    • Sử dụng các kỹ thuật như grid search, random search để tìm ra các giá trị tối ưu cho các siêu tham số như learning rate, số lượng lớp, v.v.

    • Tiếp tục huấn luyện và đánh giá mô hình với các siêu tham số mới để cải thiện hiệu suất.

Ngày 57:

  • Sáng: Triển khai mô hình:

    • Lựa chọn một framework hoặc thư viện để triển khai mô hình, ví dụ: Flask, Django, TensorFlow Serving.

    • Xây dựng một ứng dụng web hoặc di động đơn giản cho phép người dùng tải lên hình ảnh và nhận được dự đoán về loại trang phục.

  • Chiều: Hoàn thiện và kiểm thử:

    • Kiểm tra kỹ lưỡng ứng dụng để đảm bảo tính ổn định và chính xác.

    • Thực hiện các bài kiểm tra hiệu năng để đánh giá khả năng xử lý của ứng dụng dưới tải trọng cao.

    • Cải thiện giao diện người dùng và trải nghiệm người dùng.

Phần 3: Trình Bày Dữ Liệu & Giao Tiếp

  • Ngày 58:

    • Sáng: DAX nâng cao: Tìm hiểu về các hàm CALCULATE, FILTER, ALL, ALLEXCEPT.

    • Chiều: Thực hành:

      • Tính toán doanh thu theo từng danh mục sản phẩm, lọc theo một khoảng thời gian cụ thể.

      • Tính toán tỷ lệ phần trăm tăng trưởng doanh thu so với cùng kỳ năm trước.

      • Tính toán giá trị trung bình của đơn hàng cho từng nhóm khách hàng.

  • Ngày 59:

    • Sáng: DAX nâng cao: Tìm hiểu về các hàm RANKX, TOPN, SUMX, AVERAGEX, COUNTX.

    • Chiều: Thực hành:

      • Xếp hạng khách hàng theo tổng số tiền mua hàng.

      • Tìm ra top 10 sản phẩm bán chạy nhất.

      • Tính toán tổng doanh thu của từng nhân viên bán hàng.

  • Ngày 60:

    • Sáng: DAX nâng cao: Tìm hiểu về các hàm TIME INTELLIGENCE như SAMEPERIODLASTYEAR, DATEADD, DATESINPERIOD.

    • Chiều: Thực hành:

      • Tính toán doanh số bán hàng của cùng kỳ năm trước.

      • Tính toán doanh số bán hàng tích lũy theo tuần, tháng, quý, năm.

      • So sánh doanh số bán hàng giữa các khoảng thời gian khác nhau.

  • Ngày 61:

    • Sáng: Mô hình dữ liệu phức tạp: Tìm hiểu về star schema và snowflake schema.

    • Chiều: Thực hành:

      • Thiết kế mô hình dữ liệu sao cho một cửa hàng bán lẻ, bao gồm các bảng về sản phẩm, khách hàng, đơn hàng, v.v.

      • Thiết kế mô hình dữ liệu bông tuyết cho một hệ thống quản lý bệnh viện, bao gồm các bảng về bệnh nhân, bác sĩ, khoa phòng, v.v.

  • Ngày 62:

    • Sáng: Tương tác nâng cao: Tìm hiểu về drillthrough, bookmark, tooltip.

    • Chiều: Thực hành:

      • Tạo một báo cáo có drillthrough từ biểu đồ tổng doanh thu đến biểu đồ doanh thu theo từng sản phẩm.

      • Tạo bookmark để lưu lại các trạng thái khác nhau của báo cáo.

      • Thêm tooltip vào các biểu đồ để hiển thị thông tin chi tiết khi di chuột qua.

  • Ngày 63-67:

    Project 7: Xây dựng một dashboard tương tác trong Power BI để theo dõi và phân tích hiệu suất kinh doanh của một công ty bất động sản, sử dụng các kỹ thuật DAX nâng cao và mô hình dữ liệu phức tạp.

    • Tạo các chỉ số tùy chỉnh như doanh thu, lợi nhuận, số lượng giao dịch, tỷ lệ chuyển đổi, v.v.

    • Sử dụng drillthrough để đi sâu vào chi tiết từng giao dịch.

    • Sử dụng bookmark để lưu lại các trạng thái khác nhau của dashboard.

    • Thêm tooltip vào các biểu đồ để hiển thị thông tin chi tiết.

Project 7: Xây dựng Dashboard Tương Tác Phân Tích Hiệu Suất Kinh Doanh Bất Động Sản (5 ngày)

Ngày 63:

  • Sáng: Thu thập và chuẩn bị dữ liệu:

    • Xác định các nguồn dữ liệu cần thiết: Dữ liệu về giao dịch bất động sản, thông tin khách hàng, thông tin nhân viên, dữ liệu tài chính, v.v.

    • Kết nối Power BI với các nguồn dữ liệu này (ví dụ: file Excel, CSV, cơ sở dữ liệu SQL Server).

    • Làm sạch và chuyển đổi dữ liệu: Xử lý các giá trị thiếu, loại bỏ các bản ghi trùng lặp, chuẩn hóa định dạng dữ liệu, v.v.

  • Chiều: Thiết kế mô hình dữ liệu:

    • Xác định các thực thể (bảng) và mối quan hệ giữa chúng (khóa chính, khóa ngoại).

    • Xây dựng mô hình dữ liệu sao (star schema) hoặc bông tuyết (snowflake schema) để tối ưu hóa hiệu suất truy vấn.

    • Tạo các bảng dimension (ví dụ: thời gian, địa điểm, loại bất động sản) và bảng fact (ví dụ: giao dịch).

Ngày 64:

  • Sáng: Tạo các chỉ số tùy chỉnh (measures) với DAX:

    • Sử dụng các hàm DAX nâng cao như CALCULATE, FILTER, ALL, ALLEXCEPT để tính toán các chỉ số như:

      • Tổng doanh thu theo thời gian, địa điểm, loại bất động sản.

      • Lợi nhuận gộp, lợi nhuận ròng.

      • Số lượng giao dịch thành công, số lượng giao dịch thất bại.

      • Tỷ lệ chuyển đổi từ khách hàng tiềm năng thành khách hàng thực tế.

      • Giá trị trung bình của mỗi giao dịch.

    • Tạo các chỉ số so sánh như tăng trưởng doanh thu so với cùng kỳ năm trước, so sánh hiệu suất giữa các nhân viên kinh doanh.

  • Chiều: Trực quan hóa dữ liệu:

    • Chọn các loại biểu đồ phù hợp để hiển thị các chỉ số đã tính toán (ví dụ: biểu đồ đường, biểu đồ cột, biểu đồ tròn, bản đồ nhiệt, v.v.).

    • Thiết kế bố cục dashboard sao cho trực quan, dễ hiểu và thu hút người dùng.

    • Sử dụng các kỹ thuật trực quan hóa nâng cao như drill down, drill up, cross-filtering để cho phép người dùng tương tác và khám phá dữ liệu.

Ngày 65:

  • Sáng: Thêm tính năng drillthrough:

    • Tạo các báo cáo chi tiết cho từng giao dịch, bao gồm thông tin về khách hàng, nhân viên kinh doanh, loại bất động sản, giá trị giao dịch, v.v.

    • Thiết lập drillthrough từ các biểu đồ tổng quan trên dashboard đến các báo cáo chi tiết này.

  • Chiều: Thêm tính năng bookmark:

    • Tạo các bookmark để lưu lại các trạng thái khác nhau của dashboard (ví dụ: lọc theo một khoảng thời gian cụ thể, một khu vực cụ thể, hoặc một loại bất động sản cụ thể).

    • Cho phép người dùng dễ dàng chuyển đổi giữa các bookmark để xem các thông tin khác nhau.

Ngày 66:

  • Sáng: Thêm tooltip vào biểu đồ:

    • Thiết lập tooltip để hiển thị thông tin chi tiết về dữ liệu khi người dùng di chuột qua các biểu đồ.

    • Tùy chỉnh nội dung và định dạng của tooltip để hiển thị các thông tin quan trọng nhất.

  • Chiều: Kiểm tra và tối ưu hóa:

    • Kiểm tra kỹ lưỡng dashboard để đảm bảo tính chính xác của dữ liệu và hoạt động của các tính năng tương tác.

    • Tối ưu hóa hiệu suất truy vấn bằng cách sử dụng các kỹ thuật như caching, materialized views, v.v.

    • Tối ưu hóa giao diện người dùng để đảm bảo trải nghiệm tốt nhất cho người dùng.

Ngày 67:

  • Cả ngày: Hoàn thiện và trình bày dashboard:

    • Thêm các yếu tố trực quan như logo, hình ảnh, màu sắc để làm cho dashboard trở nên hấp dẫn hơn.

    • Viết tài liệu hướng dẫn sử dụng dashboard.

    • Trình bày dashboard cho các bên liên quan và thu thập phản hồi để cải thiện thêm.

Kể Chuyện với Dữ Liệu (Data Storytelling)

  • Ngày 68:

    • Sáng: Storytelling với infographics: Tìm hiểu về các nguyên tắc thiết kế infographics hiệu quả.

    • Chiều: Thực hành: Tạo một infographic về xu hướng thị trường bất động sản trong năm qua.

  • Ngày 69:

    • Sáng: Storytelling với video: Tìm hiểu về các kỹ thuật làm video kể chuyện với dữ liệu.

    • Chiều: Thực hành: Tạo một video ngắn giới thiệu về dự án phân tích dữ liệu của bạn.

  • Ngày 70:

    • Sáng: Storytelling với bản đồ tư duy: Tìm hiểu về cách sử dụng bản đồ tư duy để tổ chức và trình bày thông tin.

    • Chiều: Thực hành: Tạo một bản đồ tư duy về các yếu tố ảnh hưởng đến giá bất động sản.

  • Ngày 71:

    • Sáng: Thuyết trình hiệu quả: Tìm hiểu về các kỹ năng thuyết trình như giọng nói, ngôn ngữ cơ thể, quản lý thời gian.

    • Chiều: Thực hành: Thực hành thuyết trình trước gương hoặc trước một nhóm bạn bè về một chủ đề liên quan đến dữ liệu.

  • Ngày 72:

    • Sáng: Tạo slide thuyết trình chuyên nghiệp: Tìm hiểu về các công cụ thiết kế slide như PowerPoint, Google Slides, Canva.

    • Chiều: Thực hành: Tạo một bộ slide thuyết trình chuyên nghiệp về dự án phân tích dữ liệu của bạn.

  • Ngày 73-77:

    Project 8: Tạo một video hoặc infographic kể chuyện với dữ liệu về một vấn đề xã hội mà bạn quan tâm, ví dụ như biến đổi khí hậu, bất bình đẳng thu nhập, v.v.

    • Thu thập dữ liệu từ các nguồn đáng tin cậy.

    • Phân tích và trực quan hóa dữ liệu để tìm ra các thông tin chi tiết thú vị.

    • Xây dựng một câu chuyện có ý nghĩa và truyền cảm hứng từ dữ liệu.

    • Sử dụng các công cụ thiết kế để tạo ra một sản phẩm trực quan hấp dẫn.

Project 8: Tạo một video hoặc infographic kể chuyện với dữ liệu về một vấn đề xã hội (5 ngày)

Ngày 73:

  • Sáng: Lựa chọn vấn đề xã hội và thu thập dữ liệu:

    • Xác định một vấn đề xã hội mà bạn quan tâm và muốn tìm hiểu sâu hơn, ví dụ như biến đổi khí hậu, bất bình đẳng thu nhập, ô nhiễm môi trường, v.v.

    • Tìm kiếm các nguồn dữ liệu đáng tin cậy liên quan đến vấn đề này, chẳng hạn như các tổ chức quốc tế, cơ quan chính phủ, các nghiên cứu khoa học, v.v.

    • Thu thập dữ liệu từ các nguồn này và lưu trữ chúng một cách có tổ chức.

  • Chiều: Làm sạch và chuẩn bị dữ liệu:

    • Kiểm tra dữ liệu để phát hiện các lỗi, giá trị thiếu, hoặc các vấn đề khác.

    • Làm sạch dữ liệu bằng cách xử lý các lỗi, điền vào các giá trị thiếu, hoặc loại bỏ các dữ liệu không cần thiết.

    • Chuyển đổi dữ liệu sang định dạng phù hợp cho việc phân tích và trực quan hóa.

Ngày 74:

  • Sáng: Phân tích và khám phá dữ liệu:

    • Sử dụng các kỹ thuật phân tích dữ liệu đã học để khám phá các mẫu, xu hướng và mối liên hệ trong dữ liệu.

    • Đặt ra các câu hỏi nghiên cứu và tìm cách trả lời chúng bằng dữ liệu.

    • Tìm ra những thông tin chi tiết thú vị và đáng chú ý.

  • Chiều: Xây dựng câu chuyện từ dữ liệu:

    • Dựa trên kết quả phân tích, xây dựng một câu chuyện có ý nghĩa và truyền cảm hứng về vấn đề xã hội mà bạn đã chọn.

    • Xác định thông điệp chính mà bạn muốn truyền tải qua câu chuyện này.

    • Lên ý tưởng về cách trình bày câu chuyện một cách hấp dẫn và dễ hiểu.

Ngày 75:

  • Sáng: Chọn hình thức trình bày:

    • Quyết định xem bạn muốn tạo một video hoặc một infographic để kể chuyện với dữ liệu.

    • Cân nhắc ưu điểm và nhược điểm của từng hình thức để lựa chọn hình thức phù hợp nhất với câu chuyện của bạn.

  • Chiều: Thiết kế và phác thảo sản phẩm:

    • Nếu bạn chọn tạo video, hãy viết kịch bản, lên kế hoạch quay phim và dựng phim.

    • Nếu bạn chọn tạo infographic, hãy phác thảo bố cục, chọn màu sắc và hình ảnh phù hợp.

Ngày 76:

  • Cả ngày: Tạo sản phẩm:

    • Nếu bạn chọn tạo video, hãy tiến hành quay phim, dựng phim và chỉnh sửa âm thanh.

    • Nếu bạn chọn tạo infographic, hãy sử dụng các công cụ thiết kế như Canva, Adobe Illustrator, hoặc PowerPoint để tạo ra sản phẩm hoàn chỉnh.

Ngày 77:

  • Sáng: Hoàn thiện và kiểm tra sản phẩm:

    • Kiểm tra kỹ lưỡng sản phẩm để đảm bảo không có lỗi chính tả, ngữ pháp, hoặc lỗi kỹ thuật.

    • Xem lại sản phẩm để đảm bảo nó truyền tải được thông điệp của bạn một cách rõ ràng và hiệu quả.

  • Chiều: Chia sẻ sản phẩm:

    • Chia sẻ sản phẩm của bạn với bạn bè, gia đình, hoặc cộng đồng trực tuyến để nhận được phản hồi.

    • Cải thiện sản phẩm dựa trên phản hồi nhận được.

Giao Tiếp Hiệu Quả

  • Ngày 78:

    • Sáng: Thuyết phục bằng dữ liệu: Tìm hiểu về cách sử dụng dữ liệu và phân tích để đưa ra các lập luận thuyết phục và đưa ra quyết định dựa trên bằng chứng.

    • Chiều: Thực hành: Tìm một bài báo hoặc nghiên cứu sử dụng dữ liệu để chứng minh một luận điểm, sau đó phân tích và đánh giá tính thuyết phục của các lập luận đó.

  • Ngày 79:

    • Sáng: Xây dựng mối quan hệ với các bên liên quan: Tìm hiểu về các kỹ năng giao tiếp hiệu quả với các bên liên quan khác nhau như quản lý, đồng nghiệp, khách hàng, v.v.

    • Chiều: Thực hành: Tham gia một cuộc họp giả định với các bên liên quan và thực hành cách trình bày kết quả phân tích dữ liệu của bạn một cách rõ ràng và thuyết phục.

  • Ngày 80:

    • Sáng: Quản lý xung đột: Tìm hiểu về các kỹ thuật giải quyết xung đột hiệu quả trong môi trường làm việc.

    • Chiều: Thực hành: Tham gia một buổi thảo luận nhóm giả định và thực hành cách giải quyết các xung đột có thể xảy ra trong quá trình làm việc nhóm.

  • Ngày 81:

    • Sáng: Giao tiếp với người không chuyên về kỹ thuật: Tìm hiểu về cách giải thích các khái niệm kỹ thuật phức tạp một cách đơn giản và dễ hiểu cho người không có kiến thức chuyên môn.

    • Chiều: Thực hành: Chuẩn bị một bài thuyết trình ngắn về một chủ đề phân tích dữ liệu phức tạp và trình bày cho một người bạn hoặc thành viên gia đình không có kiến thức chuyên môn về lĩnh vực này.

  • Ngày 82:

    • Sáng: Tạo báo cáo và dashboard hiệu quả: Tìm hiểu về các nguyên tắc thiết kế báo cáo và dashboard dễ đọc, dễ hiểu và có tính thẩm mỹ cao.

    • Chiều: Thực hành: Sử dụng Power BI hoặc một công cụ tương tự để tạo một báo cáo hoặc dashboard về một chủ đề mà bạn quan tâm.

  • Ngày 83-87:

    Project 9: Tổ chức một buổi workshop về phân tích dữ liệu cho các đồng nghiệp không chuyên về kỹ thuật, giúp họ hiểu và sử dụng dữ liệu để đưa ra quyết định tốt hơn.

    • Lên kế hoạch và chuẩn bị nội dung cho buổi workshop.

    • Lựa chọn các công cụ và phương pháp phù hợp để trình bày nội dung một cách dễ hiểu và hấp dẫn.

    • Tổ chức buổi workshop và thu thập phản hồi từ người tham gia.

    • Cải thiện nội dung và phương pháp trình bày dựa trên phản hồi nhận được.

Project 9: Workshop Phân Tích Dữ Liệu Cho Người Không Chuyên (5 ngày)

Ngày 83:

  • Sáng: Lên kế hoạch và xác định mục tiêu:

    • Xác định đối tượng tham gia workshop (ví dụ: đồng nghiệp từ các phòng ban khác, khách hàng, đối tác).

    • Xác định mục tiêu của workshop (ví dụ: giúp người tham gia hiểu về phân tích dữ liệu, cung cấp các công cụ và kỹ thuật cơ bản, khuyến khích sử dụng dữ liệu trong công việc).

    • Lên dàn ý chi tiết cho nội dung workshop.

  • Chiều: Chuẩn bị tài liệu và bài tập thực hành:

    • Chuẩn bị các slide thuyết trình, tài liệu hướng dẫn, và các ví dụ minh họa.

    • Thiết kế các bài tập thực hành đơn giản và dễ hiểu, sử dụng các công cụ trực quan như Excel hoặc Google Sheets.

Ngày 84:

  • Sáng: Tìm hiểu về các công cụ và phương pháp trình bày:

    • Nghiên cứu các công cụ trực quan hóa dữ liệu như Tableau Public, Google Data Studio để trình bày dữ liệu một cách hấp dẫn.

    • Tìm hiểu về các phương pháp kể chuyện bằng dữ liệu (data storytelling) để truyền tải thông điệp một cách hiệu quả.

  • Chiều: Thực hành trình bày và thu thập phản hồi:

    • Thực hành trình bày nội dung workshop trước gương hoặc với một người bạn để luyện tập kỹ năng thuyết trình.

    • Thu thập phản hồi từ người nghe và điều chỉnh nội dung hoặc cách trình bày nếu cần thiết.

Ngày 85:

  • Sáng: Hoàn thiện nội dung và tài liệu:

    • Chỉnh sửa và hoàn thiện các slide thuyết trình, tài liệu hướng dẫn, và bài tập thực hành.

    • Đảm bảo nội dung workshop phù hợp với mục tiêu và đối tượng tham gia.

  • Chiều: Chuẩn bị môi trường và công cụ:

    • Chuẩn bị phòng họp, máy chiếu, bảng trắng, hoặc các công cụ hỗ trợ khác.

    • Kiểm tra kết nối internet và các phần mềm cần thiết.

Ngày 86:

  • Cả ngày: Tổ chức workshop:

    • Trình bày nội dung workshop theo dàn ý đã chuẩn bị.

    • Hướng dẫn người tham gia thực hiện các bài tập thực hành.

    • Trả lời các câu hỏi và giải đáp thắc mắc của người tham gia.

    • Thu thập phản hồi từ người tham gia.

Ngày 87:

  • Sáng: Tổng kết và đánh giá workshop:

    • Phân tích phản hồi từ người tham gia để đánh giá hiệu quả của workshop.

    • Xác định những điểm cần cải thiện cho các lần tổ chức sau.

  • Chiều: Chia sẻ kết quả và kinh nghiệm:

    • Chia sẻ kết quả và kinh nghiệm tổ chức workshop với đồng nghiệp hoặc trên các diễn đàn trực tuyến.

Phần 4: Dự Án Thực Tế

Ngày 88-90:

  • Dự án Capstone:

    • Chủ đề dự án: Phân tích dữ liệu về hiệu quả của các chiến dịch marketing của một công ty.

    • Mục tiêu: Xác định các chiến dịch marketing hiệu quả nhất và đưa ra các khuyến nghị để cải thiện hiệu quả của các chiến dịch trong tương lai.

    • Quy trình thực hiện:

      1. Thu thập dữ liệu từ các nguồn khác nhau (ví dụ: Google Analytics, Facebook Ads, email marketing).

      2. Làm sạch và chuẩn bị dữ liệu.

      3. Phân tích dữ liệu để tìm ra các mẫu, xu hướng và mối liên hệ.

      4. Xây dựng các mô hình dự đoán để đánh giá hiệu quả của các chiến dịch marketing.

      5. Trình bày kết quả phân tích và đưa ra các khuyến nghị.

    • Công cụ và kỹ thuật:

      • SQL, Python, Pandas, NumPy, Matplotlib, Seaborn, scikit-learn, Power BI.

      • Các kỹ thuật phân tích dữ liệu như phân tích hồi quy, phân tích chuỗi thời gian, phân tích nhân tố, phân tích cụm, v.v.

      • Các kỹ thuật học máy như hồi quy tuyến tính, logistic regression, cây quyết định, rừng ngẫu nhiên, v.v.

Dự án Capstone: Phân Tích Hiệu Quả Chiến Dịch Marketing (3 ngày)

Ngày 88:

  • Sáng: Thu thập và làm sạch dữ liệu:

    • Thu thập dữ liệu từ Google Analytics, Facebook Ads, email marketing, và các nguồn khác.

    • Làm sạch dữ liệu bằng cách xử lý các giá trị thiếu, loại bỏ các bản ghi trùng lặp, và chuẩn hóa định dạng dữ liệu.

  • Chiều: Phân tích dữ liệu mô tả:

    • Tính toán các chỉ số thống kê mô tả như số lượng chiến dịch, ngân sách, số lần hiển thị, số lần nhấp chuột, tỷ lệ chuyển đổi, v.v.

    • Trực quan hóa dữ liệu bằng các biểu đồ như biểu đồ cột, biểu đồ đường, biểu đồ tròn, v.v.

Ngày 89:

  • Sáng: Phân tích dữ liệu nâng cao:

    • Phân tích hồi quy để tìm ra các yếu tố ảnh hưởng đến hiệu quả của chiến dịch marketing.

    • Phân tích chuỗi thời gian để dự đoán xu hướng hiệu quả của chiến dịch trong tương lai.

    • Phân tích phân cụm để phân loại các chiến dịch thành các nhóm khác nhau dựa trên hiệu quả.

  • Chiều: Xây dựng mô hình dự đoán:

    • Sử dụng các thuật toán học máy như hồi quy tuyến tính, logistic regression, cây quyết định, rừng ngẫu nhiên để xây dựng mô hình dự đoán hiệu quả của chiến dịch marketing.

    • Đánh giá hiệu suất của mô hình và lựa chọn mô hình tốt nhất.

Ngày 90:

  • Sáng: Trình bày kết quả và đưa ra khuyến nghị:

    • Chuẩn bị báo cáo hoặc bài thuyết trình để trình bày kết quả phân tích và dự đoán.

    • Đưa ra các khuyến nghị cụ thể để cải thiện hiệu quả của các chiến dịch marketing trong tương lai.

  • Chiều: Hoàn thiện báo cáo và chuẩn bị thuyết trình:

    • Chỉnh sửa và hoàn thiện báo cáo hoặc bài thuyết trình.

    • Chuẩn bị các slide thuyết trình và các tài liệu hỗ trợ khác.