60 ngày học Google Cloud DE

Tuần 1: Thiết kế Hệ thống Xử lý Dữ liệu An toàn, Đáng tin cậy và Linh hoạt

Ngày 1:

  • Sáng: Tổng quan kỳ thi và thiết lập môi trường thực hành GCP.

    • Bài tập:

      1. Tạo một dự án GCP mới và thiết lập thanh toán.

      2. Khám phá giao diện điều khiển GCP và làm quen với các dịch vụ cốt lõi.

      3. Tạo một tài khoản dịch vụ và cấp cho nó các quyền cơ bản.

  • Chiều: Tìm hiểu chuyên sâu về Cloud IAM và các chính sách tổ chức.

    • Bài tập:

      1. Tạo một nhóm IAM và thêm người dùng vào nhóm.

      2. Thiết lập các chính sách IAM để kiểm soát quyền truy cập vào các tài nguyên cụ thể.

      3. Thử nghiệm các chính sách IAM bằng cách giả mạo các vai trò người dùng khác nhau.

Ngày 2:

  • Sáng: Khám phá các tùy chọn mã hóa và quản lý khóa trong GCP.

    • Bài tập:

      1. Tạo một khóa mã hóa trong Cloud KMS và sử dụng nó để mã hóa một tệp trên Cloud Storage.

      2. Khám phá các loại khóa khác nhau trong Cloud KMS và trường hợp sử dụng của chúng.

      3. Thực hành xoay vòng khóa trong Cloud KMS.

  • Chiều: Tìm hiểu về Cloud DLP API và cách bảo vệ PII.

    • Bài tập:

      1. Sử dụng Cloud DLP API để quét một tập dữ liệu mẫu và xác định PII.

      2. Thử nghiệm các kỹ thuật khác nhau để khử nhận dạng PII, chẳng hạn như che dấu và mã hóa mã thông báo.

      3. Tạo một mẫu kiểm tra DLP tùy chỉnh để phát hiện các loại PII cụ thể.

Ngày 3:

  • Sáng: Nghiên cứu chuyên sâu về tính chủ quyền dữ liệu và các cân nhắc về khu vực.

    • Bài tập:

      1. Nghiên cứu các yêu cầu về vị trí dữ liệu của GDPR và CCPA.

      2. Đánh giá các tùy chọn lưu trữ dữ liệu khác nhau trong GCP dựa trên các cân nhắc về chủ quyền dữ liệu.

      3. Lập kế hoạch chiến lược sao chép dữ liệu để đảm bảo tuân thủ các yêu cầu về vị trí dữ liệu.

  • Chiều: Tìm hiểu các phương pháp hay nhất để chuẩn bị và làm sạch dữ liệu bằng Dataprep.

    • Bài tập:

      1. Tải một tập dữ liệu mẫu lên Dataprep và thực hiện các tác vụ làm sạch dữ liệu cơ bản, chẳng hạn như loại bỏ các bản sao và xử lý giá trị bị thiếu.

      2. Sử dụng các công thức Dataprep để chuyển đổi và làm phong phú dữ liệu.

      3. Tạo một công việc Dataprep để tự động hóa quá trình làm sạch dữ liệu.

Ngày 4:

  • Sáng: Tìm hiểu Dataflow và cách xử lý dữ liệu theo lô và luồng.

    • Bài tập:

      1. Xây dựng một pipeline Dataflow đơn giản để đọc dữ liệu từ Pub/Sub, chuyển đổi nó và ghi kết quả vào BigQuery.

      2. Thử nghiệm các cửa sổ và watermark khác nhau trong Dataflow để xử lý dữ liệu luồng.

      3. Sử dụng Dataflow để xử lý dữ liệu theo lô từ Cloud Storage.

  • Chiều: Khám phá Cloud Data Fusion và khả năng ETL/ELT không code của nó.

    • Bài tập:

      1. Tạo một pipeline Data Fusion để trích xuất dữ liệu từ BigQuery, chuyển đổi nó bằng Wrangler và tải nó vào Cloud Storage.

      2. Sử dụng Data Fusion để lên lịch và sắp xếp các pipeline.

      3. Khám phá các plugin Data Fusion khác nhau để tích hợp với các nguồn dữ liệu khác nhau.

Ngày 5:

  • Sáng: Đi sâu vào các khái niệm ACID và tầm quan trọng của chúng đối với độ tin cậy của dữ liệu.

    • Bài tập:

      1. Thiết kế một lược đồ BigQuery để đảm bảo tính nhất quán và cô lập.

      2. Thử nghiệm các mức cô lập giao dịch khác nhau trong BigQuery.

      3. Sử dụng các giao dịch BigQuery để duy trì tính toàn vẹn của dữ liệu.

  • Chiều: Tìm hiểu về các chiến lược khác nhau để đạt được tính chịu lỗi và khôi phục sau thảm họa trong GCP.

    • Bài tập:

      1. Thiết lập sao chép vùng cho một phiên bản Cloud SQL.

      2. Thử nghiệm chuyển đổi dự phòng bằng cách mô phỏng lỗi ở phiên bản chính.

      3. Khám phá các tùy chọn sao lưu và khôi phục khác nhau cho các dịch vụ GCP khác nhau.

Ngày 6:

  • Sáng: Tìm hiểu tầm quan trọng của việc xác thực dữ liệu và cách thực hiện trong GCP.

    • Bài tập:

      1. Tạo các ràng buộc lược đồ trong BigQuery để thực thi tính hợp lệ của dữ liệu.

      2. Sử dụng BigQuery Information Schema để phân tích chất lượng dữ liệu.

      3. Thực hiện kiểm tra chất lượng dữ liệu tùy chỉnh bằng cách sử dụng các hàm do người dùng xác định (UDF) của BigQuery.

  • Chiều: Ôn tập các khái niệm đã học trong tuần và làm bài kiểm tra mô phỏng.

    • Bài tập:

      1. Xem lại các ghi chú và tài liệu học tập.

      2. Thực hiện bài kiểm tra mô phỏng để đánh giá sự hiểu biết của bạn.

      3. Xác định các lĩnh vực cần cải thiện thêm.

Ngày 7:

  • Sáng: Thảo luận nhóm và phân tích bài kiểm tra mô phỏng.

    • Bài tập:

      1. Chia sẻ kết quả kiểm tra mô phỏng của bạn với nhóm.

      2. Thảo luận về các câu hỏi khó và các khái niệm khó hiểu.

      3. Cùng nhau giải quyết các vấn đề và củng cố kiến thức.

  • Chiều: Hoàn thành một dự án capstone nhỏ.

    • Bài tập:

      1. Thiết kế và xây dựng một hệ thống xử lý dữ liệu đơn giản trên GCP, kết hợp các khái niệm về bảo mật, độ tin cậy và chuẩn bị dữ liệu.

      2. Trình bày dự án của bạn với nhóm và nhận phản hồi.

      3. Phản ánh về những gì bạn đã học được và cách bạn có thể áp dụng kiến thức này vào các tình huống thực tế.

Tuần 2: Ingest và Xử lý Dữ liệu

Ngày 8:

  • Sáng: Lập kế hoạch cho các pipeline dữ liệu.

    • Bài tập:

      1. Xác định các nguồn dữ liệu (ví dụ: Cloud Storage, BigQuery) và đích đến (ví dụ: Bigtable, Cloud SQL) cho một dự án mẫu.

      2. Thiết kế logic chuyển đổi dữ liệu cơ bản (ví dụ: lọc, tổng hợp) bằng SQL hoặc Python.

      3. Vẽ sơ đồ kiến trúc pipeline dữ liệu, bao gồm các thành phần và luồng dữ liệu.

  • Chiều: Tìm hiểu kiến thức cơ bản về mạng và mã hóa dữ liệu trong GCP.

    • Bài tập:

      1. Tạo mạng VPC và các subnet trong GCP.

      2. Thiết lập tường lửa để kiểm soát lưu lượng truy cập vào các tài nguyên.

      3. Mã hóa dữ liệu nhạy cảm trên Cloud Storage bằng Cloud KMS.

Ngày 9:

  • Sáng: Xây dựng pipeline dữ liệu bằng Dataflow.

    • Bài tập:

      1. Viết một pipeline Dataflow để đọc dữ liệu từ Cloud Storage, chuyển đổi nó bằng Apache Beam và ghi kết quả vào BigQuery.

      2. Sử dụng các phép biến đổi khác nhau của Beam (ví dụ: ParDo, GroupByKey) để xử lý dữ liệu.

      3. Thực hiện xử lý lỗi và thử lại trong pipeline Dataflow.

  • Chiều: Tìm hiểu về các dịch vụ xử lý dữ liệu khác như Dataproc và Cloud Data Fusion.

    • Bài tập:

      1. Tạo một cụm Dataproc và chạy một công việc Spark để xử lý dữ liệu từ Cloud Storage.

      2. Sử dụng Cloud Data Fusion để tạo một pipeline trích xuất dữ liệu từ MySQL, chuyển đổi nó bằng Wrangler và tải nó vào BigQuery.

      3. So sánh và đối chiếu Dataflow, Dataproc và Cloud Data Fusion dựa trên các trường hợp sử dụng khác nhau.

Ngày 10:

  • Sáng: Thực hành làm sạch dữ liệu và xử lý các giá trị bị thiếu.

    • Bài tập:

      1. Sử dụng các hàm BigQuery (ví dụ: COALESCE, IFNULL) để xử lý các giá trị null.

      2. Áp dụng các kỹ thuật khác nhau để điền vào các giá trị bị thiếu (ví dụ: giá trị trung bình, giá trị trung vị).

      3. Xác định và loại bỏ các ngoại lệ trong dữ liệu bằng cách sử dụng các hàm BigQuery như STDDEV và OUTLIER.

  • Chiều: Tìm hiểu về xử lý dữ liệu theo lô và luồng.

    • Bài tập:

      1. Xây dựng một pipeline Dataflow để xử lý dữ liệu luồng từ Pub/Sub theo thời gian thực.

      2. Sử dụng các cửa sổ và watermark trong Dataflow để quản lý dữ liệu luồng đến muộn.

      3. Thiết kế một pipeline xử lý dữ liệu theo lô để tổng hợp dữ liệu hàng ngày từ BigQuery.

Ngày 11:

  • Sáng: Khám phá các ngôn ngữ khác nhau để chuyển đổi dữ liệu (ví dụ: SQL, Python).

    • Bài tập:

      1. Viết các truy vấn SQL để chuyển đổi dữ liệu trong BigQuery.

      2. Sử dụng Python và thư viện Pandas để thao tác và chuyển đổi dữ liệu.

      3. So sánh hiệu suất của SQL và Python cho các tác vụ chuyển đổi dữ liệu khác nhau.

  • Chiều: Tìm hiểu về việc thu thập và nhập dữ liệu đặc biệt.

    • Bài tập:

      1. Sử dụng BigQuery Data Transfer Service để lên lịch nhập dữ liệu từ các nguồn bên ngoài (ví dụ: Google Ads, YouTube).

      2. Viết một tập lệnh Python để trích xuất dữ liệu từ API và tải nó vào BigQuery.

      3. Thiết lập một pipeline Dataflow để nhập dữ liệu từ Cloud Storage vào BigQuery theo định kỳ.

Ngày 12:

  • Sáng: Tìm hiểu về tự động hóa và sắp xếp công việc bằng Cloud Composer.

    • Bài tập:

      1. Tạo một DAG Cloud Composer để sắp xếp một pipeline Dataflow.

      2. Sử dụng các toán tử Cloud Composer (ví dụ: BashOperator, PythonOperator) để thực hiện các tác vụ khác nhau.

      3. Thiết lập kích hoạt dựa trên thời gian và sự kiện cho DAG Cloud Composer.

  • Chiều: Khám phá CI/CD để triển khai pipeline dữ liệu.

    • Bài tập:

      1. Thiết lập kho lưu trữ mã nguồn (ví dụ: Cloud Source Repositories) cho pipeline Dataflow của bạn.

      2. Tạo một quy trình CI/CD bằng Cloud Build để tự động kiểm tra và triển khai pipeline của bạn.

      3. Sử dụng các công cụ khác như Terraform hoặc Deployment Manager để quản lý cơ sở hạ tầng pipeline của bạn dưới dạng mã.

Ngày 13:

  • Sáng: Ôn tập các khái niệm đã học trong tuần và làm bài kiểm tra mô phỏng.

    • Bài tập:

      1. Xem lại các ghi chú và tài liệu học tập.

      2. Thực hiện bài kiểm tra mô phỏng để đánh giá sự hiểu biết của bạn.

      3. Xác định các lĩnh vực cần cải thiện thêm.

  • Chiều: Dự án Capstone: Xây dựng một pipeline dữ liệu đầu cuối.

    • Bài tập:

      1. Thiết kế và triển khai một pipeline dữ liệu đầu cuối trên GCP, kết hợp các khái niệm về thu thập, chuyển đổi, lưu trữ và phân tích dữ liệu.

      2. Sử dụng các dịch vụ GCP khác nhau (ví dụ: Dataflow, BigQuery, Cloud Storage) để xây dựng pipeline.

      3. Trình bày dự án của bạn với nhóm và nhận phản hồi.

Dự án Capstone: Xây dựng Pipeline Dữ liệu Phân tích Tình cảm về Sản phẩm

Mô tả:

Bạn sẽ xây dựng một pipeline dữ liệu để thu thập đánh giá sản phẩm từ Twitter, phân tích tình cảm của các đánh giá này và trực quan hóa kết quả. Pipeline này sẽ giúp các doanh nghiệp hiểu được cảm nhận của khách hàng về sản phẩm của họ và đưa ra quyết định dựa trên dữ liệu.

Mục tiêu:

  1. Thu thập các tweet liên quan đến một sản phẩm hoặc thương hiệu cụ thể từ Twitter.

  2. Phân tích tình cảm của các tweet này (tích cực, tiêu cực hoặc trung tính) bằng cách sử dụng Natural Language API của Google Cloud.

  3. Lưu trữ các tweet và kết quả phân tích tình cảm vào BigQuery.

  4. Tạo bảng điều khiển trực quan hóa dữ liệu bằng Looker Studio để theo dõi xu hướng tình cảm theo thời gian.

Các bước thực hiện:

Chiều ngày 13:

  1. Thiết lập môi trường:

    • Tạo một dự án GCP mới và kích hoạt các API cần thiết (ví dụ: Dataflow, BigQuery, Natural Language API).

    • Tạo một tài khoản Twitter Developer và lấy mã thông báo API.

  2. Thu thập dữ liệu:

    • Viết một tập lệnh Python để thu thập các tweet liên quan đến sản phẩm hoặc thương hiệu của bạn bằng cách sử dụng API Twitter.

    • Lưu trữ các tweet vào Cloud Storage hoặc Pub/Sub.

Ngày 14 (Nếu cần thêm thời gian):

  1. Xử lý dữ liệu:

    • Xây dựng một pipeline Dataflow để đọc các tweet từ Cloud Storage hoặc Pub/Sub.

    • Sử dụng Natural Language API để phân tích tình cảm của từng tweet.

    • Làm sạch và chuẩn hóa dữ liệu tweet (ví dụ: loại bỏ các liên kết, hashtag, v.v.).

    • Lưu trữ các tweet đã xử lý và kết quả phân tích tình cảm vào BigQuery.

  2. Phân tích và trực quan hóa dữ liệu:

    • Viết các truy vấn SQL trong BigQuery để tổng hợp dữ liệu và tính toán các số liệu (ví dụ: số lượng tweet tích cực, tiêu cực và trung tính).

    • Kết nối Looker Studio với BigQuery và tạo các báo cáo và bảng điều khiển trực quan để hiển thị xu hướng tình cảm theo thời gian.

Mở rộng (Tùy chọn):

  • Thêm tính năng phát hiện thực thể để xác định các khía cạnh cụ thể của sản phẩm được đề cập trong các tweet (ví dụ: thiết kế, tính năng, giá cả).

  • Xây dựng mô hình dự đoán để dự đoán tình cảm của các tweet trong tương lai.

  • Tích hợp pipeline với các công cụ cảnh báo để thông báo cho bạn về những thay đổi đột ngột trong tình cảm.

Tuần 3: Lưu trữ Dữ liệu

Ngày 14:

  • Sáng: Chọn hệ thống lưu trữ.

    • Bài tập:

      1. Phân tích các mô hình truy cập dữ liệu khác nhau (ví dụ: đọc nhiều, ghi nhiều) và xác định các hệ thống lưu trữ phù hợp (ví dụ: Bigtable, Spanner).

      2. So sánh các dịch vụ được quản lý khác nhau trong GCP (ví dụ: Cloud SQL, Cloud Storage) dựa trên chi phí, hiệu suất và khả năng mở rộng.

      3. Thiết kế một chiến lược phân cấp lưu trữ để tối ưu hóa chi phí và hiệu suất.

  • Chiều: Tìm hiểu về Bigtable và các trường hợp sử dụng của nó.

    • Bài tập:

      1. Tạo một bảng Bigtable và chèn dữ liệu vào đó.

      2. Thực hiện các truy vấn đọc và quét trên bảng Bigtable.

      3. Điều chỉnh hiệu suất Bigtable bằng cách thay đổi số lượng node và cấu hình bộ nhớ cache.

Ngày 15:

  • Sáng: Tìm hiểu về Spanner và các trường hợp sử dụng của nó.

    • Bài tập:

      1. Tạo một cơ sở dữ liệu Spanner và một bảng.

      2. Chèn dữ liệu vào bảng Spanner và thực hiện các giao dịch.

      3. Sử dụng các tính năng của Spanner như tính nhất quán mạnh mẽ và khả năng mở rộng toàn cầu.

  • Chiều: Khám phá Cloud SQL và các tùy chọn cơ sở dữ liệu khác nhau (ví dụ: MySQL, PostgreSQL).

    • Bài tập:

      1. Tạo một phiên bản Cloud SQL và kết nối với nó từ một ứng dụng.

      2. Thực hiện các hoạt động quản lý cơ sở dữ liệu cơ bản như sao lưu, khôi phục và nhân rộng.

      3. Tối ưu hóa hiệu suất Cloud SQL bằng cách điều chỉnh các tham số cấu hình.

Ngày 16:

  • Sáng: Tìm hiểu về Cloud Storage và các lớp lưu trữ khác nhau (ví dụ: Standard, Nearline, Coldline).

    • Bài tập:

      1. Tải lên các tệp lên Cloud Storage và quản lý quyền truy cập bằng ACL hoặc IAM.

      2. Sử dụng các tính năng vòng đời của đối tượng để tự động chuyển các đối tượng giữa các lớp lưu trữ.

      3. Thiết lập chuyển đổi đối tượng để tự động chuyển đổi định dạng tệp.

  • Chiều: Khám phá Firestore và các trường hợp sử dụng của nó.

    • Bài tập:

      1. Tạo một bộ sưu tập Firestore và thêm tài liệu vào đó.

      2. Thực hiện các truy vấn trên bộ sưu tập Firestore bằng cách sử dụng các bộ lọc và sắp xếp khác nhau.

      3. Sử dụng các tính năng thời gian thực của Firestore để đồng bộ hóa dữ liệu trên nhiều máy khách.

Ngày 17:

  • Sáng: Tìm hiểu về Memorystore và các trường hợp sử dụng của nó.

    • Bài tập:

      1. Tạo một phiên bản Memorystore và kết nối với nó từ một ứng dụng.

      2. Sử dụng Memorystore để lưu trữ dữ liệu trong bộ nhớ cache và phiên.

      3. Tối ưu hóa hiệu suất Memorystore bằng cách điều chỉnh các tham số cấu hình.

  • Chiều: Ôn tập các khái niệm đã học trong tuần và làm bài kiểm tra mô phỏng.

    • Bài tập:

      1. Xem lại các ghi chú và tài liệu học tập.

      2. Thực hiện bài kiểm tra mô phỏng để đánh giá sự hiểu biết của bạn.

      3. Xác định các lĩnh vực cần cải thiện thêm.

Ngày 18:

  • Sáng: Dự án Capstone: Thiết kế một hệ thống lưu trữ dữ liệu.

    • Bài tập:

      1. Thiết kế một hệ thống lưu trữ dữ liệu cho một ứng dụng mẫu, sử dụng các dịch vụ lưu trữ GCP khác nhau.

      2. Cân nhắc các yêu cầu về hiệu suất, khả năng mở rộng, chi phí và độ tin cậy.

      3. Trình bày thiết kế của bạn với nhóm và nhận phản hồi.

  • Chiều: Thảo luận nhóm và phân tích bài kiểm tra mô phỏng.

    • Bài tập:

      1. Chia sẻ kết quả kiểm tra mô phỏng của bạn với nhóm.

      2. Thảo luận về các câu hỏi khó và các khái niệm khó hiểu.

      3. Cùng nhau giải quyết các vấn đề và củng cố kiến thức.

Dự án Capstone: Thiết kế Hệ thống Lưu trữ Dữ liệu cho Ứng dụng Chia sẻ Video

Mô tả:

Bạn sẽ thiết kế một hệ thống lưu trữ dữ liệu để hỗ trợ một ứng dụng chia sẻ video tương tự như YouTube. Hệ thống này cần lưu trữ nhiều loại dữ liệu, bao gồm video, siêu dữ liệu video, bình luận người dùng và dữ liệu phân tích.

Mục tiêu:

  1. Xác định các yêu cầu lưu trữ dữ liệu cho ứng dụng chia sẻ video.

  2. Chọn các dịch vụ lưu trữ GCP phù hợp để đáp ứng các yêu cầu này.

  3. Thiết kế một kiến trúc hệ thống lưu trữ dữ liệu có khả năng mở rộng, hiệu quả và đáng tin cậy.

  4. Cân nhắc các yếu tố như chi phí, hiệu suất, tính sẵn sàng và độ bền của dữ liệu.

Các bước thực hiện:

Sáng ngày 18:

  1. Xác định yêu cầu:

    • Xác định các loại dữ liệu cần lưu trữ (ví dụ: video, siêu dữ liệu, bình luận, phân tích).

    • Ước tính khối lượng dữ liệu và mô hình truy cập (ví dụ: đọc nhiều, ghi nhiều).

    • Xác định các yêu cầu phi chức năng như hiệu suất, khả năng mở rộng, độ tin cậy và chi phí.

  2. Chọn dịch vụ lưu trữ:

    • Dựa trên các yêu cầu đã xác định, chọn các dịch vụ lưu trữ GCP phù hợp. Ví dụ:

      • Cloud Storage: Lưu trữ video và các tệp lớn khác.

      • Bigtable: Lưu trữ siêu dữ liệu video và bình luận người dùng.

      • BigQuery: Lưu trữ và phân tích dữ liệu phân tích.

      • Cloud SQL: Lưu trữ dữ liệu có cấu trúc như thông tin người dùng.

  3. Thiết kế kiến trúc:

    • Vẽ sơ đồ kiến trúc của hệ thống lưu trữ dữ liệu, hiển thị các dịch vụ lưu trữ khác nhau và cách chúng tương tác với nhau.

    • Thiết kế các quy trình để nhập, xử lý và truy xuất dữ liệu.

    • Cân nhắc các chiến lược sao lưu và khôi phục để đảm bảo tính sẵn sàng và độ bền của dữ liệu.

Chiều ngày 18:

  1. Cân nhắc chi phí:

    • Ước tính chi phí lưu trữ và truy xuất dữ liệu cho các dịch vụ GCP đã chọn.

    • Tìm các cách để tối ưu hóa chi phí (ví dụ: sử dụng các lớp lưu trữ Cloud Storage khác nhau, nén dữ liệu).

  2. Trình bày và nhận phản hồi:

    • Trình bày thiết kế hệ thống lưu trữ dữ liệu của bạn với nhóm.

    • Nhận phản hồi về thiết kế của bạn và thực hiện các điều chỉnh nếu cần.

Mở rộng (Tùy chọn):

  • Triển khai một phiên bản đơn giản của hệ thống lưu trữ dữ liệu trên GCP.

  • Thử nghiệm hệ thống với dữ liệu mẫu và đánh giá hiệu suất của nó.

  • Khám phá các tính năng nâng cao của các dịch vụ lưu trữ GCP đã chọn (ví dụ: sao chép đa vùng cho Cloud Storage, bảng sao lưu cho Bigtable).

Tuần 4: Sử dụng Kho Dữ liệu và Hồ Dữ liệu

Ngày 19:

  • Sáng: Lập kế hoạch cho việc sử dụng kho dữ liệu (Data Warehouse).

    • Bài tập:

      1. Thiết kế mô hình dữ liệu cho một kho dữ liệu mẫu (ví dụ: star schema, snowflake schema).

      2. Xác định mức độ chuẩn hóa dữ liệu cần thiết cho kho dữ liệu của bạn.

      3. Lập bản đồ các yêu cầu nghiệp vụ vào mô hình dữ liệu kho dữ liệu.

  • Chiều: Tìm hiểu về BigQuery và các tính năng của nó.

    • Bài tập:

      1. Tạo một tập dữ liệu và bảng trong BigQuery.

      2. Nạp dữ liệu vào BigQuery từ các nguồn khác nhau (ví dụ: Cloud Storage, Cloud SQL).

      3. Viết các truy vấn SQL phức tạp trong BigQuery để phân tích dữ liệu.

Ngày 20:

  • Sáng: Tối ưu hóa hiệu suất BigQuery.

    • Bài tập:

      1. Sử dụng các phân vùng và phân cụm trong BigQuery để cải thiện hiệu suất truy vấn.

      2. Thực hiện các kỹ thuật khác nhau để giảm lượng dữ liệu được quét bởi các truy vấn (ví dụ: sử dụng các hàm FILTER và LIMIT).

      3. Giám sát hiệu suất truy vấn BigQuery và xác định các nút cổ chai.

  • Chiều: Tìm hiểu về các chế độ xem được vật chất hóa (Materialized Views) trong BigQuery.

    • Bài tập:

      1. Tạo một chế độ xem được vật chất hóa trong BigQuery để tăng tốc các truy vấn phổ biến.

      2. So sánh hiệu suất truy vấn với và không có chế độ xem được vật chất hóa.

      3. Xác định các trường hợp sử dụng phù hợp cho các chế độ xem được vật chất hóa.

Ngày 21:

  • Sáng: Lập kế hoạch sử dụng hồ dữ liệu (Data Lake).

    • Bài tập:

      1. Xác định các yêu cầu về hồ dữ liệu cho một tổ chức mẫu (ví dụ: khả năng mở rộng, độ bền, chi phí).

      2. Đánh giá các dịch vụ hồ dữ liệu khác nhau trong GCP (ví dụ: Cloud Storage, BigQuery) dựa trên các yêu cầu này.

      3. Thiết kế một kiến trúc hồ dữ liệu để lưu trữ và xử lý nhiều loại dữ liệu.

  • Chiều: Tìm hiểu về Dataplex và cách nó giúp quản lý hồ dữ liệu.

    • Bài tập:

      1. Tạo một hồ Dataplex và liên kết nó với một bucket Cloud Storage.

      2. Sử dụng Dataplex để khám phá, quản lý và quản trị dữ liệu trong hồ của bạn.

      3. Thiết lập các kiểm soát truy cập và chính sách quản trị cho hồ Dataplex của bạn.

Ngày 22:

  • Sáng: Xử lý dữ liệu trong hồ dữ liệu.

    • Bài tập:

      1. Sử dụng Dataproc để chạy các công việc Spark trên dữ liệu trong hồ dữ liệu của bạn.

      2. Sử dụng Dataflow để xây dựng các pipeline xử lý dữ liệu phức tạp.

      3. Tích hợp các công cụ phân tích khác (ví dụ: BigQuery) với hồ dữ liệu của bạn.

  • Chiều: Giám sát hồ dữ liệu.

    • Bài tập:

      1. Thiết lập Cloud Monitoring để theo dõi hiệu suất và tính khả dụng của hồ dữ liệu của bạn.

      2. Sử dụng Cloud Logging để thu thập và phân tích nhật ký từ các dịch vụ hồ dữ liệu khác nhau.

      3. Tạo bảng điều khiển tùy chỉnh trong Cloud Monitoring để trực quan hóa các số liệu chính của hồ dữ liệu.

Ngày 23:

Ôn tập các khái niệm đã học trong tuần và làm bài kiểm tra mô phỏng.

  • Bài tập:

    1. Xem lại các ghi chú và tài liệu học tập.

    2. Thực hiện bài kiểm tra mô phỏng để đánh giá sự hiểu biết của bạn.

    3. Xác định các lĩnh vực cần cải thiện thêm.

Ngày 24 & 25:

Dự án Capstone: Xây dựng Hồ Dữ liệu Phân tích Nhật ký Web

Mô tả:

Bạn sẽ xây dựng một hồ dữ liệu để lưu trữ và phân tích nhật ký web từ một trang web thương mại điện tử giả lập. Hồ dữ liệu sẽ cho phép bạn hiểu rõ hơn về hành vi của khách hàng, tối ưu hóa hiệu suất trang web và đưa ra quyết định dựa trên dữ liệu.

Mục tiêu:

  1. Thu thập nhật ký web từ nhiều nguồn (ví dụ: Cloud Storage, Pub/Sub).

  2. Lưu trữ nhật ký web thô trong một hồ dữ liệu có thể mở rộng (ví dụ: Cloud Storage).

  3. Xử lý và chuyển đổi nhật ký web thành định dạng có cấu trúc (ví dụ: Parquet, Avro) bằng Dataflow hoặc Dataproc.

  4. Tạo một bảng tổng hợp trong BigQuery để phân tích tương tác.

  5. Trực quan hóa dữ liệu bằng Looker Studio để khám phá xu hướng và mô hình.

Các bước thực hiện:

Ngày 24:

  • Sáng:

    1. Thiết lập cơ sở hạ tầng: Tạo một bucket Cloud Storage để lưu trữ nhật ký web thô và một tập dữ liệu BigQuery để lưu trữ dữ liệu được xử lý.

    2. Thu thập dữ liệu: Mô phỏng nhật ký web bằng cách tạo một tập dữ liệu mẫu hoặc sử dụng một trình tạo nhật ký web. Tải dữ liệu lên Cloud Storage.

  • Chiều:

    1. Xử lý dữ liệu: Xây dựng một pipeline Dataflow (hoặc Dataproc) để đọc nhật ký web từ Cloud Storage, phân tích cú pháp và chuyển đổi chúng thành định dạng có cấu trúc (ví dụ: Parquet).

    2. Nạp dữ liệu: Tải dữ liệu đã xử lý vào BigQuery.

Ngày 25:

  • Sáng:

    1. Phân tích dữ liệu: Viết các truy vấn SQL trong BigQuery để tổng hợp dữ liệu và tính toán các số liệu chính (ví dụ: số lượt xem trang, thời gian trung bình trên trang, tỷ lệ chuyển đổi).

    2. Tạo bảng tổng hợp: Tạo một bảng tổng hợp trong BigQuery để lưu trữ kết quả phân tích.

  • Chiều:

    1. Trực quan hóa dữ liệu: Kết nối Looker Studio với BigQuery và tạo các báo cáo và bảng điều khiển để trực quan hóa dữ liệu.

    2. Thử nghiệm và tinh chỉnh: Thử nghiệm hồ dữ liệu với các truy vấn và báo cáo khác nhau. Tinh chỉnh pipeline xử lý dữ liệu và mô hình dữ liệu nếu cần.

Mở rộng (Tùy chọn):

  • Thêm phân tích nâng cao: Sử dụng BigQuery ML để xây dựng các mô hình dự đoán (ví dụ: phân loại khách hàng, dự đoán doanh số).

  • Tích hợp với các công cụ khác: Kết nối hồ dữ liệu với các công cụ tiếp thị hoặc CRM để kích hoạt các hành động dựa trên dữ liệu.

Tuần 5: Thiết kế Data Mesh

Ngày 26:

  • Sáng: Giới thiệu về Data Mesh và các nguyên tắc của nó.

    • Bài tập:

      1. Đọc bài viết gốc về Data Mesh của Zhamak Dehghani.

      2. So sánh và đối chiếu Data Mesh với các kiến trúc dữ liệu truyền thống như kho dữ liệu và hồ dữ liệu.

      3. Xác định các lợi ích và thách thức tiềm ẩn của việc triển khai Data Mesh.

  • Chiều: Tìm hiểu về các thành phần chính của Data Mesh.

    • Bài tập:

      1. Nghiên cứu các khái niệm về miền dữ liệu, chủ sở hữu miền và sản phẩm dữ liệu.

      2. Thiết kế một cấu trúc miền dữ liệu mẫu cho một tổ chức giả định.

      3. Xác định các sản phẩm dữ liệu tiềm năng có thể được tạo ra bởi các miền khác nhau.

Ngày 27:

  • Sáng: Xây dựng Data Mesh bằng các công cụ của Google Cloud.

    • Bài tập:

      1. Sử dụng Dataplex để tạo và quản lý các hồ dữ liệu cho các miền khác nhau.

      2. Sử dụng Data Catalog để lập danh mục và khám phá các sản phẩm dữ liệu.

      3. Sử dụng BigQuery để tạo và truy vấn các sản phẩm dữ liệu.

  • Chiều: Thực hành phân đoạn dữ liệu cho các nhóm phân tán.

    • Bài tập:

      1. Phân đoạn dữ liệu trong BigQuery bằng cách sử dụng các dự án, tập dữ liệu và bảng.

      2. Thiết lập các kiểm soát truy cập dựa trên vai trò (RBAC) để quản lý quyền truy cập vào dữ liệu.

      3. Tạo các chế độ xem được ủy quyền để cung cấp quyền truy cập an toàn vào các tập hợp con dữ liệu cụ thể.

Ngày 28:

  • Sáng: Xây dựng mô hình quản trị liên kết cho các hệ thống dữ liệu phân tán.

    • Bài tập:

      1. Phát triển một bộ nguyên tắc và chính sách quản trị dữ liệu cho Data Mesh của bạn.

      2. Thiết lập một quy trình để quản lý các thay đổi đối với lược đồ dữ liệu và các sản phẩm dữ liệu.

      3. Tạo một cơ chế để theo dõi và đo lường chất lượng dữ liệu.

  • Chiều: Ôn tập các khái niệm đã học trong tuần và làm bài kiểm tra mô phỏng.

    • Bài tập:

      1. Xem lại các ghi chú và tài liệu học tập.

      2. Thực hiện bài kiểm tra mô phỏng để đánh giá sự hiểu biết của bạn.

      3. Xác định các lĩnh vực cần cải thiện thêm.

Ngày 29 & 30:

  • Cả ngày: Dự án Capstone: Thiết kế và triển khai một Data Mesh thu nhỏ.

    • Bài tập:

      1. Chọn một trường hợp sử dụng trong thế giới thực cho Data Mesh của bạn.

      2. Thiết kế cấu trúc miền, xác định các sản phẩm dữ liệu và lập kế hoạch quản trị.

      3. Triển khai Data Mesh trên GCP bằng cách sử dụng các công cụ như Dataplex, Data Catalog và BigQuery.

      4. Trình bày dự án của bạn và thảo luận về những thách thức và bài học kinh nghiệm.

Dự án Capstone: Xây dựng Data Mesh Thu nhỏ cho Phân tích Dữ liệu Bán Hàng và Tiếp thị

Mô tả:

Bạn sẽ thiết kế và triển khai một Data Mesh thu nhỏ cho một công ty bán lẻ trực tuyến giả lập. Mục tiêu là cho phép các nhóm Bán hàng và Tiếp thị truy cập và phân tích dữ liệu một cách độc lập, đồng thời duy trì quản trị và chất lượng dữ liệu tập trung.

Mục tiêu:

  1. Thiết kế cấu trúc miền dữ liệu phù hợp với các nhóm Bán hàng và Tiếp thị.

  2. Xác định các sản phẩm dữ liệu có giá trị cho từng miền.

  3. Triển khai Data Mesh trên GCP bằng Dataplex, Data Catalog và BigQuery.

  4. Thiết lập quản trị dữ liệu và đảm bảo chất lượng dữ liệu.

  5. Trình bày dự án và thảo luận về những thách thức và bài học kinh nghiệm.

Các bước thực hiện:

Ngày 29:

  • Sáng: Thiết kế Data Mesh

    1. Xác định miền dữ liệu:

      • Miền Bán hàng (Sales Domain): Dữ liệu về đơn hàng, giao dịch, thông tin khách hàng.

      • Miền Tiếp thị (Marketing Domain): Dữ liệu về chiến dịch, tương tác khách hàng, hiệu suất quảng cáo.

    2. Xác định sản phẩm dữ liệu:

      • Miền Bán hàng:

        • Bảng tổng hợp doanh số theo sản phẩm, danh mục, khu vực, thời gian.

        • Dữ liệu khách hàng trung thành, giá trị vòng đời khách hàng.

      • Miền Tiếp thị:

        • Bảng tổng hợp hiệu quả chiến dịch, tỷ lệ chuyển đổi, ROI.

        • Dữ liệu phân khúc khách hàng mục tiêu.

    3. Lập kế hoạch quản trị:

      • Xác định vai trò và trách nhiệm của chủ sở hữu miền.

      • Thiết lập quy trình quản lý dữ liệu, bao gồm định nghĩa dữ liệu, chất lượng dữ liệu và bảo mật dữ liệu.

  • Chiều: Triển khai trên GCP

    1. Tạo hồ dữ liệu: Sử dụng Dataplex để tạo các hồ dữ liệu cho từng miền (Sales Lake, Marketing Lake).

    2. Tạo sản phẩm dữ liệu: Sử dụng BigQuery để tạo các bảng tổng hợp và chế độ xem dữ liệu cho từng sản phẩm dữ liệu đã xác định.

    3. Lập danh mục dữ liệu: Sử dụng Data Catalog để lập danh mục tất cả các sản phẩm dữ liệu, cung cấp siêu dữ liệu và mô tả.

Ngày 30:

  • Sáng: Quản trị và chất lượng dữ liệu

    1. Thiết lập kiểm soát truy cập: Sử dụng IAM để kiểm soát quyền truy cập vào các hồ dữ liệu và sản phẩm dữ liệu.

    2. Đảm bảo chất lượng dữ liệu: Sử dụng Data Quality để xác định và giải quyết các vấn đề về chất lượng dữ liệu.

    3. Theo dõi và giám sát: Sử dụng Cloud Logging và Cloud Monitoring để theo dõi hiệu suất và sử dụng Data Mesh.

  • Chiều: Trình bày và thảo luận

    1. Chuẩn bị bài thuyết trình: Tóm tắt thiết kế, triển khai và kết quả của dự án Data Mesh.

    2. Trình bày: Trình bày dự án cho nhóm hoặc các bên liên quan khác.

    3. Thảo luận: Thảo luận về những thách thức gặp phải, bài học kinh nghiệm và các bước cải tiến tiếp theo.

Mở rộng (Tùy chọn):

  • Thêm các miền dữ liệu khác (ví dụ: miền Sản phẩm, miền Kho vận).

  • Tích hợp với các công cụ phân tích và báo cáo khác (ví dụ: Looker).

  • Triển khai các tính năng bảo mật nâng cao (ví dụ: mã hóa dữ liệu, kiểm soát truy cập chi tiết).

Tuần 6: Chuẩn bị và Sử dụng Dữ liệu để Phân tích

Ngày 31:

  • Sáng: Chuẩn bị dữ liệu để trực quan hóa.

    • Bài tập:

      1. Kết nối BigQuery với Looker Studio.

      2. Tạo các trường được tính toán trước trong BigQuery để đơn giản hóa trực quan hóa.

      3. Xây dựng chế độ xem được vật chất hóa (materialized view) trong BigQuery để tăng tốc độ truy vấn.

  • Chiều: Tìm hiểu về Looker Studio và các thành phần của nó.

    • Bài tập:

      1. Tạo một báo cáo trong Looker Studio với các biểu đồ và bảng khác nhau.

      2. Sử dụng các bộ lọc và tham số để tùy chỉnh báo cáo.

      3. Thêm các thành phần tương tác như điều khiển bộ lọc và nút drill-down.

Ngày 32:

  • Sáng: Chia sẻ dữ liệu và báo cáo.

    • Bài tập:

      1. Chia sẻ tập dữ liệu BigQuery với người dùng hoặc nhóm khác.

      2. Xuất bản báo cáo Looker Studio và chia sẻ nó với các bên liên quan.

      3. Sử dụng Analytics Hub để chia sẻ dữ liệu và báo cáo với các tổ chức khác.

  • Chiều: Tìm hiểu về BigQuery ML và các khả năng của nó.

    • Bài tập:

      1. Xây dựng một mô hình hồi quy tuyến tính trong BigQuery ML để dự đoán giá nhà.

      2. Đánh giá hiệu suất của mô hình bằng cách sử dụng các số liệu như R bình phương và RMSE.

      3. Sử dụng mô hình để đưa ra dự đoán về dữ liệu mới.

Ngày 33:

  • Sáng: Thực hiện feature engineering cho mô hình học máy.

    • Bài tập:

      1. Chọn các đặc trưng có liên quan từ tập dữ liệu BigQuery.

      2. Chuyển đổi các đặc trưng thành các định dạng phù hợp cho mô hình học máy (ví dụ: mã hóa one-hot, chia tỷ lệ).

      3. Tạo các đặc trưng mới bằng cách kết hợp hoặc tổng hợp các đặc trưng hiện có.

  • Chiều: Khám phá và phân tích dữ liệu bằng BigQuery.

    • Bài tập:

      1. Sử dụng BigQuery để thực hiện phân tích thăm dò dữ liệu (EDA).

      2. Xác định các xu hướng, ngoại lệ và mối tương quan trong dữ liệu.

      3. Sử dụng SQL và các hàm tích hợp của BigQuery để phân tích dữ liệu ở nhiều cấp độ chi tiết khác nhau.

Ngày 34 & 35:

  • Cả ngày: Dự án Capstone: Phân tích dữ liệu bán hàng thương mại điện tử.

    • Bài tập:

      1. Sử dụng một tập dữ liệu bán hàng thương mại điện tử mẫu (có thể tìm thấy trên Kaggle hoặc các nguồn khác).

      2. Chuẩn bị dữ liệu để phân tích bằng cách làm sạch, chuyển đổi và tổng hợp.

      3. Phân tích dữ liệu để trả lời các câu hỏi kinh doanh như:

        • Sản phẩm nào bán chạy nhất?

        • Khách hàng chi tiêu bao nhiêu trung bình?

        • Các kênh tiếp thị nào hiệu quả nhất?

      4. Trực quan hóa kết quả phân tích bằng Looker Studio.

Tuần 7: Duy Trì và Tự động hóa Khối lượng Công việc Dữ liệu

Ngày 36:

  • Sáng: Tối ưu hóa tài nguyên.

    • Bài tập:

      1. Phân tích chi phí BigQuery và xác định các truy vấn tốn kém.

      2. Sử dụng các kỹ thuật như phân vùng, phân cụm và các chế độ xem được vật chất hóa để tối ưu hóa chi phí truy vấn.

      3. Thiết lập ngân sách và cảnh báo trong BigQuery để theo dõi chi phí.

  • Chiều: Tự động hóa và lặp lại công việc.

    • Bài tập:

      1. Tạo một DAG Cloud Composer để sắp xếp các tác vụ BigQuery (ví dụ: tải dữ liệu, truy vấn, xuất dữ liệu).

      2. Sử dụng các toán tử Cloud Composer như BigQueryOperator, PythonOperator và EmailOperator.

      3. Lên lịch DAG để chạy hàng ngày, hàng tuần hoặc hàng tháng.

Ngày 37:

  • Sáng: Tổ chức khối lượng công việc dựa trên yêu cầu kinh doanh.

    • Bài tập:

      1. Phân tích các yêu cầu kinh doanh khác nhau (ví dụ: báo cáo hàng ngày, phân tích đặc biệt) và xác định các loại công việc BigQuery phù hợp (ví dụ: truy vấn tương tác, truy vấn theo lô).

      2. Sử dụng các tùy chọn định giá khác nhau của BigQuery (ví dụ: on-demand, flat-rate) để tối ưu hóa chi phí.

      3. Sử dụng các slot dành riêng để đảm bảo công suất cho các công việc quan trọng.

  • Chiều: Giám sát và xử lý sự cố quy trình BigQuery.

    • Bài tập:

      1. Sử dụng Cloud Monitoring để theo dõi các số liệu BigQuery như số lượng truy vấn, thời gian truy vấn và lỗi truy vấn.

      2. Sử dụng Cloud Logging để xem nhật ký truy vấn BigQuery và xác định các vấn đề tiềm ẩn.

      3. Thiết lập cảnh báo trong Cloud Monitoring để được thông báo về các vấn đề về hiệu suất hoặc lỗi.

Ngày 38:

  • Sáng: Duy trì nhận thức về lỗi và giảm thiểu tác động.

    • Bài tập:

      1. Thiết kế các quy trình BigQuery có khả năng chịu lỗi bằng cách sử dụng các tính năng như thử lại và xử lý lỗi.

      2. Sử dụng các bảng sao lưu BigQuery để bảo vệ chống lại việc mất dữ liệu.

      3. Thực hiện các chiến lược sao lưu và khôi phục khác nhau để đảm bảo tính liên tục của hoạt động.

  • Chiều: Ôn tập các khái niệm đã học trong tuần và làm bài kiểm tra mô phỏng.

    • Bài tập:

      1. Xem lại các ghi chú và tài liệu học tập.

      2. Thực hiện bài kiểm tra mô phỏng để đánh giá sự hiểu biết của bạn.

      3. Xác định các lĩnh vực cần cải thiện thêm.

Ngày 39 & 40:

  • Cả ngày: Dự án Capstone: Tối ưu hóa và Tự động hóa Hệ thống Dữ liệu.

    • Bài tập:

      1. Chọn một hệ thống dữ liệu hiện có (ví dụ: hệ thống được xây dựng trong các dự án capstone trước đó).

      2. Xác định các nút cổ chai về hiệu suất và chi phí.

      3. Thực hiện các kỹ thuật tối ưu hóa khác nhau (ví dụ: tối ưu hóa truy vấn, phân vùng, phân cụm).

      4. Tự động hóa các tác vụ thường xuyên bằng Cloud Composer.

      5. Giám sát hệ thống và thiết lập cảnh báo để đảm bảo hiệu suất và độ tin cậy.

Dự án Capstone: Tối ưu hóa và Tự động hóa Pipeline Phân tích Tình cảm về Sản phẩm

Mô tả:

Bạn sẽ sử dụng lại pipeline phân tích tình cảm về sản phẩm đã xây dựng trong tuần 6, sau đó tối ưu hóa hiệu suất và chi phí của nó, đồng thời tự động hóa các tác vụ thường xuyên bằng Cloud Composer.

Mục tiêu:

  1. Xác định các nút cổ chai về hiệu suất và chi phí trong pipeline hiện có.

  2. Áp dụng các kỹ thuật tối ưu hóa BigQuery (ví dụ: phân vùng, phân cụm, tối ưu hóa truy vấn).

  3. Tạo một DAG Cloud Composer để tự động hóa việc thu thập, xử lý và phân tích dữ liệu.

  4. Thiết lập giám sát và cảnh báo để đảm bảo hiệu suất và độ tin cậy của pipeline.

Các bước thực hiện:

Ngày 39:

  • Sáng: Phân tích và Tối ưu hóa Hiệu suất

    1. Xác định nút cổ chai: Sử dụng Cloud Logging và Cloud Monitoring để xác định các bước trong pipeline mất nhiều thời gian hoặc tài nguyên nhất.

    2. Tối ưu hóa truy vấn BigQuery:

      • Sử dụng các hàm phân vùng và phân cụm để giảm lượng dữ liệu được quét.

      • Viết lại các truy vấn để tận dụng các chỉ mục và bộ nhớ đệm.

      • Tránh sử dụng các hàm tốn kém như REGEXP_CONTAINS.

    3. Tối ưu hóa Dataflow:

      • Điều chỉnh số lượng worker và máy ảo để phù hợp với khối lượng công việc.

      • Sử dụng các mẫu thiết kế Dataflow hiệu quả (ví dụ: Combine, Side Inputs).

      • Sử dụng các tính năng như autoscaling để tự động điều chỉnh tài nguyên.

  • Chiều: Tối ưu hóa Chi phí

    1. Phân tích chi phí: Sử dụng Cloud Billing để phân tích chi phí của các dịch vụ GCP khác nhau được sử dụng trong pipeline.

    2. Giảm chi phí lưu trữ:

      • Sử dụng các lớp lưu trữ Cloud Storage phù hợp với tần suất truy cập dữ liệu (ví dụ: Nearline, Coldline).

      • Nén dữ liệu trong Cloud Storage và BigQuery.

    3. Giảm chi phí truy vấn:

      • Sử dụng các bảng phân vùng và phân cụm để giảm lượng dữ liệu được quét.

      • Sử dụng các chế độ xem được vật chất hóa để lưu trữ kết quả truy vấn thường xuyên.

      • Hạn chế số lượng truy vấn đồng thời.

Ngày 40:

  • Sáng: Tự động hóa với Cloud Composer

    1. Tạo DAG: Tạo một DAG Cloud Composer để sắp xếp các tác vụ trong pipeline, bao gồm:

      • Thu thập dữ liệu từ Twitter.

      • Xử lý dữ liệu bằng Dataflow.

      • Nạp dữ liệu vào BigQuery.

      • Thực hiện phân tích tình cảm.

      • Cập nhật bảng tổng hợp.

    2. Lên lịch DAG: Lên lịch DAG để chạy theo định kỳ (ví dụ: hàng giờ, hàng ngày).

  • Chiều: Giám sát và Cảnh báo

    1. Thiết lập Cloud Monitoring: Tạo các dashboard và cảnh báo trong Cloud Monitoring để theo dõi hiệu suất và tình trạng của pipeline.

    2. Giám sát các số liệu chính: Theo dõi các số liệu như thời gian chạy pipeline, số lượng tweet được xử lý, độ trễ phân tích tình cảm.

    3. Thiết lập cảnh báo: Tạo cảnh báo để được thông báo về các lỗi, sự cố hiệu suất hoặc chi phí vượt quá ngưỡng.

Mở rộng (Tùy chọn):

  • Thêm các tác vụ bảo trì vào DAG (ví dụ: xóa dữ liệu cũ, cập nhật mô hình phân tích tình cảm).

  • Tích hợp pipeline với các công cụ khác (ví dụ: gửi thông báo qua email hoặc Slack khi có cảnh báo).

  • Triển khai pipeline trong môi trường production và giám sát hiệu suất của nó.

Tuần 8: Thiết kế Nâng cao và Tối ưu hóa

Ngày 41:

  • Sáng: Thiết kế Kho Dữ liệu Lớn (Big Data Warehouse)

    • Bài tập:

      1. Thiết kế một kho dữ liệu lớn trên BigQuery để xử lý petabyte dữ liệu.

      2. Sử dụng các tính năng như phân vùng, phân cụm và các bảng được phân cụm để tối ưu hóa hiệu suất truy vấn.

      3. Thực hiện các truy vấn phức tạp trên kho dữ liệu lớn và phân tích kết quả.

  • Chiều: Tích hợp Dữ liệu với Apache Spark và Dataproc

    • Bài tập:

      1. Tạo một cụm Dataproc và chạy các công việc Spark để xử lý dữ liệu từ Cloud Storage.

      2. Sử dụng Spark SQL để truy vấn và chuyển đổi dữ liệu trong Dataproc.

      3. Tích hợp Spark với các dịch vụ GCP khác như BigQuery và Cloud Storage.

Ngày 42:

  • Sáng: Xây dựng Ứng dụng Xử lý Dữ liệu Thời gian Thực (Real-time Data Processing)

    • Bài tập:

      1. Xây dựng một ứng dụng xử lý luồng dữ liệu thời gian thực bằng Dataflow hoặc Pub/Sub.

      2. Sử dụng các cửa sổ và watermark để xử lý dữ liệu đến muộn.

      3. Xử lý dữ liệu luồng từ các nguồn khác nhau như IoT devices hoặc phương tiện truyền thông xã hội.

  • Chiều: Tối ưu hóa Hiệu suất và Chi phí

    • Bài tập:

      1. Thực hiện phân tích hiệu suất trên các pipeline và truy vấn hiện có.

      2. Sử dụng các công cụ như BigQuery Profiler và Dataflow Execution Graph để xác định các nút thắt cổ chai.

      3. Áp dụng các kỹ thuật tối ưu hóa như phân vùng, phân cụm, lập chỉ mục và viết lại truy vấn.

      4. Đánh giá tác động của việc tối ưu hóa đến chi phí và hiệu suất.

Ngày 43:

  • Sáng: Quản trị Dữ liệu và Bảo mật

    • Bài tập:

      1. Thiết lập các chính sách IAM để kiểm soát truy cập vào dữ liệu và tài nguyên.

      2. Sử dụng Cloud DLP để bảo vệ dữ liệu nhạy cảm.

      3. Triển khai các kỹ thuật mã hóa dữ liệu để đảm bảo tính bảo mật.

  • Chiều: Quản lý Vòng đời Dữ liệu

    • Bài tập:

      1. Thiết lập các chính sách vòng đời đối tượng trong Cloud Storage để tự động chuyển và xóa dữ liệu.

      2. Sử dụng các bảng phân vùng trong BigQuery để quản lý vòng đời dữ liệu.

      3. Triển khai các quy trình lưu trữ và sao lưu dữ liệu để đảm bảo tính khả dụng và độ tin cậy.

Ngày 44 & 45:

  • Cả ngày: Dự án Capstone: Xây dựng một Hệ thống Phân tích Dữ liệu Phức tạp

    • Bài tập:

      1. Chọn một lĩnh vực bạn quan tâm (ví dụ: tài chính, chăm sóc sức khỏe, bán lẻ).

      2. Xây dựng một hệ thống phân tích dữ liệu đầu cuối để giải quyết một vấn đề kinh doanh thực tế trong lĩnh vực đó.

      3. Sử dụng kết hợp các dịch vụ GCP như BigQuery, Dataflow, Dataproc, Cloud Storage và Looker Studio.

      4. Thực hiện các tác vụ như thu thập, xử lý, lưu trữ, phân tích và trực quan hóa dữ liệu.

Dự án Capstone: Hệ thống Khuyến nghị Sản phẩm Cá nhân hóa cho Thương mại Điện tử

Mô tả:

Bạn sẽ xây dựng một hệ thống khuyến nghị sản phẩm cá nhân hóa cho một trang web thương mại điện tử giả lập. Hệ thống này sẽ sử dụng các kỹ thuật học máy để phân tích hành vi người dùng và đưa ra các đề xuất sản phẩm phù hợp với sở thích và nhu cầu của từng khách hàng.

Mục tiêu:

  1. Thu thập dữ liệu người dùng từ trang web thương mại điện tử (ví dụ: lịch sử duyệt web, lịch sử mua hàng, đánh giá sản phẩm).

  2. Xử lý và chuẩn hóa dữ liệu người dùng.

  3. Lưu trữ dữ liệu vào BigQuery để phân tích.

  4. Xây dựng và huấn luyện các mô hình khuyến nghị (ví dụ: lọc cộng tác, phân tích ma trận).

  5. Triển khai các mô hình vào môi trường production và cung cấp các đề xuất sản phẩm cá nhân hóa cho người dùng.

Các bước thực hiện:

Ngày 44:

  • Sáng: Thu thập và Xử lý Dữ liệu

    1. Thu thập dữ liệu:

      • Tạo một tập dữ liệu người dùng mẫu hoặc sử dụng một tập dữ liệu công khai (ví dụ: MovieLens, Amazon Reviews).

      • Lưu trữ dữ liệu thô vào Cloud Storage.

    2. Xử lý dữ liệu:

      • Xây dựng một pipeline Dataflow để đọc dữ liệu từ Cloud Storage, làm sạch và chuyển đổi dữ liệu (ví dụ: xử lý giá trị bị thiếu, chuẩn hóa định dạng).

      • Tạo các đặc trưng (features) có liên quan từ dữ liệu người dùng (ví dụ: danh mục sản phẩm yêu thích, lịch sử mua hàng, đánh giá sản phẩm).

  • Chiều: Lưu trữ và Chuẩn bị Dữ liệu

    1. Lưu trữ dữ liệu:

      • Nạp dữ liệu đã xử lý vào BigQuery.

      • Tạo các bảng phân vùng và phân cụm trong BigQuery để tối ưu hóa hiệu suất truy vấn.

    2. Chia dữ liệu:

      • Chia dữ liệu thành các tập huấn luyện, xác thực và kiểm tra để xây dựng và đánh giá mô hình khuyến nghị.

Ngày 45:

  • Sáng: Xây dựng và Huấn luyện Mô hình

    1. Chọn mô hình:

      • Nghiên cứu các thuật toán khuyến nghị khác nhau (ví dụ: lọc cộng tác, phân tích ma trận, factorization machines).

      • Chọn một hoặc nhiều mô hình để thử nghiệm.

    2. Huấn luyện mô hình:

      • Sử dụng BigQuery ML, AI Platform hoặc các thư viện như TensorFlow Recommenders để huấn luyện các mô hình trên tập dữ liệu huấn luyện.

      • Điều chỉnh siêu tham số của mô hình để tối ưu hóa hiệu suất.

      • Đánh giá mô hình trên tập dữ liệu xác thực.

  • Chiều: Triển khai và Đánh giá Mô hình

    1. Triển khai mô hình:

      • Triển khai mô hình được huấn luyện tốt nhất vào AI Platform Predictions hoặc Cloud Functions để cung cấp các đề xuất sản phẩm theo thời gian thực.
    2. Đánh giá mô hình:

      • Sử dụng các số liệu như precision, recall và NDCG để đánh giá hiệu suất của mô hình.

      • Thu thập phản hồi của người dùng về các đề xuất để cải thiện mô hình.

Mở rộng (Tùy chọn):

  • Thử nghiệm các thuật toán và kỹ thuật khuyến nghị khác nhau.

  • Kết hợp dữ liệu bổ sung như thông tin nhân khẩu học hoặc dữ liệu mạng xã hội để cải thiện tính cá nhân hóa.

  • Xây dựng một giao diện người dùng để hiển thị các đề xuất sản phẩm cho người dùng.

Ngày 46:

  • Sáng: Xử lý Dữ liệu Đa phương tiện (Multimedia Data Processing)

    • Bài tập:

      1. Sử dụng Cloud Vision API để trích xuất thông tin từ hình ảnh và video (nhãn, đối tượng, văn bản).

      2. Sử dụng Cloud Speech-to-Text để chuyển đổi âm thanh thành văn bản.

      3. Xây dựng một pipeline Dataflow để xử lý và phân tích dữ liệu đa phương tiện.

  • Chiều: Xử lý Ngôn ngữ Tự nhiên (Natural Language Processing - NLP)

    • Bài tập:

      1. Sử dụng Natural Language API để phân tích tình cảm, thực thể và cú pháp của văn bản.

      2. Xây dựng một chatbot đơn giản bằng Dialogflow.

      3. Tích hợp NLP vào các ứng dụng xử lý dữ liệu khác.

Ngày 47:

  • Sáng: Học máy trên BigQuery (BigQuery ML)

    • Bài tập:

      1. Xây dựng các mô hình học máy (hồi quy, phân loại, dự báo chuỗi thời gian) trực tiếp trong BigQuery.

      2. Đánh giá và so sánh hiệu suất của các mô hình khác nhau.

      3. Sử dụng các mô hình để tạo dự đoán trên dữ liệu mới.

  • Chiều: MLOps trên Google Cloud

    • Bài tập:

      1. Tìm hiểu về các thành phần của MLOps (quản lý mô hình, triển khai mô hình, giám sát mô hình).

      2. Sử dụng AI Platform để triển khai và quản lý các mô hình học máy.

      3. Tạo một pipeline CI/CD cho mô hình học máy.

Ngày 48:

  • Sáng: Xây dựng Ứng dụng Dữ liệu với App Engine hoặc Cloud Functions

    • Bài tập:

      1. Tạo một ứng dụng web đơn giản bằng App Engine hoặc Cloud Functions để tương tác với dữ liệu trên GCP.

      2. Sử dụng các API GCP như BigQuery API và Cloud Storage API để truy cập và thao tác dữ liệu.

      3. Triển khai ứng dụng lên GCP và kiểm tra chức năng của nó.

  • Chiều: Thiết kế Kiến trúc Microservices

    • Bài tập:

      1. Tìm hiểu về các nguyên tắc thiết kế microservices.

      2. Thiết kế một kiến trúc microservices cho một ứng dụng xử lý dữ liệu.

      3. Xác định các dịch vụ, giao diện và cơ chế giao tiếp giữa các dịch vụ.

Ngày 49 & 50:

  • Cả ngày: Dự án Capstone: Xây dựng một Ứng dụng Dữ liệu Phức tạp

    • Bài tập:

      1. Chọn một lĩnh vực bạn quan tâm (ví dụ: bán lẻ, truyền thông xã hội, IoT).

      2. Xây dựng một ứng dụng dữ liệu đầu cuối để giải quyết một vấn đề kinh doanh thực tế trong lĩnh vực đó.

      3. Sử dụng kết hợp các công cụ và dịch vụ GCP như BigQuery, Dataflow, Dataproc, Cloud Storage, AI Platform, App Engine hoặc Cloud Functions.

      4. Tích hợp các công nghệ nâng cao như xử lý dữ liệu đa phương tiện, NLP, học máy và microservices.

Ngày 51:

  • Sáng: Xây dựng Hệ thống Phân tích Bán hàng Thời gian thực (Real-time Sales Analytics)

    • Lý thuyết:

      • Tìm hiểu về các khái niệm xử lý luồng (stream processing) và phân tích thời gian thực (real-time analytics).

      • Khám phá các công cụ và dịch vụ của Google Cloud như Pub/Sub, Dataflow và BigQuery.

      • Tìm hiểu về các mẫu thiết kế để xây dựng các ứng dụng phân tích thời gian thực.

    • Thực hành:

      • Xây dựng một pipeline Dataflow để xử lý luồng dữ liệu bán hàng từ Pub/Sub.

      • Tính toán các số liệu bán hàng theo thời gian thực (ví dụ: tổng doanh thu, số lượng sản phẩm bán ra) và lưu trữ kết quả vào BigQuery.

      • Trực quan hóa dữ liệu bán hàng theo thời gian thực bằng Looker Studio hoặc các công cụ khác.

  • Chiều: Xây dựng Hệ thống Phát hiện Gian lận (Fraud Detection System)

    • Lý thuyết:

      • Tìm hiểu về các loại gian lận phổ biến (ví dụ: gian lận thẻ tín dụng, gian lận bảo hiểm).

      • Khám phá các kỹ thuật phát hiện gian lận như phân tích quy tắc, học máy và phân tích đồ thị.

      • Tìm hiểu về các dịch vụ của Google Cloud như BigQuery ML và Vertex AI.

    • Thực hành:

      • Xây dựng một mô hình học máy đơn giản để phát hiện gian lận trong dữ liệu giao dịch.

      • Đánh giá hiệu suất của mô hình và tinh chỉnh nó.

      • Triển khai mô hình vào môi trường production và giám sát hiệu suất của nó.

Ngày 52:

  • Sáng: Xây dựng Hệ thống Khuyến nghị Cá nhân hóa (Personalized Recommendation System)

    • Lý thuyết:

      • Tìm hiểu về các loại hệ thống khuyến nghị (ví dụ: lọc cộng tác, dựa trên nội dung, hệ thống lai).

      • Khám phá các thuật toán khuyến nghị phổ biến như ALS, SVD và factorization machines.

      • Tìm hiểu về các dịch vụ đề xuất của Google Cloud như Recommendations AI.

    • Thực hành:

      • Xây dựng một hệ thống khuyến nghị sản phẩm hoặc nội dung bằng BigQuery ML hoặc TensorFlow Recommenders.

      • Đánh giá và tối ưu hóa hiệu suất của hệ thống đề xuất bằng các kỹ thuật như A/B testing.

  • Chiều: Xây dựng Ứng dụng Xử lý Ngôn ngữ Tự nhiên (Natural Language Processing - NLP Applications)

    • Lý thuyết:

      • Tìm hiểu về các tác vụ NLP phổ biến như phân tích tình cảm, thực thể, tóm tắt văn bản và dịch máy.

      • Khám phá các mô hình NLP phổ biến như BERT và GPT.

      • Tìm hiểu về các dịch vụ NLP của Google Cloud như Natural Language API và AutoML Natural Language.

    • Thực hành:

      • Xây dựng một ứng dụng phân tích tình cảm cho các bài đánh giá sản phẩm hoặc bài đăng trên mạng xã hội.

      • Tạo một ứng dụng tóm tắt văn bản để tóm tắt các bài báo hoặc tài liệu dài.

      • Sử dụng AutoML Natural Language để xây dựng một mô hình phân loại văn bản tùy chỉnh.

Ngày 53:

  • Sáng: Xây dựng Ứng dụng Thị giác Máy tính (Computer Vision Applications)

    • Lý thuyết:

      • Tìm hiểu về các tác vụ thị giác máy tính phổ biến như phân loại hình ảnh, phát hiện đối tượng và phân đoạn hình ảnh.

      • Khám phá các mô hình thị giác máy tính phổ biến như ResNet, Inception và YOLO.

      • Tìm hiểu về các dịch vụ thị giác máy tính của Google Cloud như Cloud Vision API và AutoML Vision.

    • Thực hành:

      • Xây dựng một ứng dụng phân loại hình ảnh để phân loại các sản phẩm hoặc cảnh vật.

      • Tạo một ứng dụng phát hiện đối tượng để phát hiện các đối tượng trong hình ảnh hoặc video.

  • Chiều: Tối ưu hóa Hiệu suất và Khả năng mở rộng (Tiếp theo)

    • Lý thuyết:

      • Tìm hiểu về các kỹ thuật tối ưu hóa truy vấn BigQuery nâng cao.

      • Khám phá các mẫu thiết kế Dataflow để cải thiện hiệu suất và khả năng mở rộng.

      • Tìm hiểu về cách sử dụng các dịch vụ như Cloud Spanner và Bigtable để xây dựng các ứng dụng có khả năng mở rộng cao.

    • Thực hành:

      • Tiếp tục tối ưu hóa các truy vấn và pipeline đã xây dựng trong các ngày trước đó.

      • Thử nghiệm các cấu hình khác nhau để tìm ra giải pháp tốt nhất cho khối lượng công việc của bạn.

Ngày 54:

  • Sáng: Xử lý Dữ liệu IoT (Internet of Things)

    • Lý thuyết:

      • Tìm hiểu về kiến trúc IoT và các thành phần chính (thiết bị, cổng, nền tảng đám mây).

      • Khám phá các giao thức IoT phổ biến như MQTT, CoAP và HTTP.

      • Tìm hiểu về các dịch vụ IoT của Google Cloud như Cloud IoT Core và Pub/Sub.

    • Thực hành:

      • Xem các video hướng dẫn hoặc đọc tài liệu về cách thiết lập một thiết bị IoT ảo và kết nối nó với Cloud IoT Core.

      • Tìm hiểu cách sử dụng Pub/Sub để nhận và xử lý dữ liệu từ thiết bị IoT.

  • Chiều: Phân tích Dữ liệu Địa lý (Geospatial Data Analysis)

    • Lý thuyết:

      • Tìm hiểu về các định dạng dữ liệu địa lý (ví dụ: GeoJSON, KML, WKT).

      • Khám phá các khái niệm địa lý như điểm, đường, đa giác và hệ tọa độ.

      • Tìm hiểu về các dịch vụ địa lý của Google Cloud như BigQuery GIS và Maps Platform.

    • Thực hành:

      • Tải lên một tập dữ liệu địa lý mẫu vào BigQuery và thực hiện các truy vấn không gian.

      • Sử dụng BigQuery GIS để phân tích dữ liệu địa lý và trực quan hóa nó trên bản đồ bằng các công cụ như Google Maps hoặc Kepler.gl.

Ngày 55:

  • Sáng: Xây dựng Hệ thống Đề xuất (Recommendation Systems)

    • Lý thuyết:

      • Tìm hiểu về các loại hệ thống đề xuất khác nhau (ví dụ: lọc cộng tác, dựa trên nội dung, hệ thống lai).

      • Khám phá các thuật toán khuyến nghị phổ biến như ALS, SVD++ và factorization machines.

      • Tìm hiểu về các dịch vụ đề xuất của Google Cloud như Recommendations AI.

    • Thực hành:

      • Xây dựng một hệ thống đề xuất sản phẩm hoàn chỉnh bằng BigQuery ML hoặc TensorFlow Recommenders.

      • Đánh giá và tối ưu hóa hiệu suất của hệ thống đề xuất bằng các kỹ thuật như A/B testing và đo lường offline.

  • Chiều: Xử lý Dữ liệu Văn bản Phi Cấu trúc (Unstructured Text Data Processing)

    • Lý thuyết:

      • Tìm hiểu về các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) như phân tích cú pháp, phân tích ngữ nghĩa, phân tích thực thể (NER) và phân loại văn bản.

      • Khám phá các mô hình NLP phổ biến như BERT, GPT và T5.

      • Tìm hiểu về các dịch vụ NLP của Google Cloud như Natural Language API và AutoML Natural Language.

    • Thực hành:

      • Sử dụng Natural Language API để phân tích tình cảm, thực thể, cú pháp và phân loại các bài đánh giá sản phẩm hoặc bài đăng trên mạng xã hội.

      • Huấn luyện một mô hình phân loại văn bản tùy chỉnh bằng AutoML Natural Language.

      • Thực hiện các tác vụ NLP nâng cao như tóm tắt văn bản, dịch máy và trả lời câu hỏi.

Ngày 56:

  • Sáng: Xây dựng Ứng dụng Trí tuệ Nhân tạo Đàm thoại (Conversational AI Applications)

    • Lý thuyết:

      • Tìm hiểu về các thành phần của một ứng dụng đàm thoại (ví dụ: nhận dạng giọng nói, hiểu ngôn ngữ tự nhiên, tạo ngôn ngữ tự nhiên).

      • Khám phá các nền tảng đàm thoại như Dialogflow CX và Contact Center AI.

      • Tìm hiểu về các kỹ thuật thiết kế hội thoại và cách tạo các trải nghiệm người dùng tự nhiên và hấp dẫn.

    • Thực hành:

      • Xây dựng một chatbot phức tạp bằng Dialogflow CX, có khả năng xử lý các cuộc hội thoại đa lượt, tích hợp webhook và thực hiện các tác vụ cụ thể.

      • Tích hợp chatbot với các nền tảng nhắn tin phổ biến (Facebook Messenger, WhatsApp, v.v.) và các kênh thoại.

      • Sử dụng Contact Center AI để xây dựng một hệ thống hỗ trợ khách hàng ảo.

  • Chiều: Xử lý Dữ liệu Lớn với Apache Spark và Dataproc

    • Lý thuyết:

      • Tìm hiểu về kiến trúc Spark và các thành phần chính (Spark Core, Spark SQL, Spark Streaming, MLlib, GraphX).

      • Khám phá các khái niệm Spark như RDD, DataFrame, Dataset và Catalyst Optimizer.

      • Tìm hiểu về cách sử dụng Dataproc để chạy các công việc Spark trên GCP.

    • Thực hành:

      • Xây dựng một ứng dụng Spark hoàn chỉnh để xử lý và phân tích một tập dữ liệu lớn (ví dụ: nhật ký web, dữ liệu giao dịch).

      • Sử dụng Spark SQL để thực hiện các truy vấn phức tạp trên dữ liệu.

      • Tối ưu hóa hiệu suất của ứng dụng Spark bằng cách sử dụng các kỹ thuật như phân vùng, bộ nhớ đệm và broadcast variables.

Ngày 57:

  • Sáng: Xử lý Dữ liệu Luồng (Stream Processing) với Apache Beam và Dataflow

    • Lý thuyết:

      • Tìm hiểu về các khái niệm xử lý luồng như cửa sổ (windowing), watermark và triggers.

      • Khám phá Apache Beam, một mô hình lập trình thống nhất cho xử lý lô và luồng.

      • Tìm hiểu về cách sử dụng Dataflow để chạy các pipeline Beam trên GCP.

    • Thực hành:

      • Xây dựng một pipeline Beam để xử lý dữ liệu luồng từ Pub/Sub.

      • Sử dụng các phép biến đổi Beam khác nhau để làm giàu và tổng hợp dữ liệu luồng.

      • Triển khai pipeline Beam trên Dataflow và giám sát hiệu suất của nó.

  • Chiều: Tối ưu hóa Hiệu suất và Khả năng mở rộng (Tiếp theo)

    • Lý thuyết:

      • Tìm hiểu về các kỹ thuật tối ưu hóa truy vấn BigQuery nâng cao như sử dụng materialized views, partitioning, clustering và các hàm tối ưu hóa.

      • Khám phá các mẫu thiết kế Dataflow để cải thiện hiệu suất và khả năng mở rộng, chẳng hạn như sử dụng side inputs và singleton.

      • Tìm hiểu về cách sử dụng các dịch vụ như Cloud Spanner và Bigtable để xây dựng các ứng dụng có khả năng mở rộng cao.

    • Thực hành:

      • Tiếp tục tối ưu hóa các truy vấn và pipeline đã xây dựng trong các ngày trước đó.

      • Thử nghiệm các cấu hình khác nhau để tìm ra giải pháp tốt nhất cho khối lượng công việc của bạn.

Ngày 58:

  • Sáng & Chiều: Tìm hiểu chuyên sâu về các dịch vụ khác của Google Cloud Platform (GCP)

    • Lý thuyết và thực hành:

      • Cloud Run: Xây dựng và triển khai các ứng dụng serverless.

      • Cloud Functions: Tạo các hàm không máy chủ để phản hồi các sự kiện.

      • Cloud Scheduler: Lên lịch các tác vụ chạy trên GCP.

      • AI Platform Pipelines: Xây dựng và triển khai các pipeline ML.

      • Vertex AI: Nền tảng ML toàn diện của Google Cloud.

Ngày 59:

  • Sáng & Chiều: Dự án Capstone Tự chọn

    • Bài tập:

      • Chọn một dự án mà bạn quan tâm và áp dụng kiến thức đã học để xây dựng một giải pháp hoàn chỉnh trên GCP.

      • Bạn có thể chọn một trong các chủ đề đã đề cập trước đó hoặc một chủ đề mới hoàn toàn.

      • Mục tiêu là củng cố kiến thức và kỹ năng của bạn, đồng thời thể hiện khả năng giải quyết vấn đề thực tế bằng các công cụ và dịch vụ của GCP.

Dự án Capstone: Xây dựng Hệ thống Phân tích Dữ liệu Mạng Xã hội theo Thời gian thực (Real-time Social Media Analytics)

Mô tả:

Hệ thống này sẽ thu thập dữ liệu từ Twitter liên quan đến một chủ đề cụ thể (ví dụ: một thương hiệu, một sự kiện, một nhân vật nổi tiếng), phân tích dữ liệu đó theo thời gian thực để trích xuất thông tin chi tiết về tình cảm, xu hướng và các chủ đề thảo luận.

Mục tiêu:

  1. Thu thập dữ liệu Twitter liên quan đến một chủ đề cụ thể.

  2. Xử lý và phân tích dữ liệu theo thời gian thực để trích xuất thông tin chi tiết.

  3. Lưu trữ dữ liệu đã xử lý vào BigQuery để phân tích thêm và báo cáo.

  4. Trực quan hóa kết quả phân tích bằng Looker Studio.

Các bước thực hiện:

Sáng:

  1. Thiết lập môi trường:

    • Tạo một dự án GCP mới và kích hoạt các API cần thiết (ví dụ: Dataflow, Pub/Sub, BigQuery, Natural Language API).

    • Tạo một tài khoản Twitter Developer và lấy mã thông báo API.

  2. Thu thập dữ liệu:

    • Sử dụng Twitter API hoặc một công cụ thu thập dữ liệu Twitter (ví dụ: Tweepy) để thu thập các tweet liên quan đến chủ đề của bạn.

    • Gửi các tweet đã thu thập đến Pub/Sub.

  3. Xử lý dữ liệu:

    • Xây dựng một pipeline Dataflow để đọc các tweet từ Pub/Sub.

    • Sử dụng Natural Language API để phân tích tình cảm, thực thể và cú pháp của các tweet.

    • Làm sạch và chuẩn hóa dữ liệu tweet.

Chiều:

  1. Lưu trữ và phân tích dữ liệu:

    • Lưu trữ các tweet đã xử lý và kết quả phân tích vào BigQuery.

    • Viết các truy vấn SQL trong BigQuery để tổng hợp dữ liệu và tính toán các số liệu thống kê (ví dụ: số lượng tweet theo tình cảm, xu hướng theo thời gian, các hashtag phổ biến).

    • Xây dựng các bảng tổng hợp trong BigQuery để tối ưu hóa hiệu suất truy vấn.

  2. Trực quan hóa dữ liệu:

    • Kết nối Looker Studio với BigQuery và tạo các báo cáo và bảng điều khiển để trực quan hóa kết quả phân tích.

    • Sử dụng các biểu đồ và bảng để hiển thị số liệu thống kê theo thời gian, theo tình cảm và theo các khía cạnh khác.

Mở rộng (Tùy chọn):

  • Phát hiện các sự kiện bất thường hoặc đột biến trong dữ liệu.

  • Phân tích các mối quan hệ giữa các thực thể được đề cập trong các tweet.

  • Xây dựng một mô hình dự đoán để dự đoán xu hướng hoặc tình cảm trong tương lai.

Gợi ý chủ đề:

  • Phân tích tình cảm về một sản phẩm hoặc thương hiệu mới ra mắt.

  • Theo dõi phản ứng của công chúng đối với một sự kiện thời sự.

  • Phân tích xu hướng thảo luận về một chủ đề nóng trên mạng xã hội.

Ngày 60: Làm bài thi thử

Một số tài liệu học trên Cloud Skillboost: