Thông báo chung

THÔNG BÁO
Khóa học chủ đề “Data Science and Machine Learning”
(Khoa học dữ liệu và Mô hình học bằng máy)

Chúng tôi hân hạnh thông báo một khóa học với chủ đề "Khoa học dữ liệu và Mô hình học bằng máy" do Trường đại học Tôn Đức Thắng tổ chức vào tháng 01 năm 2017. Chi tiết về Khóa học như sau:

1. Bối cảnh

Trong vài năm gần đây có hai "trào lưu" khoa học rất thịnh hành trên trường quốc tế: Dữ liệu Lớn và Machine Learning (còn có thể gọi là Statistical Learning). Cả hai trào lưu là giao thoa giữa khoa học thống kê và khoa học máy tính, nhưng xuất phát từ nhu cầu thực tế trong khoa học thực nghiệm như di truyền học, sinh học, và doanh nghiệp. Các nghiên cứu di truyền học và những thông tin từ các doanh nghiệp viễn thông tạo ra những dữ liệu lớn. Machine Learning là tập hợp một số phương pháp thống kê học nhằm khám phá những xu hướng và đặc điểm của các dữ liệu lớn. Tuy nhiên, những phương pháp và mô hình này hiện nay chưa được tiếp cận một cách có hệ thống ở Việt Nam. Trong thực tế, nhiều người trong giới khoa học vẫn còn xa lạ với những phương pháp hiện đại của Machine Learning.

2. Mục tiêu

Mục tiêu chung của khoá học là giới thiệu các khái niệm cơ bản về Khoa học Dữ liệu và Mô hình học bằng máy. Học viên sẽ làm quen với một số phương pháp và kĩ thuật cơ bản, thuật toán phổ biến và ứng dụng trong thực tế. Chúng tôi sẽ nhấn mạnh đến việc ứng dụng các phương pháp mô hình hoá dữ liệu trong việc phân tích các dữ liệu lớn qua một số ca nghiên cứu cụ thể của chúng tôi và các đồng nghiệp khác. Chúng tôi kì vọng học viên sau khi học xong lớp học sẽ:

  • Sử dụng thành thạo R cho các mô hình hồi qui tuyến tính;
  • Sử dụng R để xử lí các dữ liệu lớn;
  • Hiểu và có thể áp dụng các phương pháp chọn mô hình;
  • Hiểu và xây dựng mô hình tiên lượng với các phương pháp hiện đại;
  • Có thể giảng dạy cho các đồng nghiệp chưa am hiểu về thống kê học và Machine Learning.
3. Đối tượng

Lớp học được thiết kế dành cho các giảng viên, nhà khoa học, và nghiên cứu sinh có nhu cầu phân tích dữ liệu, đặc biệt là dữ liệu lớn. Các nhà khoa học đang đối phó với dữ liệu lớn và mô hình tiên lượng sẽ thấy khoá học rất thiết thực. Học viên cần có kiến thức cơ bản về thống kê học và đã làm quen với ngôn ngữ R (tuy không phải là điều kiện quan trọng).

4. Địa điểm

Trường đại học Tôn Đức Thắng, Số 19, Đường Nguyễn Hữu Thọ, Phường Tân Phong, Quận 7, TP. Hồ Chí Minh.

5. Giảng viên

Giảng viên phụ trách lớp học bao gồm các nhà khoa học thực nghiệm có kinh nghiệm trong phân tích dữ liệu lớn và machine learning:

  • GS. Nguyễn Văn Tuấn;
  • TS. Trần Sơn Thạch;
  • BS. Hà Tấn Đức;
  • Nguyễn Chí Dũng;
  • PGS. Nguyễn Thời Trung;
  • và các giảng viên của Trường đại học Tôn Đức Thắng.

GS. Nguyễn Văn Tuấn có kinh nghiệm lâu năm trong việc phát triển mô hình tiên lượng, và chính là tác giả của Mô hình đánh giá nguy cơ gãy xương Garvan. Ông còn giúp nghiên cứu sinh trong nước phát triển mô hình tiên lượng tử vong ở khoa cấp cứu trong bệnh viện. Hiện tại, ông là Giáo sư y khoa tiên lượng (Predictive Medicine) của Đại học Công nghệ Sydney (UTS), Giáo sư Dịch tễ học và Thống kê học của Đại học Notre Dame, Australia, và Giáo sư Y khoa của Đại học New South Wales, Australia. Đồng thời, GS. Nguyễn Văn Tuấn là Cố vấn cao cấp về khoa học và là Trưởng Nhóm nghiên cứu Xương và Cơ của Trường đại học Tôn Đức Thắng.

6. Thời gian

Khóa học sẽ kéo dài 10 ngày từ 03/01/2017 đến 12/01/2017 bao gồm 2 cấp:  

  • Cấp 1 (5 ngày): từ ngày 03/01/2017 đến 07/01/2017.
  • Cấp 2 (5 ngày): từ ngày 08/01/2017 đến 12/01/2017.

Vì là khóa học ngắn ngày, nên chúng tôi không phân biệt ngày thường và ngày cuối tuần.

7. Chương trình

Chương trình bao gồm khoảng 35 bài giảng chia làm 2 cấp: Cấp 1 (5 ngày) và cấp 2 (5 ngày tiếp theo)

Thời gian

Nội dung

03/01/2017

Chủ đề: Tổng quan về ngôn ngữ R (Overview of R language)

  • Bài 1: Giới thiệu về R (Introduction to R language)
  • Bài 2: Cú pháp, input và output (R input/output)
  • Bài 3: Phân tích mô tả dùng R (Descriptive analyses using R)
  • Bài 4: Cách xử lý tập hợp dữ liệu lớn (How to handle large datasets)

04/01/2017

Chủ đề: Phân tích mô tả (Descriptive analyses)

  • Bài 5: Phân tích biểu đồ dùng R: Biểu đồ cơ bản (Graphical analyses using R: Basic graphs)
  • Bài 6: Phân tích biểu đồ dùng R: Biểu đồ nâng cao (Graphical analyses using R: Advanced graphs)
  • Bài 7: Ôn tập phân tích hồi qui tuyến tính (Review of linear regression analysis)
  • Bài 8: Phân tích dao động dư và hoán chuyển dữ liệu (Residual analysis and data transformation)

05/01/2017

Chủ đề: Mô hình hồi qui tuyến tính (Linear regression models)

  • Bài 9: Hồi qui tuyến tính đa biến 1: biến số phân loại (Multiple linear regression 1: categorical variables)
  • Bài 10: Hồi qui tuyến tính đa biến 2: tương tác (Multiple linear regression 1: interaction)
  • Bài 11: Tiên lượng qua mô hình hồi qui đa biến (Prediction in multiple linear regression)
  • Bài 12: Hồi qui đa thức (Polynomial regression)

06/01/2017

Chủ đề: Mô hình hồi qui logistic (Logistic regression models)

  • Bài 13: Giới thiệu về mô hình hồi qui logistic (Introduction to logistic regression)
  • Bài 14: Mô hình hồi qui logistic đa biến (Multiple logistic regression model)
  • Bài 15: Tiên lượng trong mô hình hồi qui logistic và “điểm số nguy hiểm” (Prediction in logistic regression model and "risk score")

07/01/2017

Chủ đề: Phân tích sống còn và mô hình tỉ lệ cùng nguy cơ (Survival analysis and proportional hazards models)

  • Bài 16: Giới thiệu về phân tích sống còn (Introduction to survival analysis)
  • Bài 17: Giới thiệu về mô hình hồi qui Cox (Introduction to Cox's proportional hazards model)
  • Bài 18: Giới thiệu thêm về mô hình Cox: các phương pháp phụ thuộc vào thời gian (More on Cox's model: time-variant methods )

08/01/2017

Chủ đề: Mô hình thống kê đa biến (Multivariate statistics)

  • Bài 19: Mô hình phân định tuyến tính (Linear discriminant model)
  • Bài 20: Mô hình thành tố (Principal component model)
  • Bài 21: Phân tích cụm 1: Giới thiệu khái niệm  (Cluster analysis 1 – Introduction to concepts)
  • Bài 22: Phân tích cụm 2: Mô hình và kỹ thuật (Cluster analysis 2 – Models and techniques)

09/01/2017

Chủ đề: Các phương pháp chọn lựa mô hình (Model selection methods)

  • Bài 22: Giới thiệu về khái niệm và các kỹ thuật được thành lập (Introduction to the concept and established techniques)
  • Bài 23: Lựa chọn mô hình dùng các phương pháp dựa trên AIC (AIC based methods for model selection)
  • Bài 24: Phương pháp mô hình trung bình Bayesian (Bayesian Average Model method)

10/01/2017

Chủ đề: Các phương pháp chọn lựa mô hình mới (New methods for model selection)

  • Bài 25: Mô hình dựa trên rừng ngẫu nhiên (Random Forest based methods)
  • Bài 26: Phương pháp LASSO (LASSO method)
  • Bài 27: Các phương pháp tái lấy mẫu (Resampling method)
  • Bài 28: Xử lý số liệu không xác định (Treatment of missing values)

11/01/2017

Chủ đề: Xây dựng mô hình (Model building)

  • Bài 29: Đánh giá sự phân loại (Evaluation of discrimination)
  • Bài 30: Đánh giá sự hiệu chỉnh (Evaluation of calibration)
  • Bài 31: Phân tích tái phân loại (Reclassification method)

12/01/2017

Chủ đề: Các trường hợp nghiên cứu (Case studies)

  • Trường hợp 1: Lựa chọn các yếu tố phụ thuộc vào gene đối với bệnh loãng xương (Evaluation of discrimination)
  • Trường hợp 2: Phát hiện các giao dịch gian lận (Detection of fraudulent transactions)
  • Trường hợp 3: Dự đoán sự trở lại của thị trường cổ phiếu (Prediction of stock market returns)
  • Trường hợp 4: Dự đoán sự phát triển bùng nổ của tảo (Predicting algae blooms)
 
8. Đăng kí và liên lạc
  • Học viên sẽ đăng kí từ ngày ra thông báo đến hết ngày 23/12/2016.
  • Lệ phí khóa học: 4 triệu đồng/học viên (bao gồm sách, tài liệu giảng dạy, và teabreak trong suốt 10 ngày học). Đối với học viên ghi danh lớp cơ bản (5 ngày đầu), chi phí là 2 triệu đồng/học viên. Nghiên cứu sinh sẽ được giảm 50% học phí.
  • Mọi thông tin vui lòng liên hệ: Phòng quản lý phát triển khoa học và công nghệ (ThS. Nguyễn Hoàng Nam), Phòng A303, số 19, Đường Nguyễn Hữu Thọ, P. Tân Phong, Q.7, TP. HCM.
  • Điện thoại: (08) 37755 037. Email: This email address is being protected from spambots. You need JavaScript enabled to view it.