Để dạy học thì trước hết là phải biết cách học

Tuesday, October 22, 2019

Biến ngẫu nhiên

Bài viết của TS Nguyễn Việt Cường

Có bạn có hỏi mình rằng ngẫu nhiên hóa trong phương pháp kiểm soát ngẫu nhiên (randomized control trial, gọi tắt là RCT) mà các nhà Kinh tế đạt giải Nobel năm nay sử dụng này có liên quan tới khái niệm biến ngẫu nhiên mà chúng ta hay sử dụng hay không. Mình xin giải thích qua như sau.

Biến ngẫu nhiên
Biến ngẫu nhiên là một biến mà giá trị của nó có được liên quan đến một quá trình ngẫu nhiên nào đó. Chẳng hạn ngẫu nhiên chọn một người Việt Nam và đo thu nhập của họ, thì thu nhập của một cá nhân đó là một biến ngẫu nhiên vì họ được chọn ngẫu nhiên (chọn ngẫu nhiên là chọn mà các cá nhân có xác suất được chọn đều bằng nhau(. Biến ‘có bằng đại học’ của một cá nhân rút ra ngẫu nhiên từ tổng thể cũng là một biến ngẫu nhiên. Hoặc thay vì thu nhập của một người, chúng ta có thể rút 100 người ngẫu nhiên và tính thu nhập trung bình của 100 người này. Giá trị trung bình này cũng là một biến ngẫu nhiên. Chúng ta không thể biết được trước giá trị của biến ngẫu nhiên trước phép thử, nhưng thông thường chúng ta có thể biết được phân phối xác suất của nó, tức là xác suất biến này nhận giá trị trong các khoảng là bao nhiêu (thông qua thực nghiệm và lý thuyết).
Bây giờ giả sử chúng ta muốn ước lượng tác động của việc đi học đại học lên thu nhập. Chúng ta phải ngẫu nhiên chọn một mẫu, chẳng hạn 1000 cá nhân trên 22 tuổi, và tiến hành đo thu nhập và xem đã tốt nghiệp đại học chưa. Hai biến này đều gọi là ngẫu nhiên vì nó được rút ngẫu nhiên từ tổng thể. Tại sao chúng ta phải rút ngẫu nhiên vì đó là cách để ước lượng từ mẫu 1000 quan sát này là ước lượng không chệch của tổng thể. Chúng ta quan tâm đến quan hệ giữa hai biến này trong tổng thể chứ không phải một mẫu cụ thể.

Định nghĩa tác động
Theo khái niệm đánh giá tác động của một yếu tố, chẳng hạn tác động của việc học đại học (ký hiệu là D, bằng 1 nếu học ĐH và 0 nếu không học ĐH) lên thu nhập (ký hiệu là Y), thì mỗi cá nhân có hai trạng thái về thu nhập. Trạng thái thứ nhất là thu nhập nếu như người này học ĐH (ký hiệu là Y1), và trạng thái thứ hai là thu nhập nếu như người này không học ĐH (Y0). Theo định nghĩa, tác động bình quân của việc học ĐH lên thu nhập của những người đã học ĐH là:
Tác động = E(Y1|D=1) - E(Y0|D=1),
Trong đó E ký hiệu là kỳ vọng toán hay giá trị trung bình. Như vậy tác động đo bằng chênh lệch giữa thu nhập khi có bằng ĐH của người đã có bằng ĐH (D=1) và thu nhập khi KHÔNG có bằng ĐH của người đã có bằng ĐH.
Trở ngại chính trong đánh giá tác động
Vấn đề là với mỗi cá nhân tại một thời điểm chúng ta chỉ quan sát được một trạng thái. Chẳng hạn mình đã tốt nghiệp ĐH và mình biết hiện nay thu nhập của mình ra sao. Tuy nhiên mình không thể nào biết được thu nhập của mình hiện nay nếu như mình không đi học ĐH, vì mình đã trót học ĐH rồi. Mình không thể quay lại quá khứ và chọn không đi học ĐH. Nếu không học ĐH có thể mình sẽ làm công việc giản đơn với thu nhập thấp hơn hiện nay, nhưng cũng có thể mình mở cửa hàng kinh doanh và thu nhập nhiều gấp bội so với bây giờ.
Chúng ta không thể quan sát được E(Y0|D=1) – thu nhập của những người có bằng ĐH nếu như họ không có bằng ĐH. Đây gọi là counterfactual, tạm dịch là phản thực tế, tức là thực tế không xảy ra. Cái chúng ta quan sát được là E(Y0|D=0), là thu nhập khi không có bằng ĐH của những người không học ĐH. Chúng ta có thể thử đo lường tác động bằng ước lượng sau:
Ước lượng = E(Y1|D=1) - E(Y0|D=0),
Tức là so sánh thu nhập của những người học ĐH và những người không học ĐH. Bằng cách đo như vậy chúng ta giả định rằng E(Y0|D=1) = E(Y0|D=0), tức là nếu không đi học ĐH thì những người đang có bằng ĐH sẽ kiếm được thu nhập giống như những người không có bằng ĐH. Đây là giả định rất mạnh vì những người học ĐH thường họ có điều kiện tốt hơn hoặc chăm chỉ hơn (vì phải đạt điểm thi cao hơn). Dù những người này không đi học ĐH thì có lẽ họ vẫn kiếm được nhiều tiền hơn những người hiện nay không học ĐH.

Phương pháp ngẫu nhiên hóa
Có một cách để thỏa mãn E(Y0|D=1) = E(Y0|D=0) là ngẫu nhiên hóa biến D. Thay vì để cho các cá nhân tự lựa chọn việc có đi học ĐH hay không, chúng ta ngẫu nhiên chọn một nhóm người và yêu cầu họ đi học ĐH. Có thể trong những người thi trượt, chúng ta chọn một nhóm ngẫu nhiên và cho họ đi học ĐH. Nhóm này trong đánh giá tác động gọi là nhóm can thiệp. Nhóm còn lại gọi là nhóm đối chứng. Việc ngẫu nhiên ấn định giá trị của biến D cho một số người làm cho biến D độc lập với biến Y0. Phân phối của biến Y0 hoàn toàn không phụ thuộc vào D, và hệ quả là:
E(Y0) = E(Y0|D) = E(Y0|D=1) = E(Y0|D=0).
Giả định E(Y0|D=1) = E(Y0|D=0) đã được thỏa mãn. Chỉ khi việc học ĐH được ngẫu nhiên cung cấp cho một số người thì chúng ta mới có thể đo được tác động của việc học ĐH bằng cách so sánh thu nhập giữa nhóm học ĐH và nhóm không học ĐH.
Như vậy ngẫu nhiên hóa trong RCT là ngẫu nhiên chọn một đối tượng và cung cấp cho họ một chương trình hay can thiệp nào đó. Còn biến ngẫu nhiên mà chúng ta hay phân tích là biến đã có giá trị rồi và chúng ta chỉ chọn ngẫu nhiên từ tổng để quan sát.

Phần mềm sinh test chấm Themis bằng Python

  Cấu trúc file bài làm Bài làm như bài thường làm chỉ thay tên file input bằng biến fi và thay tên file output bằng biến fo Tên file bài là...