Perbedaan MLE dan MAP

Maximum Likelihood Estimation (MLE) dan Maximum A Posteriori (MAP), merupakan metode yang digunakan untuk mengestimasi variabel pada sebuah probability distributions. Konsep MLE ini sering muncul ketika memperlajari model yang berbasis distribusi misalnya Gaussian Mixture Model (GMM) atau Naïve Bayes and Logistic regression. kita sering mendengar istilah ini namun kadang-kadang terlewatkan saya tampa mengetahui seberapa pentingnya konsep ini. Sebagai contoh ketika kita ingin menlakukan fitting terhadap dataset yang berdistribusi normal, kita langsung dapat mengestimasi mean dan varian lalu menjadikannya sebagai parameter dari distribusi.

Sebelum lebih jauh, mari kita bahas satu persatu apa itu MLE dan MAP

Maximum Likelihood Estimasion

Sebelum jauh melangkah kedefinisi, secara bahasa MLE berarti Estimasi nilai “Likelihood” Maximal. Berarti kita harus paham dulu apa itu “likelihood”. Sederhananya likelihood adalah kebalikan dari peluang. Perhatikan distribusi normal dari tinggi-tinggi orang dipekanbaru berikut ini, dimana parameter Gausian (θ) adalah rata-rata (μ) sebesar1.8 dan standar deviasi (σ) sebesar 0.08.

Gambar1. Ilustrasi contoh distribusi Gaussian dengan parameter θ

Maka nilai peluang pada distribusi adalah luas area dibawah distribusi tersebut, misal berapakah peluang orang yang memiliki tinggi diantara 1.8 sampai 1.9 maka dapat dituliskan

\begin{align} P(Tinggi>= 1.8 , Tinggi =1.9 \vert \mu=1.8 , \sigma=0.08) ;= 0.3 \\[10pt] \end{align}

Jadi pada pada peluang nilai θ ( μ dan σ ) tetap dan nilai tinggi yang diganti-ganti (yang bersifat variabel).

Berbeda dengan peluang, like likelihood adalah kebalikannya. Misalnya tinggi badan budi adalah 1.85 maka berapakah likelihood dari parameter θ tertentu

\begin{align} P(\mu=1.8 , \sigma=0.08 \vert Tinggi>= 1.85) &= 0.18 \\[10pt] \end{align}

Pada formula diatas yang diubah2 adalah parameter θ. Jadi jika disimpulkan maka

Berdasarkan definisi tadi maka definisi abstrak dari MLE untuk θ adalah

\begin{align} \theta_{MLE}= \mathop{\rm arg\,max}\limits_{\theta} P(X \vert \theta) \\[10pt] = \mathop{\rm arg\,max}\limits_{\theta} \prod_i P(x_i \vert \theta) \end{align}

Formula diatas memiliki sedikit masalah karena jika kita mengalikan beberapa bilangan dengan nilai lebih diantata 1-0 maka akang menghasilkan nilai yang sangat kecil . Muncul permasalahan komputasi (Underflow). Oleh karena itu dilakukan operasi log, sehingga sebagian orang menyebutnya Maximum Log-Likelihood Estimation

\begin{align} \theta_{MLE} = \mathop{\rm arg\,max}\limits_{\theta} \log P(X \vert \theta) \\[10pt] = \mathop{\rm arg\,max}\limits_{\theta} \log \prod_i P(x_i \vert \theta) \\[10pt] = \mathop{\rm arg\,max}\limits_{\theta} \sum_i \log P(x_i \vert \theta) \end{align}

Pada formula ini, kita perlu menurunkan funsgi log likelihood kemudian memaksimalkannya dengan membuat turunannya bernilai 0 terhadap θ. Secara komputasi ini dapat dailakukan menggunakan beberapa algoritma seperti Gradiend Descent

Maximum A Posteriori

Sesuai namanya, biasanya MAP digunakan pada bayesian statistik, dan ia bekerja pada posterior distribusion bukan likelihood. Dengan menggunakankan formula bayes maka posterior probabiliti adalah

\begin{align} P(\theta \vert X) &= \frac{P(X \vert \theta) P(\theta)}{P(X)} \\[10pt] &\propto P(X \vert \theta) P(\theta) \end{align}

Maka formula MAP adalah

\begin{align} \theta_{MAP} &= \mathop{\rm arg\,max}\limits_{\theta} log(P(X \vert \theta) P(\theta)) \\[10pt] &= \mathop{\rm arg\,max}\limits_{\theta} \log P(X \vert \theta) + \log P(\theta) \\[10pt] &= \mathop{\rm arg\,max}\limits_{\theta} \log \prod_i P(x_i \vert \theta) + \log P(\theta) \\[10pt] &= \mathop{\rm arg\,max}\limits_{\theta} \sum_i \log P(x_i \vert \theta) + \log P(\theta) \end{align}

Jika diperhatikan maka formula MAP dan MLE cukup mirip, perbedaaanya adalah penambahan P(θ) in MAP.

Write a Comment

Your email address will not be published. Required fields are marked *

4 + 18 =