Bayesian inference για "πραγματική" βαθμολογία και εκτίμηση πιθανοτήτων

Thodoris Kiriakopoulos
Δημοσιεύσεις: 1
Εγγραφή: Κυρ Ιαν 03, 2021 6:08 am

Bayesian inference για "πραγματική" βαθμολογία και εκτίμηση πιθανοτήτων

#1

Μη αναγνωσμένη δημοσίευση από Thodoris Kiriakopoulos » Πέμ Ιουν 10, 2021 5:30 pm

Έχω καταγράψει δεδομένα ότι σε πρωταθλήματα 20 ομάδων: Όταν μια ομάδα που στους άλλους 37 αγώνες είχε (Ν+0.5Ι)/(Ν+Ι+Η) π.χ. από 0.7 εώς 0.8 π.χ. 27/37, αντιμετώπισε εντός έδρας μια ομάδα που είχε π.χ. από 0.2 εώς 0.3 π.χ. 9.5/37, και νίκησε η εντός, πρόσθεσα 1 στο αριστερό (από τα 3 υποκουτάκια) υποκουτάκι του κουτακίου: 0.7-0.8 εντός έδρας (οριζόντια σειρά) vs 0.2-0.3 εκτός έδρας (κάθετη σειρά). Προσθέτοντας 1 για το καθένα από τα αποτελέσματα και άλλων αγώνων, μαζεύτηκαν στο κουτάκι αυτό π.χ. 80 νίκες της εντός (στο αριστερό υποκουτάκι), 40 ισοπαλίες (στο κεντρικό υποκουτάκι), 25 ήττες της εκτός (στο δεξιό υποκουτάκι).
Ν: νίκες, Ι: ισοπαλίες, Η: Ηττες

'Εστω ότι η αρχική βαθμολογία ενός παίχτη π.χ. σκάκι ή μιάς ομάδας π.χ. ποδοσφαίρου είναι (Ν+0.5Ι)/(Ν+Ι+Η). Όμως προφανώς ένας παίχτης ή ομάδα που έχει (1+0.5*0)/(1+0+0)=1 πιθανότατα είναι πολύ πιο αδύναμος από έναν παίχτη ή ομάδα που έχει (100+0.5*0)/(100+0+0)=1.

Ο επόμενος πίνακας είναι από πίνακα του αθροίσματος των δεδομένων 7*4 πρωταθλημάτων της Α΄ Αγγλίας, Α΄ Γαλλίας, Α΄ Ιταλίας, Α΄ Ισπανίας στο ποδόσφαιρο, όπου π.χ. η πρώτη σειρά του επόμενου πίνακα λέει ότι στα πρωταθλήματα αυτά οι ομάδες που έιχαν βαθμολογία από 0.9 εώς 1 στο καθένα από τα πρωταθλήματα αυτά, είχαν 24 νίκες, 1 ισοπαλία και 1 ήττα στα πρωταθλήματα αυτά.

Έστω ότι π.χ. η έκτη σειρά του επόμενου πίνακα λέει ότι οι πιθανότητες στον επόμενο αγώνα για νίκη-ισοπαλία-ήττα μιας ομάδας που συγκέντρωσε βαθμολογία 0.45 σε 37 αγώνες (εναντίον μιας ομάδας με άγνωστη βαθμολογία), είναι 1303/(1303+1078+1674), 1078/(1303+1078+1674), 1674/(1303+1078+1674). Δηλαδή έστω (αναγκαστικώς, καθώς μόνο ο πίνακας 37 αγώνων μου είναι γνωστός) ότι 1303/1078/1674 είναι και η αναλογία νικών/ισοπαλιών/ηττών στον άγνωστο πίνακα όπου την βαθμολογία 0.45 την είχε συγκεντρώσει σε άπειρους αγώνες, δηλαδή π.χ. σε 37*10^10 αγώνες σε παράλληλα σύμπαντα.
Ν-Ι-Η
0.9-1.0: 24 -1 -1
0.8-0.9: 429 -71 -58
0.7-0.8: 594 -232 -154
0.6-0.7: 663 -331 -288
0.5-0.6: 701 -477 -535
0.4-0.5: 1303 -1078 -1674
0.3-0.4: 543 -574 -1192
0.2-0.3: 81 -135 -395
0.1-0.2: 4 -9 -45

Αν το δείγμα είναι μία νίκη σε έναν αγώνα, η «πραγματική» βαθμολογία της είναι
(24+0.5*1)/(24+1+1)(πιθανότητα η νίκη να προήλθε από την σειρά 0.9-1.0)+
(429+0.5*71)/(429+71+58)(πιθανότητα η νίκη να προήλθε από την σειρά 0.8-0.9)+
κ.ο.κ.=
(24+0.5*1)/(24+1+1)24/4342+(429+0.5*71)/(429+71+58)429/4342+
(594+0.5*232)/(594+232+154)594/4342+(663+0.5*331)/(663+331+288)663/4342+
(701+0.5*477)/(701+477+535)701/4342+(1303+0.5*1078)/(1303+1078+1674)1303/4342+
(543+0.5*574)/(543+574+1192)543/4342+(81+0.5*135)/(81+135+395)81/4342+
(4+0.5*9)/(4+9+45)4/4342≈0.5597
όπου 4342=24+429+594+663+701+1303+543+81+4

Παρομοίως, για εκτίμηση πιθανοτήτων για νίκη-ισοπαλία-ήττα:
(πιθανότητα να νικήσει η ομάδα που είχε 1 νίκη στον 1 αγώνα)=
(24/(24+1+1))(πιθανότητα η νίκη να προήλθε από την σειρά 0.9-1.0)+
(429/(429+71+58))(πιθανότητα η νίκη να προήλθε από την σειρά 0.8-0.9)+κ.ο.κ.
Όπου π.χ. η άποψη 1 λέει ότι αυτό ισούται με
(24/(24+1+1))24/4342+
(429/(429+71+58))429/4342+κ.ο.κ.

Μπορείτε να το φανταστείτε με τραπουλόχαρτα που το καθένα από την μία όψη γράφει "νίκη" ή "ισοπαλία" ή "ήττα" και από την άλλη όψη "σειρά 0.9-1.0" ή "σειρά 0.8-0.9" ή κ.ο.κ., δηλαδή π.χ. 1303 τραπουλόχαρτα από την μία όψη γράφουν "νίκη" και από την άλλη όψη γράφουν "σειρά 0.4-0.5".

Πείραμα:
Ν-Ι-Η
σειρά 1: 8 - 8 -8
σειρά 2: 8 -16 -16
η σειρά 1 είναι τράπουλα με κόκκινη ράχη, η σειρά 2 τράπουλα με μπλε ράχη, η νίκη είναι ο άσσος, η ισοπαλία το 2, και η ήττα το 3. Ανακατεύω την τράπουλα, και κοιτάζοντας την αντίθετη όψη τους από την ράχη τους, ο πρώτος άσσος που συναντώ έχει 8/(8+8) πιθανότητα να έχει κόκκινη ράχη και 8/(8+8) πιθανότητα να έχει μπλε ράχη. Και οι 2 πρώτοι άσσοι που θα συναντήσω με ράχη ίδιου χρώματος, τι πιθανότητα έχουν να έχουν κόκκινη ράχη? Πάλι 50%. Προφανώς η άποψη 2 είναι λάθος.
Άρα ποιά "πραγματική" βαθμολογία λέει αυτή η λογική όταν το δείγμα είναι 2 νίκες σε 2 αγώνες όσον αφορά τον πρώτο πίνακα? Πάλι 0.5597. Αν το δείγμα είναι 100 νίκες σε 100 αγώνες? Πάλι 0.5597.
H λύση του παραδόξου έγκειται στο εξής: Αν υποτεθεί ότι η άγνωστη «πραγματική» βαθμολογία είναι η (8+0.5*8)/(8+8+8) ή η (8+0.5*8)/(8+16+16), τότε και 100 νίκες στους 100 αγώνες αν τύχουν (που ανήκουν ή στην μία σειρά ή στην άλλη), τότε έχουμε 50% πιθανότητα η «πραγματική» βαθμολογία να είναι η (8+0.5*8)/(8+8+8) και 50% πιθανότητα η «πραγματική» βαθμολογία να είναι η (8+0.5*8)/(8+16+16). Η ένσταση όμως είναι ότι μια ομάδα με 100 νίκες στους 100 αγώνες δεν μπορεί να έχει τόσο χαμηλή «πραγματική» βαθμολογία, ακόμα και αν 10000 ομάδες του παρελθόντος συγκέντρωσαν βαθμολογία (8+0.5*8)/(8+8+8) ή η (8+0.5*8)/(8+16+16), αφού έχει την δικιά της δύναμη που είναι αρκετά ανεξάρτητη από την δύναμη των ομάδων του παρελθόντος. Από την άλλη όμως η κατανομή των δυνάμεων των ομάδων του παρελθόντος είναι μια ένδειξη για το πόσο πιθανή είναι η κάθε δυνατή δύναμη να είναι η δύναμή της. Έτσι η λύση παραμένει άγνωστη.
Και αν ο πίνακας των 37 αγώνων είναι ίδιος με τον πίνακα 37*10^10 αγώνων σε παράλληλα σύμπαντα, τότε η «πραγματική» βαθμολογία ισούται με την βαθμολογία του δείγματος όταν το δείγμα γίνει μόλις 37 αγώνες (!), αφού η βαθμολογία του δείγματος αντιστοιχεί στην εκτίμηση πιθανοτήτων για νίκη-ισοπαλία-ήττα, την οποία λέει ο πίνακας των 37 αγώνων. Καθώς τι άλλο νόημα έχει η «πραγματική» βαθμολογία εκτός από την εκτίμηση πιθανοτήτων για νίκη-ισοπαλία-ήττα βάσει του πίνακα των 37 αγώνων? Όμως όπως το δείγμα μόνο 37 ρίψεων πιθανότατα είναι ανίκανο να εντοπίσει πόσες κόκκινες και πόσες μαύρες θήκες έχει μια ρουλέττα, έτσι και οι μόνο 37 αγώνες είναι ανίκανοι να εντοπίσουν την «πραγματική ικανότητα» («true skill») μιας ομάδας, επειδή π.χ. ένας παίχτης που παίζει playstation εναντίον της ίδιας ομάδας κομπιούτερ, άλλες φορές θα νικήσει και άλλες θα χάσει και είναι απρόβλεπτο το ποιες θα κερδίσει και ποιες θα χάσει, έτσι μπορεί π.χ. να κερδίσει και τους 37 αγώνες, όμως στους 1000 αγώνες να κερδίσει μόνο τους 800. Άρα αν υποθέσουμε ότι ο πίνακας των 37 αγώνων συμπίπτει με τον πίνακα των 37*10^10 αγώνων σε παράλληλα σύμπαντα, σωστότερη εκτίμηση πιθανοτήτων για νίκη-ισοπαλία-ήττα βάσει του πίνακα των 37 αγώνων θα είχε η βαθμολογία σε 37*10^10 αγώνες.
Η συνήθης θεωρία εκτίμησης πιθανοτήτων αν το δείγμα είναι k=1 νίκη σε n=1 αγώνα λέει ότι έχει (1+k)/(2+n)=(1+1)/(2+1)=2/3 πιθανότητα νίκης στον 2ο αγώνα, που είναι λάθος καθώς θεωρεί ότι δεν υπάρχει καμμία πληροφορία ενώ υπάρχει η πληροφορία του πίνακα των 37 αγώνων.

Αυτά τα έγραψα και ώστε μήπως κάποιος από σας μπορεί να βρει την λύση. Δεν μπορώ να γίνω περισσότερο σαφής χωρίς να γράψω πάρα πολλά.



Λέξεις Κλειδιά:
Απάντηση

Επιστροφή σε “Στατιστική-Πιθανότητες”

Μέλη σε σύνδεση

Μέλη σε αυτήν τη Δ. Συζήτηση: Δεν υπάρχουν εγγεγραμμένα μέλη και 1 επισκέπτης