Ich habe einen Algorithmus gebeten, mein Leben zu optimieren. Folgendes ist passiert


Bei einem Grenzwert von fünf würde ich für etwa eine von 20 Entscheidungen, die ich mit meinem Algorithmus treffe, eine zufällige Option auswählen. Ich habe fünf als Grenzwert gewählt, weil es eine vernünftige Frequenz für gelegentliche Zufälligkeiten zu sein schien. Für Macher gibt es weitere Optimierungsprozesse, um zu entscheiden, welcher Cutoff verwendet werden soll, oder sogar den Cutoff-Wert zu ändern, während das Lernen fortgesetzt wird. Am besten ist es oft, einige Werte auszuprobieren und zu sehen, welcher der effektivste ist. Reinforcement-Learning-Algorithmen ergreifen manchmal zufällige Aktionen, weil sie sich auf vergangene Erfahrungen stützen. Immer die prognostizierte beste Option zu wählen, könnte bedeuten, eine bessere Wahl zu verpassen, die noch nie zuvor versucht wurde.

Ich bezweifelte, dass dieser Algorithmus mein Leben wirklich verbessern würde. Aber das Optimierungs-Framework, unterstützt durch mathematische Beweise, begutachtete Artikel und Milliardeneinnahmen aus dem Silicon Valley, machte für mich so viel Sinn. Wie genau würde es in der Praxis auseinanderfallen?

8:30 Uhr

Die erste Entscheidung? Ob ich um 8:30 Uhr aufstehe, wie ich es geplant hatte. Ich schaltete meinen Wecker aus, öffnete den RNG und hielt die Luft an, als er sich drehte und ausspuckte … eine 9!

Nun die große Frage: Hat das lange Ausschlafen oder rechtzeitige Aufstehen bei mir in der Vergangenheit zu besseren Ergebnissen geführt? Meine Intuition schrie, dass ich jede Argumentation überspringen und einfach weiterschlafen sollte, aber der Fairness halber versuchte ich, sie zu ignorieren und meine verschwommenen Erinnerungen an morgendliche Schläfchen zu zählen. Die Freude, im Bett zu bleiben War größer als an einem gemütlichen Wochenendmorgen, entschied ich, solange ich nichts Wichtiges verpasste.

9:00 morgens

Ich hatte morgens ein Gruppenprojekt-Meeting und musste noch etwas maschinelles Lernen lesen, bevor es losging („Bayesian Deep Learning via Subnet Inference“, irgendjemand?), also konnte ich nicht lange schlafen. Der RNG wies mich an, auf der Grundlage früherer Erfahrungen zu entscheiden, ob ich das Treffen ausfallen lassen würde; Ich habe mich für die Teilnahme entschieden. Um zu entscheiden, ob ich lesen sollte, würfelte ich erneut und erhielt eine 5, was bedeutet, dass ich zufällig zwischen dem Lesen und dem Überspringen wählen würde.

Es war eine so kleine Entscheidung, aber ich war überraschend nervös, als ich mich darauf vorbereitete, eine weitere Zufallszahl auf meinem Handy zu würfeln. Wenn ich 50 oder weniger erreichte, übersprang ich das Lesen, um die „Explorations“-Komponente des Entscheidungsfindungsalgorithmus zu würdigen, aber ich wollte das nicht wirklich. Anscheinend macht es nur Spaß, sich dem Lesen zu entziehen, wenn Sie es absichtlich tun.

Ich habe die GENERATE-Taste gedrückt.

65. Ich würde doch lesen.

11:15 Uhr

Ich schrieb eine Liste mit Optionen auf, wie ich die Menge an Freizeit verbringen könnte, die mir jetzt bevorstand. Ich könnte zu einem entfernten Café gehen, das ich ausprobieren wollte, zu Hause anrufen, ein paar Schularbeiten beginnen, mir Promotionsprogramme ansehen, für die ich mich bewerben könnte, in einen irrelevanten Internet-Kaninchenbau gehen oder ein Nickerchen machen. Eine hohe Zahl kam aus dem RNG – ich müsste eine datengesteuerte Entscheidung darüber treffen, was zu tun ist.

Dies war die erste Entscheidung des Tages komplizierter als Ja oder NEIN, und in dem Moment, als ich anfing, darüber nachzudenken, wie „vorzugsweise“ jede Option war, wurde klar, dass ich keine Möglichkeit hatte, eine genaue Schätzung vorzunehmen. Wenn ein KI-Agent, der einem Algorithmus wie meinem folgt, Entscheidungen trifft, haben Informatiker ihm bereits gesagt, was als „bevorzugt“ gilt. Sie übersetzen das, was der Agent erlebt, in eine Belohnungspunktzahl, die die KI dann zu maximieren versucht, wie „überlebte Zeit in einem Videospiel“ oder „an der Börse verdientes Geld“. Belohnungsfunktionen können sein schwierig zu definieren, obwohl. Ein klassisches Beispiel ist ein intelligenter Reinigungsroboter. Wenn Sie den Roboter anweisen, die weggeworfenen Müllstücke einfach zu maximieren, könnte er lernen, den Mülleimer umzuwerfen und denselben Müll wieder wegzuräumen, um seine Punktzahl zu erhöhen.

source-114

Leave a Reply