torsdag 6 mars 2014

EXPERTERS FÖRMÅGA ATT FÖRUTSE

I det moderna kunskapsbaserade samhället förlitar vi oss allt mer på att experter ska kunna förutse allt från ekonomiska kriser, kurserna på aktiemarknaden, olika studenters möjligheter att nå framgång på universitetet till riskerna att personer blir långtidssjukskrivna eller långtidsarbetslösa. Daniel Kahneman, pristagare i ekonomi till Nobels minne, har i sin hyllade bok ”Tänka, snabbt och långsamt” flera kapitel som sammanställer forskningsresultat där olika experters prediktionsförmågor har utvärderats. Kahneman ger åtskilliga ofta närmaste parodiska exempel på hur experter har en övertro på sin förmåga. Han visar också att enkla statistiska algoritmer i allmänhet gör bättre förutsägelser än experter.

  • Nyfödda räddas med enkel formel: Kahneman berättar den sanna anekdoten om barnläkaren Apgar. Länge använde förlossningsläkarna sitt kliniska omdöme för att avgöra om nyfödda befann sig i ett kritiskt tillstånd, men tyvärr dog alldeles för många. Men man uppmärksammade att läkaren Apgar konsekvent klarade säkra bedömningar. När man frågade henne svarade hon: Det är enkelt, så skrev hon ned en formel med fem variabler som kunde anta 3 värden, som hjärtfrekvens, andning, reflexer, osv. Om totalvärdet gick under en viss nivå var det bråttom. Apgartestet spred sig snabbt och anses ha bidragit väsentligt till den snabbt sjunkande dödligheten bland nyfödda. Många fler intressanta exempel ges i den inflytelserika boken ”The Checklist Manifesto
  • Oförmågan välja befälsämnen: Kahneman och en kollega hade som unga uppgiften att observera grupper av värnpliktiga som tillsammans skulle lösa olika uppgifter. De noterade vilka ynglingar som visade ledaregenskaper och effektivt bidrog till att problemen löstes. De olika deltagarnas egenskaper som envishet, tålmodighet, uthållighet m.fl. antecknades. På grund av poängsättningen ansåg sig observatörerna med stor visshet kunna rekommendera vilka personer som skulle få framgång i befälsutbildningen. Men efter det att feedback kom från befälsskolan visade det sig att Kahnemans och kollegans förmåga att förutspå resultaten var i princip obefintlig.
  • Misslyckad aktiv aktieplacering: I dag påminns vi ofta om att aktiv finansförvaltning i de flesta fall ger lägre avkastning än indexplaceringar. Finansprofessorn Terry Odean fick 1990-talet möjlighet att studera transaktionerna på 10 000 enskilda investerares mäklarkonton under en sjuårsperiod. Han jämförde avkastningen på de tillgångar som såldes med de som köptes. Resultaten var ytterst nedslående: de sålda aktierna ökade i värde med 3,2 procentenheter mer per år än de som köptes. Ett stort antal studier har med olika metoder kunnat bekräfta resultaten.
  • Turen avgör bonus: Kahneman och forskarvännen Amos Tversky fick erbjudandet från ett investeringsföretag att undersöka vilka av 25 investeringsrådgivare som var bäst under åtta år. Forskarna beräknade helt enkelt korrelationen mellan åren parvis, ett för varje år. Siffran var lägre än någon väntat sig, 0,1. Det motsvarar vad man ska vänta sig med tärningsspel. När forskarna redovisa resultaten för cheferna och placerarna, att ingen hade bättre placeringsförmåga och att det var turen som avgjorde vem som fick bonus ett visst år, ryckte de på axlarna. De litar mer till sin egen förmåga än dubiösa statistiska analyser.
  • Vinexperter missar goda viner: Princetonekonomen Orley Ashenfelter samlade länge på bordeauxviner på basis av råden från världsberömda experter. Men råden visade sig alltför ofta missa både goda och dåliga årgångar. Så Ashenfelter beställde många års statistik från Bordeauxregionen över sommarens genomsnittstemperatur, mängden nederbörd vid skördetiden och den sammanlagda nederbörden under den föregående vintern och analyserade dessa variabler i förhållande till bl.a. priserna på vinauktioner. Ashenfelter är numera hatad av vinexperter från alla världens hörn, för prognosmodellen har en fantastisk precision.
  • Systematiska tester avslöjar oförmågan: Psykologen Philip Tetlock intervjuade 284 experter som försörjde sig på råd om politiska och ekonomiska trender. Han bad dem skatta sannolikheten för att vissa händelser skulle inträffa i en inte alltför avlägsen framtid, som om Gorbatjov skulle avsättas, om USA skulle starta krig i Persiska viken, vilka länder som blir framtida tillväxtmarknader osv. Han samlade in 80 000 förutsägelser. Resultaten var förödande, experterna presterade sämre än vad som skulle väntas av pilkastande apor, dvs. sämre än slumpen. Inte nog med det, de som visste mest var mindre pålitliga. De hade en överdriven tilltro till sin egen förmåga. Experterna erkänner emellertid aldrig sina fel, utan pekar t.ex. på att oförutsedda händelser medförde annat utfall. Tetlocks forskning under 20 år skakade världen när hans bok kom 2005 ”Expert Political Judgement: How good is it? How can we know?  En underhållande genomgång av experters notoriskt misslyckade prediktioner för 2013 finns i den amerikanska tidskriften POLITICO.
  • Experter sämre än algoritmer: Paul Meehl lade fram den första systematiska översikten redan 1954 av 20 studier som jämför experters prognoser med enkla statistiska prognoser som baseras på några få variabler. I sin för många besvärande bok ”Clinical vs Statistical Prediction” visade Meehl att experters subjektiva intryck gav sämre prediktioner än enkla algoritmer i de flesta experiment. Utbildade studievägledare fick efter 45 minuters intervju förutse förstaårsstudenter betyg efter ett år. De hade också tillgång till gymnasiebetyg, lämplighetstest och ett fyrasidigt brev med personlig information. Den statistiska algoritmen använde bara resultaten från gymnasiebetygen och lämplighetstesten. Algoritmen klarade prediktionen bättre än 11 av de 14 studievägledarna. Meehl rapporterade liknande resultat för experters prognoser av misskötsel vid villkorlig frigivning, pilotelevers framsteg, brottslingars återfall m.fl.
Sedan 1950-talet har mer än 200 studier presenterats med mängder av jämförelser mellan experter och algoritmer. De statistiska metoderna vinner enligt Kahneman i de flesta fallen, ofta överlägset, och de är mycket billigare. Resultaten gäller så skilda prediktioner som cancerpatienters överlevnad, sjukhusvistelsen längd, diagnoser på hjärtsjukdomar, framgång för nya företag, bedömning av kreditrisker, anställdas tillfredsställelse med sitt yrkesval, fosterföräldrars lämplighet, återfallsrisken för ungdomsbrottsligar, vinnare i fotbollstävlingar osv.
Vi vet inte exakt varför experter så ofta misslyckas. En förklaring som Kahneman pekar på är att experter ofta förlitar sig på den notoriskt opålitliga och lata intuitiva förmågan och inte använder den rationella men energikrävande analysförmågan. En vanlig förklaring är att experter försöker tänka annorlunda och väga in komplexa kombinationer av faktorer. Dessutom tycks det ofta bero på hybris, det har i flera studier visats att experter gör sämre prognoser än en algoritm även när de har fått veta värdet från den statistiska prediktionen. De anser sig kunna bättre. Forskningen i dag ger enligt Kahneman en viktig slutsats: för att maximera prediktioner bör förutsägelser överlåtas till algoritmer, särskilt på områden med låg validitet. Det gäller särskilt när man ska göra urval av vissa personer som ska få utbildning, medicinsk behandling, myndigheternas stöd osv.  Algoritmer störs inte av emotioner. Expertbedömningar misslyckas ofta genom att bedömarens känslor påverkas av faktorer hos individerna som inte har någon betydelse för möjligheter eller risker.
Tyvärr finns enligt Kahneman djupa fördomar och utbred okunskap om experters oförmåga resp. algoritmers styrka. Psykologer, läkare, jurister, ekonomer och många andra yrkesgrupper har helt avvisat forskningsresultaten. Debatten har ofta haft högt tonläge och många har invändningar. Erfarna experter blir upprörda över att deras förmågor ifrågasätts och att ”datorer skulle kunna ta över arbetet”. Tanken på att en blind och mekanisk formel skulle kunna göra prediktioner bättre än experter med årtionden av erfarenhet anses helt enkelt omoralisk och oetisk.
Ian Ayres ger i sin bok ”Super Cruncher” flera andra spännande exempel på vad algoritmer kan bidra med. Ett handlar om juridikprofessorn Ted Ruger från Princeton som blev mycket provocerad när han deltog i ett seminarium om en statistikmodell. Den sades kunna förutse hur domarna i den högsta domstolen i USA skulle rösta med bara några få variabler. Modellen byggde på 628 tidigare beslut av dessa domare. Det går ju an att lista ut samband i historiska data, ansåg Ruger. Han gick därför fram till författarna och utmanade dem på en tävling att jämföra de två metoderna, expertprediktioner och modellprediktioner. Under ett år framåt i tiden skulle 84 professorer och experter i juridik resp. HD:s beslut tävla med algoritmen om att i förväg bedöma domarnas röster. Experterna förlorade, algoritmen hade rätt i 75 % av omröstningarna, experterna bara i 59 %.
Ayres visar också i sin bok att algoritmerna sprider sig med rasande fart inom marknadsekonomin: Google, Amazon, Visa, kreditbedömare, marknadsföretag osv. använder sina jättelika databaser om våra beteenden för att effektivisera bedömningar, rekommendationer och beslut. I USA har algoritmer börjat användas också inom den offentliga sektorn, inte minst inom hälso- och sjukvården. Ayres berättar också att under de senaste 25 åren använder allt fler delstater i USA algoritmer för att bedöma riskerna vid villkorlig frigivning. De används antingen som bedömningsstöd eller beslutsstöd. Forskningen har visat att modellerna är nästan lika effektiva att identifiera risker som de kreditmodeller som banker och finansföretag använder för att bedöma risken att lånen inte betalas.
I Sverige går det jämförelsevis långsamt, få myndigheter och offentliga institutioner har tagit steget till att använda algoritmer som bedömnings- eller beslutsstöd. Arbetsförmedlingen använder sedan några år statistiska modeller för att prognostisera sannolikheten för att en inskriven blir långtidsarbetslös. Modellen har förhållandevis god prediktionsförmåga och används idag som ett beslutsunderlag bland andra när arbetsförmedare bedömer behovet av insatser för den arbetssökanden. Även på Försäkringskassan har statistiska modeller tidigare använts i handläggningen för bedömning av sannolikheten att blir friskskriven efter 180 dagar. SBU har i sin systematiska litteraturöversikt visat att strukturerade riskbedömningar inom psykiatrin kan, bättre än slumpen, förutsäga manliga patienters framtida benägenhet att begå våldshandlingar i samhället. BERIT är ett statistikbaserat beslutsstöd som utvecklats inom kriminalvården för att göra riskbedömningar inför beslut om placering, permission, villkorlig frigivning osv. Det finns såvitt känt inga utvärderingar i Sverige som jämför experters och algoritmers prediktionsförmåga i offentlig verksamhet. Utvärderingar av Arbetsförmedlingens bedömningsstöd visar att verktyget möts av skepsis och att arbetsförmedlarna är ambivalenta till det.