Datorer är snart intelligentare än människor, sägs det. Visst, de kan finna mönster i väldiga datamängder. Men hajpen kring big data är överdriven.

Uttrycket big data (på svenska ibland digerdata) syftar på de enorma mängder data som lämnas av spåren från våra samlade aktiviteter på internet, mobiltelefoner och liknande. Det råder inga tvivel om att analyser av dessa spår och sambanden mellan dem innebär stora möjligheter. Och det gäller inte bara för marknadsföring och övervakning av människor. Det gäller också för forskning, till exempel tester av mediciner. Men i en artikel i tidskriften Wired från 2008 gick man betydligt längre: "Med tillräckligt mycket data, kommer siffrorna att tala för sig själva" ("The end of theory"). Det vill säga, algoritmer som analyserar och finner korrelationer i big data kommer att göra teorier, hypoteser om orsakssamband och statistiska metoder onödiga.

Ett par år senare påstod ingenjörer från Google att de, utan att använda några som helst medicinska teorier och samband, hade lyckats spåra utbrottet av influensa i USA och kunnat följa epidemins fortsatta utbredning med en fördröjning på bara någon dag. Det var betydligt snabbare än den dryga vecka det tog för landets medicinska övervakningsmyndighet, CDC, att göra samma sak. CDCs undersökning grundade sig på rapporter från läkarmottagningar, medan Googles baserade sig på korrelationer mellan människors sökningar på nätet och deras eventuella influensasymtom. Efter tre års lyckade influensaspårningar sprack ballongen. När data från CDC började komma in visade sig det årets influensaepidemi vara ungefär häften så stor som vad Google hade förutspått. En tänkbar felkälla skulle kunna vara att friska individer som inte blev sjuka hade sökt på det stora antalet artiklar om influensa som publicerades strax innan jul. Eftersom Googles ingenjörer inte sökte efter orsakssamband, utan bara efter korrelationer, missade de sådana felkällor.

Det är bara undantagsvis som man med hjälp av big data eller någon annan metod kan omfatta alla data som är av betydelse för en frågeställning. Därför försvinner inte heller urvalsproblemet och andra statistiska felkällor. Ett klassiskt exempel på att storleken inte är allt, är försöken att förutspå resultatet av presidentvalet i USA 1936. Tidskriften Literary Digest spådde att republikanen Afred Landon skulle vinna stort på basis av ett frågeformulär som skickats till tio miljoner människor. Resultatet blev en brakseger för den sittande presidenten Roosevelt med 61 procent mot 37. Problemet var att Literary Digest baserade sitt utskick på adresslistor från bilregister och telefonbolag, vilket på den tiden innebar den mest välbärgade delen av befolkningen. George Gallup, vars undersökning bara grundade sig på tre tusen personer, men som hade vinnlagt sig om att göra urvalet så neutralt som möjligt, lyckades däremot spå både rätt vinnare och en någorlunda riktig fördelning av rösterna. En modern parallell är den mobilapp som registrerar potthål i gatan när man kör över dem och som myndigheterna i Boston distribuerade för att på ett enkelt sätt kartlägga underhållsbehovet. Appen missade hålen i fattigare stadsdelar, där mobiler inte är lika vanliga.

Vid tillämpningar där de datamängder man utgår ifrån är mer enhetliga, minskar betydelsen av dessa problem. Google Translate - och andra översättningsprogram - söker efter korrelationer och mönster i miljontals tidigare översättningar som finns dokumenterade och kopierar dem. Resultatet är inte ofelbart, men måste ändå beskrivas som en stor framgång. Och förbättrade versioner av Google Flu Trends och liknande applikationer kommer säkert att få stor betydelse i framtiden. Antagligen öppnar sig ännu större möjligheter om man kombinerar datoriserade expertsystem, som bygger på den samlade vetenskapliga kunskap vi i dag har på olika områden, med analyser av big data. Särskilt om detta också innefattar olika slags inlärningsfunktioner.

Hajpen kring big data är således ingen bluff. Den är bara överdriven, inte minst av storföretag som tror sig kunna tjäna pengar på den. Kören av tekniknördar och penningstarka aktörer med dolda agendor som framställer big data som ett undermedel, bör man därför lyssna till med viss skepsis. Oavsett hur stora datamängderna blir och oavsett hur snabbt datorerna kan räkna, kommer de inte att kunna ersätta forskning, teorier, orsakssamband och kritisk analys av evidens och data. Och vetenskaplig utvärdering förutsätter öppenhet. Därför är det ett problem att stordelen av big data i dag kontrolleras av privata jätteföretag. Google, Facebook, Twitter och andra lär inte godvilligt öppna sina databaser för forskare och allmänhet.

9705_01.jpgBild: Robert Nyberg.

Frågan om big data kan ersätta teorier kan vidgas: kan datorer kan tänka? Vi vet ju att datorer redan i dag är överlägsna människan när det gäller komplicerade spel som schack och jeopardy. Innebär det också att datorer kan tänka? Ett sätt att undgå den besvärliga följdfrågan vad man menar med att tänka är att stipulera en bestämd definition och utgå från den. Den brittiske matematikern och logikern Alan Turing (1912-54) beskrev ett tankeexperiment, Turingtestet, som utgick från en sådan definition. I hans så kallade härmspel fick testpersoner kommunicera skriftligt med en dator och en levande människa, som båda befann sig bakom stängda dörrar. Människan var instruerad att ge så sanna svar som möjligt. Datorn var programmerad för att bedra oss i syfte att likna en människa. Turing presenterade därefter en rad argument för att det är möjligt att programmera en dator, så att dess svar blir omöjliga att skilja från människans. Alltså bör vi, menade han, anse att datorn kan tänka. Enligt Turing kan man likna människans tankeförmåga vid en lök. Vi vill gärna tro att det längst inne finns en kärna som inte kan simuleras av elektroniska mekanismer och datorprogram. Men om vi skalar av löken det ena "mekaniska" skalet efter det andra, kommer vi att finna att skalen är allt som finns.

Det finns två möjliga sätt att förhålla sig till Turingtestet. Om man accepterar premisserna, kommer diskussionen att handla om argumenten för att datorer kan tänka i den implicerade betydelsen av att tänka. Turing lyckades enligt min mening bemöta de vanligaste invändningarna man kan rikta mot detta. Datorer kan till exempel programmeras så att de gör misstag som liknar den mänskliga faktorn. Men trots att han försökte resonera principiellt kring vad som är möjligt, begränsas hans argument av nivån på dåtidens kunskaper. Under de senaste årtiondena har det till exempel producerats en mängd övertygande argument för att många språkliga uttrycks mening är beroende av omvärlden och den situation de yttras i. Detta så kallade kontextberoende gäller inte bara indexikala uttryck som jag, du, han, hon, här och där, utan för en stor del av de uttryck vi använder. För att vi ska förstå vanliga adjektiv som varm och stor måste vi förstå vilka jämförelseklasser som åsyftas i situationen i fråga. En planet är exempelvis stor i en helt annan mening än ett äpple.

För att en dator ska ge rimliga svar på frågor som "Är inte den där ovanligt stor?" måste den förses med sinnesorgan och program som kan tolka dem. Och Turingtestet får modifieras så att det blir möjligt för både människor och dator att betrakta situationen. Men dessutom måste datorn klara av att tolka de kontextberoende uttryckens mening. Logiker och filosofer som Richard Montague och David Kaplan har försökt påbörja utvecklandet av formella teorier som kodifierar de kunskaper vi behöver för att tolka språkets kontextberoende aspekter. Men det är alldeles för tidigt att säga om projektet är möjligt att genomföra.

Det andra förhållningssättet är att betrakta Turingtestet som irrelevant. Det har påståtts vara riggat för att passa hans slutsats och inte beskriva det väsentliga i människors tankeförmåga. Till exempel gör det inte förekomsten av medvetande till ett nödvändigt villkor för tänkande. Turings motargument är att vi aldrig kan veta något om andra varelsers medvetanden. Vi kan bara veta om en varelse tänker, om det visar sig i dess beteende, och Turingtestet är avsett att omfatta alla möjliga beteendemässiga kriterier på tänkande. Turing förnekar inte medvetandets existens, och han påstår inte heller att det kan skapas på konstgjord väg genom datorer. Han påstår bara att om datorer kan programmeras så att de klarar Turingtestet, måste medvetandet vara betydelselöst för tänkandet.

En närmare diskussion av Turings argument skulle föra för långt. Men de flesta skulle antagligen anse att "Blade Runners" och Philip K Dicks konstgjorda, medvetna androider är betydligt mer spännande skapelser än Turings härmprogrammerade dator. I dagens överhettade diskussioner om datoriseringens möjligheter finns det profeter som har gått ett steg längre än Turing och påstår att datorer och dataprogram är nyckeln också till människans medvetande. Med hänvisning till Turings lökliknekse och andra tankefigurer, hävdar man att medvetande kommer att uppstå, bara vi lyckas göra datorer och program tillräckligt kraftfulla.

Det finns skäl att förhålla sig skeptisk även till den profetian. Det mesta talar för att medvetandet förutsätter existensen av en biologisk kropp, eller något som liknar en sådan. Medvetandet förutsätter ett självmedvetande, det vill säga att vi kan skilja ut ett jag som är relaterat till omvärlden på olika sätt. Det förutsätter i sin tur att världen angår oss och har en innebörd som går utöver den abstrakta semantiska relationen mellan tecken och de objekt de står för. Det är genom våra kroppar och våra handlingars konsekvenser för vårt kroppsliga välbefinnande som världen angår oss, åtminstone till en början. Så länge datorer inte kan förses med något som liknar biologiska kroppar och biologiska behov, kommer de därför inte att kunna utveckla något som liknar ett medvetande. I dag vet ingen om konstgjorda varelser med medvetande någonsin kommer att bli möjligt. Men om det skulle bli det, kommer det antagligen att bero mer på stora upptäckter inom biologin än på framsteg inom programmeringskonsten.

Nytt på Clartébloggen

Ska vi prata med nazister? (Recension)

Dan Israel - 15 november 2017

Ska vi prata med nazister? Så lyder titeln på den bok som Mikael Löfgren och Nätverkstan sammanställt med så gott som samtliga debattinlägg i den diskussion som uppstod efter att Bokmässan beslutat sig för att inte porta Nya Tider. Det är ett föredömligt initiativ, som på ett ytterst konkret sätt...

Läs mer...

De nya Sidenvägarna (Recension)

Hans Isaksson - 31 oktober 2017

Peter Frankopan är chef för Centrum för bysantinska studier vid Oxforduniversitetet. 2012 publicerade han boken ”The first crusade: The call from the east”. Nu är han aktuell med “Sidenvägarna” (The Silk Roads; Sv översättning Peter Handberg 2017; Bonniers; 687 sid). Ett av Jan Myrdals och Gun...

Läs mer...

Till minnet av Eva Ullstadius

Webbredaktionen - 31 oktober 2017

Det senaste numret av Clarté - Hundraåringen som försvann; Ett tema om den ryska revolutionen - är tillägnat Eva Ullstadius. Just denna utgåva av tidskriften har blivit mycket efterfrågad och uppskattad. Därför är det en extra stor glädje att numret är dedicerat till en person som starkt trott på och...

Läs mer...

Läs Clarté på nätet! Nr 2/17 Makten bakom orden

Bildtext

Makt och motstånd präglar språken

Ola Wikander - 17 juli 2017

Imperier växer fram och går under. Några språk blir redskap för deras makt, andra förtrycks eller...

Läs mer...

Bildtext

Formulär-språket håller oss fångna

Anna-Malin Karlsson - 17 juli 2017

Det skrivs mer än någonsin tidigare på våra arbetsplatser i form av blanketter, formulär och...

Läs mer...

Bildtext

Krönika

Ottilia Thorsson - 17 juli 2017

I en något sliten Volvo är jag på väg mot min högstadieskola, jag är 15 år och pappa skjutsar mig...

Läs mer...