 Ik would like to welcome our keynote speaker, Kenneth Cooke, who is going to talk to us about challenges. And our conceiv notions about what it is to innovate. And Kenneth is from the Economist, it's my favorite magazine. He has got a massively impressive sort of bio that I won't speak to you about because you can find it out from the leaflet and online. And I would like to welcome you to the stage, Kenneth. Thank you very much for coming. Great, thank you very much and thank you, Aaron. It is such a delight to speak to all of you today, in part because I, like so many people, have such incredible respect for what you're doing. So for me it's a great personal honor, in particular in addition to talking to an organization dat I respect to tell an organization about some of the things that I've been thinking about for the last few years about data, to see how it might apply to the work that you do. Big data is a very big topic. My topic today is not just big data, it's about big data, big and small. But the place to start, of course, is with the idea of bigness and that's the idea of more. More. It's more. More. So what's more? Well, I want you to know that more sometimes isn't just more. Sometimes more is new. Sometimes more is better. Sometimes more is different. We can think about that if we think about, for example, writing. Writing was invented around 8000 BC. We had pressed in characters into clay tablets. We had words, and words were fixed in a media. You could say that at the advent of the printing press that it wasn't really that important. After all, we had words and we had books prior to printing and now we had books and we had words and fixed there. So scribes, there was an improvement there, an efficiency. You had scribes beforehand writing the books and now you could print the books. It really wasn't all that impressive. All it was, after all, was more. But of course, if you made that claim, you'd be incredibly wrong because by dint of having so much more works at such an increasing level of scale in terms of volume and a decreasing cost, it led to huge changes that you couldn't really expect. You couldn't anticipate. It eroded the authority of the church. It undermined the power of the monarchy. It gave birth to the scientific method and to the enlightenment en to the flourishing of the culture and the Renaissance. More wasn't just more. Today we've got a similar shift. As we take the book and the instantiation of words and we put it onto a digital platform, it's really not a big change because after all we had books before. These are just books. All it is is more. Well, I'd argue that that's not true. Suddenly when we can actually see what people are reading and they can see it and we can find out when they read, how they read. I know as a book author, if I find out that two-thirds of my readers give up after chapter seven of a ten-chapter book, that tells me something. If I find out that many of them are reading it in small 15-minute chunks versus reading it in big two-hour chunks, I learn something else in that. Generally also, from the consumer side, you get niche products that are no longer defined by geography en so it breaks the model of mass publishing and you can see a new flourishing of literature that is going to emerge from this. The point here, of course, is that more is not just more. More is new, is better, and it's different. So this is a context, this is a backdrop, let me tell a story. And it's the story of the flu. Now, you're all in the business of treating patients who are ill and so you know something about the flu. De audience today is coughing while I'm talking. So I think we all have these lingering symptoms of the winter. Thank you very much, sir, for validating my point. And so how do we know who has the flu? We could listen to people in the audience, we could count them. And so for many, many years, that's exactly what we did. We would like to count people who had the flu. And so this is a picture from maybe the 1910s, I think, of the U.S. Navy. But we still do that today. The Centers of Disease Control counts how many people have the flu who come into the registered clinics that report to the CDC. And that's how we know generally what's happening in terms of flu. And we know when they're coming in, we know where they're coming in. We can have models, and we've got fairly elaborate and good models to identify outbreaks of the flu. And that's pretty good. But what would it look like in a world of more? Right? How could we do that differently? A company has tried, and they were maybe successful. Let's think about this. Were they or not? The company was Google. They received millions of searches each day from around the world. And they had the idea that they were going to see if there was a correlation between searches, just searches, and flu outbreaks based on the CDC data. En zo, they ran through some algorithmic models. Specifically, they took the 200 million most common searched terms. Because some terms aren't so unique, there's only one of a kind. And then they crunched it through a machine learning algorithm. And they did this 500 million times. So half a billion mathematical models to correlate what terms best matched, best fit, de areas of where there was flu outbreaks in the US, across nine different regions in the US that the CDC reports over. And they found it, right? By doing this enough, their algorithms were able to define. These are the 45 most common words that together ensemble create a best fit that this is where the flu outbreaks so they could actually identify at the outset of the flu season or during it how much flu was going on, where it was traveling, et cetera. On the basis of this, Google Flu Trends became a feature of what Google was reporting in some public health authorities were using it. Who here has heard of Google Flu Trends? Raise your hand if you have. Many of you. Very interesting. About a third of you. You also may know something else. Lo and behold, as time went on, it stopped working so well. It seemed like things were going out of whack. Some Harvard professors wrote a paper in which they joked that Google Flu Trends was predicting winter rather than predicting where the flu was. It's an unfair criticism, but it was cute because it was published in the journal Science. So it turns out, it's true that over time the correlation wasn't matching quite as well. En dat seemed to be a bit of a problem. En they wrote their paper about the traps in big data analysis. But there's a small problem with their analysis indeed. And the first one is ground truth. Some people go into a clinic and they don't have the flu. The doctors know that, but still more people probably don't ever show up into a clinic but do have the flu. In fact, CDC is only a similacrum of what's happening in terms of the reality of where there's a flu. It's not actually the flu. So who is to say indeed whether the Google Flu Trends analysis of search queries was perhaps more accurate than the CDC reporting? Consider that the time when the data was going haywire was a period during the financial crisis. A lot of people might have felt I can't afford to take a day off of work to go to a clinic. I'm just going to suffer through. So people who otherwise might have actually gone to a clinic didn't. We don't know. Turns out I don't think that's the real example. There's a lot of others and they're changing the model. But that's one thing to consider. The second thing but more important still is that buried in that same paper that criticized Google Flu Trends was this sentence. Does this mean, I'm a Harvard professor. Does this mean that the current version of Google Flu Trends is not useful? No. Greater value can be obtained by combining Google Flu Trends with other near real-time health data. The other near real-time health data is CDC data. The point here is that when a blended model of big data and small data were put together, that worked best. It worked better than Google Flu Trends on its own but it definitely also worked better than the CDC data on its own. In fact, this was a great win for big data and also a great reminder that we also need small data. So what is big data? You've read about it in the press. You're probably sick of reading about it in the press. It's true. It's very, very hyped. At its core though, it's this. There are things we can do with a large body of data that we fundamentally cannot do when we are only working with smaller amounts. That the change in scale leads to a change in state. That a quantitative shift leads to a qualitative shift. Or that more isn't just more. More is new, better and different. So what does more look like? More looks like this. You can see that by the year 2000, we like to think we are participating in the information society. We were doing so in name only. Even back then, the amount of analog information was vastly larger than the amount of digital information. Analog information of things like paper books, post-it notes, vinyl LP records. But because analog information grows at a linear pace and digital information grows at an exponential pace, over time, by 2002, 2003, that would totally be on parity. En dan, because digital information seems to double every two years. And this data is from 2007. If you're extrapolate to 2010, the purple part would be twice as big. The pink on top would be half as large. And then by 2013, we'd be through the floor and through the ceiling. I'm sure the second story, maybe the third story of the building. And these trends don't look like they're going to stop anytime soon. Er is many facets of big data, many technologies that are related to it. And there's just one I want to talk to you about today. And it's the area of machine learning. Machine learning is a branch of artificial intelligence, which itself is a branch of computer science. But the real interesting shift that's taken place recently is that machine learning is ozen more probably to mathematics and statistics than to computer science. To understand what machine learning is, it's the idea that we can have computers do things without the explicit instruction of human beings to tell them what to do, because we've programmed them to think in this way, to work in this way. It's useful to think about, or useful to know, the origin of machine learning. How did we get there? And it dates back to the 1950s in the United States with a computer scientist who worked for IBM named Arthur Samuel. Arthur Samuel liked to play checkers, known as drafts in Britain. And so he did what anyone in the 1950s who was a computer scientist would do. He programmed a computer to play checkers. And so he played the machine and he won. And he played the machine again. And he won. He played the machine again and he won. Because the machine only knew what a legal move was. Arthur Samuel knew something else. Arthur Samuel knew strategy. So he wrote a small sub-program to operate in the background. It was something really simple. All it did was it calculated the likelihood that a given board configuration would lead to a winning board or a losing board. So a person would make a move, redo the calculations. Make a move, redo the calculations, particularly at the end of the game. Redo the probability table. He played the machine, he won. He played the machine, he won. En dan leefde hij de machine om zichzelf te spelen. Hij speelde zichzelf, hij kwam meer data. Hij kwam meer data. Hij vermoedde de aakkerheid van zijn predictions. En dan kwam hij terug om de machine te spelen en hij verloopt. En hij speelde de machine en hij verloopt. En Arthur Samuel heeft een machine gecreëerd die zijn eigen abilities overgepast in een task dat hij zei. En deze idee van machine-learning gaat ernaartoe. Dus als je de naam van de founder van Medecins Saint-Francois op Google te typen, en je moest het misspellen, hoe did Google nu? Wie op Google het correcte woord opgekomen is en die het opgekomen is, dus misschien denk je dat dit man niet dat man is. Nou, natuurlijk had niemand op Google nu dit. Het was een machine-learning-algorithme, dat deed het. Het schouderde het internet, het zag die instantieën voor Bernard Cuchnet, met een K, was vast meer gemakkelijk dan met een C. En het zei, hey, ben je zeker voor deze persoon met een C? Ik denk dat je voor de persoon met een K bent. Deze ontdekking, in Stanford, had een machine-learning-algorithme om biopsies van cancercelen te bekijken om te ontdekken of de machine het eigenlijk kan ontdekken die heel canceriseerd zijn. En zeker genoeg, door een computer- en machine-learning-algorithme, de computer, de algoritme, was om te ontdekken de 12 tel-tel-signen die best predict dat een gegeven biopsie is canceriseerd, heel canceriseerd. De problemen, de medicinale literatie ontdekken er alleen 9 van ze. 3 van de handen waren dingen die de mensvrouwen niet konden bekijken maar die werden in de algoritme gespoterd. Nou, één reden waarom we zo veel data hebben over het wereld, is dat we vandaag meer dingen ontdekken dan dat we altijd data ontdekken. Maar een ander reden waarom is dat we dingen ontdekken die altijd informatiek zijn en dat we het in een data-format renderen of datifij het, zodat we zo zeggen. Oké, dus let's denken over wat dit betekent, bijvoorbeeld de locatie. Waar de locatie is, is altijd een matter van informatie maar het is nooit een matter van data. Dus als ik vragen waar is Hippocriteus, de vader van western medicin, is hij in de operatietheater of in de agorah, waar Hippocriteus is, is een matter van informatie. Het is informatiek, maar het is niet data. We weten dat vandaag onze locatie data-afhankelijk is. Waarom we in de wereld zijn, is er een spreadsheet, een database die weet precies waar we zijn. Elke seconde van onze leven en onze locatie, elke seconde van onze leven gaat terug voor al een jaar. De database is in Langley, Virginia, of het is in onze cellphonecarriers, maar het is in ieder geval. De locatie is een matter van data. We kunnen kijken op de postuur, de manier waar je nu zit. De manier waar Ivan zit, de manier waar Pete zit, de manier waar anderen zitten. Het is allemaal verschillend en het is een functie van je licht en je achteren en de distributie van je weight. En als ik 100 censoren in je schaar had, kan ik een index maken dat heel uniek is voor je. Het is een soort van fingerprint, maar niet je finger. Dus wat kan ik met dit doen? Wat kan ik met dit doen om een index te maken van de data? Wel, researchers in Tokio are using this as a potential anti-feft device in cars. De idee is dat een car-driver, een carjacker, jumps behind the wheel, de car tries to speed off en de car recognizes that a non-approved driver is behind the wheel. Als je een parent of a teenager is, dan kan je misschien ook een leuk bedrijf van deze technologie denken. De idee is dat als we meer aspecten van onze leven ontdekken, kunnen we het verhaal, kunnen we het verhaal, kunnen we het procesen en kunnen we nieuwe waarde van deze informatie ontdekken. Dus zover heb ik over websearches gehad en over car seats gehad. Maar ik wil je zeggen dat ik niet echt over websearches gehad en niet echt over car seats gehad. Ik ga over een nieuwe manier om de wereld te denken. Om te kijken op alles als platform voor de collectie en de analisatie van data. Dus let's denken over wat meer betekent als er meer te meer is dan gewoon meer. Dus meer is gebruik, maar smal is ook mooi. De details zijn geweldig. En we hebben dat ook gezien in het project dat jullie allemaal aan het verhaal hebben gedaan. De Missing Maps en Pete Masters gaan we over dit op een panel afgelaten. Het bedrijf van om kleine data te nemen en dat we ook op een hoogte kunnen drillen. We kunnen even kijken op een heel hume scale. Dit is een artikel dat de economie zei over de Missing Maps initiatie. Het geeft ons een nieuwe vorm van visibiliteit. We kunnen imagineren dat we dit soort dingen gedaan hebben gedaan als ik probeer te verstehen hoe ade-donors de wereld over de wereld aan te geven aan de landen. Dat is één ding, maar als ik op geotag exact waar dat ade gaat, dan krijg ik een verschillende perspectief. We zien dingen die we niet kunnen zien. In dit geval, als de ade data de honderds ade-programma's in Kenyans en de geotag exact waar de ade was gegeven tot de hele municipaliteit, tot de GPS-coördinaties waar de geld ging. De projecten in Kenyans zijn heel verschillend. De landen die het darkest zijn, die de grootste poverde zijn, zullen niet veel ade krijgen. Strangely, de plekken die een dagrapport van de Nairobi-aerpoort doen. Dus als het voor de bedrijven van de mensen de recepties of de convenience van de mensen die de geld geven, en als je op de tribale area's maakt, dan zie je een heel verschillende look. De grootste data geeft ons een verschillende vorm van visibiliteit dan we hadden. En al is het in de vraag van Ebola. Nu, de wereld oost een geld naar MSF voor je geweldige werk met Ebola. Ik denk dat het een verhaal is dat de meeste mensen die de vraag weten, maar niet de meeste mensen in de wereld weten. En ik denk dat als je in de morning wacht en kijkt in de wereld onder de redenen die je voor wat je hebt geïnspireerd, dat het echt zwaar is. Ik denk dat het voffel je als een missie en het realisert je waarschijnlijkheid. En als een message voor die van ons die er wist van wat je hebt gedaan, we zijn de geweldige champion en ambassadoren om dat message uit te krijgen. Het probleem, als je het remembert, is dat de hoogte van het crisis weet eigenlijk wat er gebeurd was en waar. En het belangrijkste is hoe het spreekt, waar het gaat. Nu, er is een manier om te identificeren waar het gaat, want het is echt een harde data probleem. En dat is door de humbele mobiele telefoon. Want veel mensen, niet iedereen, de mobiele telefoon is een verschillende device in Afrika zoals in andere ontwikkelde regio's. Maar het hele punt is dat met de mobiele telefoon je nog een goede proctie kan krijgen over waar mensen gaan, hoe lang ze staan, wat ze doen. Als mensen in één gebied vliegen en een andere gebied gaan, naar een andere grote stad, dan wil je niet met je interventie waar dat andere grote stad is. Dat is lunatie, want als ze daar zijn, dan zijn ze er infecteerd met mensen daar. Je wilt vinden hoeveel transporthubs ze gaan door. Waar ze congregaten, hoe lang ze congregaten, hoe lang het zakt. Is ze reisiging of reisiging? Is ze op de voordeur of in de auto? Alle dingen zijn echt belangrijk om te weten hoe je interventie te targeteren. En ooit, de gevaarlijke data record van mobiele telefoon zal dat voor je antwoorden. Het is niet perfect, maar het is een steppende verandering van veranderingen. Het is een verandering meer dan de modellen die we hebben in het verandering gehad. Dit is een van de meest effectieve manieren waar we een boel hebben gestaanged. Als het verandering op de hoogte van de crisis om te veranderen was, dan was het een verandering van verandering. Het probleem? Deze recorden waren niet veranderd. Het is een soort van de goldust die een verandering zou hebben gegeven als er een enorme crisis zou zijn. Niet alleen een verandering, maar een crisis die een verandering van verandering om te veranderen was. Dat prijzende informatie dat zo beneficial zou zijn, was niet geplaatst. Voor de operatoren, er is een kost aan, ze willen geen licentie lossen omdat er privacy issues zijn. Voor de regulatoren, ze hebben geen verandering. Ze hebben geen verandering om te veranderen. Als je op de doorgaat, zal je het nog niet bekijken. Ze hebben niet de institutionele capaciteit om te veranderen in deze soorten manier. We weten dat, want het telecomregulator in de landen is een gebied van patronage. De postmasters waren in de United States tijdens de coloniale periode, in het begin van de republic. Voor de politiezen? Ze weten het niet, maar het is niet de responsibiliteit. Het is de responsibiliteit om te veranderen. Ze kunnen beter uitvoeren. We zijn gelukkig. De wereld had een bullet in dat periode. Het zou een zade... Het was een zade inditie om de human capaciteit te veranderen in een crisis. Als het een calamiteit is, en deze volledige data was niet geplaatst om te helpen in de landen, we kunnen niet meer volledig om te worden geplaatst. Dus nu dat het volledig is, is het tijd om te proberen en de keuze te maken om data te gebruiken om te veranderen over de globale problemen, in particular Ebola, of andere communicatieve diseases, en in particular gebruikende data records. Dat bevindt leadership. Niet alleen maar leadership. Leadership appreciëert de value van data. Er zijn risico's aan de grote datauniversiteit. Verstaan waar mensen gaan in een anonymes en agregatieve manier, wat de CDR's hebben gegeven om ons te ontdekken. Dat zou belangrijk zijn, want er zijn serieuze privacy implicaties. Aan de andere kant, het zou heel triviel zijn om telecom-operatoren te installeren in een algoritme om te luisteren naar koffers. Als de telefoon opgaat en iemand opgaat en ze hier misschien drie koffers in 60 seconden, het ontdekent wie dat persoon is en dat dat persoon een communicatieve disease heeft en het ontdekent dat hij dan gaat na die manier. Dat lijkt me als een heel zware gebied om in te komen. We willen dus denken over hoe we deze technologie willen gebruiken. Deze risico's zijn reale. De risico's van privacy zijn paramount. We moeten het in tijds de crisis overvinden zodat we weten hoe we de crisis willen spelen. We kunnen dus onze waarschuwen als we deze nieuwe technologie ontdekken. Er is de idee van pretepensiteit. Als we een koffie zien, het betekent niet dat ze het communicatieve disease hebben. Er kunnen veel redenen zijn, het kan dus duizend zijn. We weten allebei afrikaal, het is duizend. Dus gaan we iemand penaliseren op basis van een predictie? Of gaan we een maatswap geven om te vinden of ze het eigenlijk hebben? Het is weer over de grondhoek. Niet alleen over de leidheid. Niet over de probabiliteiten. We moeten uiteindelijk remember dat de data is alleen een simulacrum van de realiteit. Het is niet de reale ding. In dezelfde manier waarom een maat is niet terratorie. En wanneer we de grote data era moeten ontdekken, moeten we zo in een manier dat onze waarschuwen, de sens van judgment, de smaak en de decency zijn. Ik denk dat de bedrijven uitweiden de drawbacks. Ik kijk naar wat er gebeurt. Dank je wel. We hebben een paar minuten meer, dus ik zal vragen. Is er iemand van de vloer of van de internet? Je bent wel welkom bij ons. Ik heb een paar vragen. Er is een soort interessant steppje. Een van die is, zoals het was, een indruk... ...een absoluut fascinerende indruk van fact. Dat is de natuur van de veranderingen die je bestrijft. En er is ook een invaliative aspect. Dat is een goede ding dat er gebeurt. Maar er is ook een geweldige deel van de veranderingen over grote data. En ik begrijp dat, als een data expert, je heel blij bent. Maar mijn zin is dat er een enorme deel van publiek veranderingen is... ...om deze gebruik van data. Er is ook een grote verandering van kennis... ...over het potentieel van data te ontdekken. Dus ik wist niet of je gewoon een klein beetje zou kunnen praten... ...over een paar van die invaliative dingen. Hoe kunnen we dat deze data niet gebruikt is... ...om enorm amounten van informatie te ontdekken... ...voor alle manier van de melevingen? Ik denk dat er een geweldige risico is. Ja, je maakt een heel goede vraag. En ik heb niet een heel goede vraag. Dus laat ik door een praktische en een principale vraag. De praktische vraag is de vraag die je niet wil horen... ...maar je kunt het nu wel horen. Dat is een steam roller. Je kunt het niet uitgaan en laten het passen... ...en joinen in de caravan of je kan het kwaaschen. Want het gaat er veel te zien... ...in terms van de sciences, op de turn van de 20e eeuw... ...nuclear energie en nuclear power. Er is dus zoveel interesse in het spelen... ...of de man's kennis in deze domain... ...en de geweldige potentieel dat dit kan worden... ...dat we beter beginnen te denken echt serieus... ...over hoe we in de shockabsorberen... ...en de kruipwiers en de veiligheids... ...voor ons te protecten van alle mogelijk malevoliteerde gebruiken van dit. Maar er zal geen turnen van de klok zijn. Als Galileo erop komt van de theorie... ...dan moeten we responden. Als we de genetische ingeneering hebben... ...dan gaan we in plaats van de systeem en de veiligheids... ...we hebben een hele internationale... ...aree international law en order... ...around nuclear non-proliferation... ...as well as nuclear energy. We saw it with Fukushima, a Tokyo correspondent at the time... ...so I saw it first hand. Maar we hebben nog nuclear power... ...en nuclear medicine. We've gotten the value of the atom... ...even though it could poison us... ...and destroy the planet in a second. Data is a very similar dimension... ...to how man grapples with his... Pardon, humanity grapples with its problems. We're going to certainly go for the benefits of that. We're going to have to do the hard work... ...of trying to find ways to solve those problems. But from a practical level, if someone tries to hold back the sands of time... ...they're going to get swept over by the tidal wave of it. But the principle that you identify, if that's the practical answer... ...de principle is correct. We're going to have to preserve our human values... ...knowing we're not going to do it perfectly. Er's going to be a lot of tragedies. There's going to be a lot of problems we're going to regret... ...in the same way we've had in three-mile islands in Fukushima. Sorry, yeah. Thank you very much, Kenneth. I really want to thank you for coming over here... ...and to present to us big ideas... ...and how that can be applied in a small manner... ...for the benefit of our patients... ...eventually and grapple with the risks... ...that those present and some of the questions... ...that we will for sure also encounter in MSF. So thank you very much for your time and presentation.