 Merci beaucoup. Avant de commencer quelque chose, pour être maréalistique, je vais parler plus tôt en anglais parce que je fais moins de fautes en anglais. Mais n'hésite pas de demander des questions en français et je vais peut-être mettre quelques phrases en français parce que je ne veux plus gêner que le site que je vais te présenter, c'est l'Union Anglophone. Et bien sûr, je suis amateur de politique, donc je veux être comme je suis très tôt. Changez les langues dans le milieu de ma phrase. Et numéro 2, c'est qu'il va être relativement basé sur le code Python en termes de ce que je vais vous dire. C'est pour ça que je présente un site où il s'agit d'un code, mais n'hésite pas de me demander des questions en texte. Et je pense qu'il y a un peu d'ambiance entre Python et ce que je vais vous dire. Pour moi, j'aime beaucoup le Python. Il m'a emprunté d'une idée dans votre tête pour un code que c'est clair et exputable et que vous jouez très rapidement. Le code de redeveloppement, le shell, c'est un de mes préférés. C'est probablement Spanty et Ion en termes de code Python. Et c'est ce que je pense que vous pouvez approcher de beaucoup de ces projets. Donc, c'est un code d'attaquer du gouvernement. Et je vais me répéter, par contre, de ce que j'ai déjà dit. Mais c'est important, donc vous pouvez le voir. Et donc, ça commence avec... J'ai été intéressé par la question de ce que j'ai dit. Et ça s'appelle le document de Hansen. C'est quelque chose qui a été publié en Canada depuis le 19e siècle, en Bretagne pour plus longtemps. C'est le transports de tout ce qu'il y a. Il y a un whole bunch d'étranges incroyables. C'est été créé pour toutes ces années. C'est été online pour des décennies. Il existe un document très, très long pour le jour. Vous devez avoir un peu de temps pour le faire. J'ai essayé d'attendre ces questions. Et avec ce document, je peux. Vous savez, vous avez des données. Donc, je suis un ingénieur. Mais ça devrait être plus facile. Je veux construire les chelons. Donc, c'est ce que j'ai dit. roaming... So, that's what I did. I went and scraped those documents ... a lot of HTML parsing, a lot of gnarlyregxes, a lot of swearing to parse structured data Okay, this is an h2 in 14 point text. It's obviously the name of a MP from Manitoba. Those sorts of things. C'est un petit peu plus. Ah, c'est un petit peu plus. C'est un petit peu plus. Oui, c'est plus. C'est plus. Donc, je vais faire de la paix, ma MP. Je veux savoir... Comment de nombreuses fois a-t-il voté contre sa part? Et au dernier moment? Oh, je suis désolé. Je veux dire que c'est vrai. Et il n'est jamais voté. C'est un standard pour les MPs. Je vais parler de ça plus tard. Je veux prendre quelqu'un, notre ministre de l'Immigration, Jason Kenney. Jason. Non. Qu'est-ce que j'ai dit? C'est le moment où Tom a parlé de Jason au Parlement. Le ministre de l'Immigration a pris la propriété du gouvernement. Tom n'était pas là. Donc, c'est un truc qui, c'est peut-être moi qui est en train de faire ça avec la politique des données. C'est un truc qui est très excitant. C'est la espèce que je vais faire le meilleur de parler de là-bas. Donc, ce que j'ai fait, avec ces données, que j'ai fait, j'ai construit une petite app où tu entres dans un mot, dans un mot que tu veux. Et tu as un grapho. Qu'est-ce que j'ai dit? C'est le projet. Oui, je dois faire ça. J'ai fait ça et j'ai assemblé que c'est vraiment un gros database. J'ai décidé que je devais probablement voir si je pouvais faire quelque chose un peu plus utile. Et je sais que le site s'appelle Au Parlement Today, au Parlement.ca. C'est un site qui tente de faire ça plus facile pour toi pour que tu sois un partage. Donc, le cours de la site est probablement la page de la politique. Et c'est tout pipeline. C'est tout open source. Et ça n'est pas pas through these long documents, it's to organize around the questions people have like, what has my MP been up to? So who lives in Stash, here MP is Laura Liu. And so I aggregates things like what they've said in Parliament, mentions in the media Twitter posts, legislation introduced, votes, a few other things. You can sign up to e-mail alerts when they speak, their feeds, contact information. You can look through a vote, you can look through bills, there's many various things to do which I encourage you to On va aller très vite sur le site, mais je vais aller voir un peu d'autres choses que ça fait. Ok, vous pouvez faire beaucoup de fonds de données. Donc, c'est un jour particulier dans le Parlement de l'année dernière. Tout le monde sait que le nom de la parole est prorogation. Toutes sortes de fonds de données que vous pouvez... Oh, c'est une bonne chose. C'est une bonne chose. C'est une bonne chose. C'est une bonne chose. C'est une bonne chose. C'est une bonne chose. C'est une bonne chose. Merci. avec 150 différents tags. Donc je suis juste en train d'utiliser un tournevis qui remettra ça et converte ça dans l'HTML5, une très semante HTML5 qui est désignée pour les developers pour pouvoir l'utiliser. C'est un tournevis stand-alone qui m'a dit que c'est le plus healthy pour moi aujourd'hui. Le Parlement de l'HTML5 donne un format d'HTML5. Et à partir de là, ça veut dire que d'autres personnes ont fait des tournevis sur le tournevis. C'est un gars qui s'appelle l'improvisateur en materiel. Donc il y a des textes et il fait un processus de langue qui est basé sur les mots, les MPs de cette partie. J'aimerais vous le dire. Donc si vous regardez là, le nom de Python c'est NDP. Et en même temps, c'est des mots, donc les mots bleus sont les mots qui sont les plus élevés dans la partie conservative. Et les mots orange qui sont les plus élevés dans le NDP. C'est d'un peu d'un an. Les conservatifs parlent ici des préditaires de tenue et d'un coup d'oeil. Je vais dire, si les NDP change leur nom pour les lesbiennes pour construire leur nom. Donc il y a un couple d'autres outils sur le site. Si vous allez au www.openparlement.ca où j'ai besoin d'un connecteur net, il n'y a pas de mots qui vont dans toutes les directions. Je ne sais pas si ça fonctionne. Mais je vais le montrer maintenant. Donc c'est ce que j'ai fait. Mais mon but ici n'est pas juste de vous montrer. C'est de vous voir comment les outils de ces types de projets sont et Mike et John ont fait un bon travail avec ça déjà. Et je vais essayer de parler d'un couple d'autres outils que les étapes peuvent être intéressantes en faisant vraiment des choses utiles. Donc l'un des outils que les étapes peuvent ajouter des étapes par organiser des choses autour d'une location. Donc, ok, c'est un bunch de packers qui ont décidé d'appliquer des outils d'outils basés sur le data pour une personne en particulier qui le type dans votre postcode. Ils appliquent des outils pour vous avec toutes les sortes de systèmes que vous avez fait. Et puis, ces sortes d'étapes qui se sont vraiment intéressantes. Le même exemple, peut-être que ces étapes sont des étapes de moins de textes d'outils. Non, ok. Donc, pas trop beaucoup. Donc, chaque bloc, c'est Adrien Hallabadi. Il est aussi le guide pour le Django. Longtime, longtime, mais c'est son site. Ce qu'il fait c'est organiser toutes les sortes d'outils autour de votre adresse. C'est seulement les États. J'ai vécu New York. C'est mon adresse. Et c'est toutes les sortes d'outils qui sont des étapes d'outils. C'est vraiment marrant, d'excepter quand c'est la prochaine porte. C'est les propriétés que mes voisins sont vendus. Oh, je sais que c'est ça. C'est juste parmi moi. Oh, Alicia Silverstone va filmer un film sur la couronne à côté de moi. Crimes à la prochaine porte. Évidemment, il y a un business license apporté à l'Institut Jenkins. Il y a une tante d'exemple d'exception d'explicit de la couronne. Il y a un truc qui s'appelle l'économie. Il y a une couronne d'exemple. Il y a une couronne d'exemple. Il y a une couronne d'exemple. Il y a une couronne d'exemple. point about how inequality affects the courses that are available, the confidence of teachers in the schools. State college statistics organizing with a point of view saying you can compare your local school, it's relevant to you, with things nearby in higher or lower poverty areas. Tell us tips about the, you know about context for your local people. Share this with other people. That takes data and allows you to drive change with it. Fantastic Montreal project, I've mostly been skipping them because Michael John talked about it, by James McKinney, who's Montreal's Open Data Superstar, go sadly or we missed. This is a recent project for the Gazette, which takes the transcripts of the, I'm not sure which council, but there are these long PDFs. It scrapes the PDFs to find out only the bits where they talk about approving the contract. It puts all that in a database, so you can just see. These are the contracts, which the city is sort of buried deep in the weekly minutes, and puts them into a nicely searchable database with the dollar amount of the company classifications. And again, by saying, okay, here's this tons of data, we think that these contracts are what matters, we should be paying attention to. Makes this really draft data useful. This is another site, which I've made, with a guy called Larry Frenchman. It takes information from election sites, and reprises them to answer the really quick question, which is, here's my address, where do I go to vote in the municipal election? And it's just a page with one form, which is what's your address, and it takes you to a map, and tells you where to vote. Which is something that the vast majority of actual elections bodies have not yet figured out. I'm really hoping they will, but again, by saying, this is what you care about, I'll show it to you. There's really use to that. Another quick example, so this is a site out of Vancouver. In Vancouver, the garbage collection schedule is really bizarre. So it's every week, except every time there's a holiday, there's no garbage collection, and they shipped everything forward by a date. So a guy called Luke Kloss in Vancouver said, this is really hard to keep track. I'm going to scrape this data, I'm going to build an app to give you reminders of when to pick up your data. Something simple, something usable. But for me, what's really interesting about that, is that this is an application that's made by one guy, saying, I'm having a problem with this, here's something I can do to make it more useful. We all know what open source software is, we're all familiar with how this makes pretty much all of our lives better. All the open source projects we use every day start from that sort of, that sort of itch to scratch. For me, one of the great potentials of open data is having an open source civic life where we're able to say, here's a way that I can make the civic life in my neighborhood better, using the skills that I have. So that's Tim Bernersley over there, father of the web, and who is mainly campaigning for open data these days. That's his cause right now, he's in charge of data.gov in the UK. And I think there's a real connection for the openness of the web and an openness of the structure. So quick talk on lessons that sort of, things I like about some of these sites and I encourage you to keep in mind if I'm building some more projects. Start with a question, start with something that people are going to be asking and you can answer. Have opinions with this data if you're going to start a project. Say this is what I think matters. I'm not going to show you just every possible bit of data you can explore. I'm going to show you something which I think will be useful to you. I'm going to put my own spin on things. One of the keys to open data is let other people do their own thing with what you have. Release, you know, build a site on it, build an API, release a data dump. Make sure that other developers can have their own points of view on top of that. Give things a URL. If you look at government sites, the URL structure is among the worst things. It's always like index.asp, question mark, long base 64 string. What makes the web the web is that you can share pointers to resources. You know, you can say, hey, I want to share something my MP said in Parliament. That is much, much easier with my site because there's one URL and you can post to your friends. And above all, there's a real opportunity for funding. People are incredibly happy to see, you know, this civic data come with a bit of personality on top. You know, I know Stéphane Guidouin, who launched Zonkone pretty recently, has gotten so much thank you email. And I've gotten a whole bunch too. Just saying, you know, thank you so much for not being a new state with hotspots. For saying, you know, we realize, you know, I'm a citizen. I realize how much pain there is here. We're doing this together. I'm going to put some personality. I'm running much shorter on time, I thought, so I will skip even so most of the techie stuff. But, short bits here. The techie's beautiful soup. It's nice, mostly, but Alex announced much better. Mechanize is great, though the parole version is better, but still, that's... Mechanize is a web scraping library that essentially emulates a browser. It can be really useful for trickier escaping things if you have to scrape an ASP.net site, which is unfortunately quite frequent. I am going to totally skip linked data. So a few tech lessons in building project plans. Of course unit tests are a good thing always, but you need to run tests, to sanity checks all the time, if you're trying to scrape data. Unit tests will only go so far as sort of telling you when there's been progressions. What happens all the time is that there'll be some sort of slight change in data. The only way I've found to deal with this is by looking at a lot of property exceptions in which data you're going to get in. Sort of coding in. These are the aspects that are successful. Assume that the data that you're going to get in is full of errors. Just assume it from the get go. Deal with that in your application. Bass data sets always have tons of mistakes in them. You can't go insane or expect a perfectly formed XML. Use big cache layers, but I've found that it's best to have those separate from the application. Those sites often get big spikes in traffic with media attention, but the very nice thing is that you often can use plain old HTTP caching where you say this URL, cache is valid for 60 minutes. For me, that's been very easily accomplished by using sort of third party cache layers, things like varnish. And having admin tools for yourself to have access to the data so that you can not just see a public interface, but you can dig around it yourself like the shell I showed you at the beginning. To me, that's one of the best the ways to develop new features, to develop useful things to have my own lens into that. So, I've mostly avoided talking about open data so far. Open data being the idea that governments will help you. Because that's a little bit of a hurdle to jump. There's groups like Maria Rubin that have done fantastic things in that area. But often, if you're trying to build projects like this, you'll be faced with a great deal of indifference. The biggest lesson I have there is ask for forgiveness. That said, there will be, it's a slow trajectory at the provincial level, at the federal level, at the municipal level. Your government is slowly getting better and better and realizing there's a lot of potential in helping out people. So as usual, I figured I could talk much quicker than I actually do when I already speak pretty fast. So I'll wrap things up with a chance to make questions. But the main message I want to communicate with you if I can is that this stuff is really fun. And there's a whole lot of opportunity to build tools that are interesting and useful and indeed a lot of fun. And I hope to see a lot more hacking projects. Thanks very much. Et pour demander des questions, je pense. Un autre question s'il y en a. Je sais pas. Pardon, je ne peux pas t'entendre. Language processing, language processing ça mesure plusieurs choses. Je ne fais pas vraiment trop, pas trop compliqué. C'est simple Bayesian stats. Est-ce que tu n'as pas eu le temps d'initier? Non. J'utilise initier pour des choses très très petites ici et là. Je suis déjà travaillé avec ça. Il y en a plein de choses à faire, mais je n'ai pas fait grand-chose restant avec ça.