 tú me dices cuando empezaron. Ya estamos en la vida, ¿vale? ¿Puedes empezar, Nicolás? Sí. Ok. So, hi everyone and welcome to the session of the Latin American awareness of physics. So, today I'm Nicolás Bernal from the University of Antonio Nariño in Bogotá, Colombia. And today we're super happy to have this... I'm having... Ok. So, we're super happy because we have today a professor Ezequiel Alvarez from the International Center for Advanced Science and Science in Bogotá, Argentina. And we'll talk about the intelligence archives. So, please, Ezequiel, you can get started. Ok. Thank you very much, Nicolás. Thank you very much. All the host and everybody here. It is a pleasure to be part of the Latin American webinars, I already came international webinars. So, I'm going to share the screen. So, I'm going to start. Ok. So, please confirm. Can you see the first slide? Yes. Ok. So, I will talk about intelligence archive, short daily papers by learning user topic preferences. So, although this doesn't look as a physics paper in the first site, it is physics in two sites. From one site, because of course that having an enhanced access to bibliography can enhance the scientific performance of each of us. And also, because the machine learning technique I'm going to talk about is an unsupervised machine learning technique, which is not very popular yet. And I think it is very powerful and it can be used to look for new physics, as I will show you in the talk. So, the talk follows these motivations, we have every day, as we can see, that the daily archive releases are increasingly large and we want to have a best access to bibliography where we can put the papers that are more interesting to us in the top. Then, we have also a growing interdisciplinary works and there are new machine learning techniques available. So, with these motivations, we pursue the following goals. Ok, the first goal. It is, can we make it to sort the daily archive papers according to our preferences? It is very important to stress that. It is according to each user preference and not to popularity of the paper. So, it has to learn which are your preferences, your personal preferences. We want to develop algorithms which can adapt many categories. So, sometimes you are interested in AstroPH and HEPPH. Reading most categories, it is very difficult. So, a machine helping you to select the papers which are more likely to the ones you are interested in. It is very useful. And we want to develop a site which is going to be free always which has to do with, you read the papers in this site instead in the archive and the machine learns as you click which paper you want to open. So, the main goal, the most difficult goal here it is whether can we sort the archive papers according to each user preferences. So, the outline of the talk is the following. I want to first talk about Topics Model which is a concept introduced 20 years ago which has to do with a different way of accessing a huge number of documents. Ok, then I will talk about the machine learning technique and unsupervised machine learning technique which is LDA, Latin digital allocation. It is very important that when we talk about this technique to be used in physics that it is unsupervised as I am going to tell later. Then I will talk about how to apply this technique on the archive. I am going to talk about the whole purpose of paper, the subtleties, the topics and all this. And then I will talk about the site itself which is called IRCAD.org I will talk shortly about some plan for near futures and I will talk about physics using LDA. Here is something that I will stress all the time that we know how to use supervised machine learning in physics. And using unsupervised I think it is the way to go because we use supervised machine learning you are based on Monte Carlo simulations and then neural network or booster decision trees but you are taught the time based on Monte Carlo simulation. The truth is that when you are looking for new physics, new learning technique that can recognize patterns from which after you can pay attention and try to and then the conclusion. Topic model, it is a concept introduced 20 years ago by time of the explosion of the internet and the question that people addressing this problem was how to index a document in a clever way. So that is the topic model which is kind of the central thing about this talk and about IRCAD. So say for instance that you have a huge number of books or documents and you want to index them. There are many ways to do it and the question is whether there is one that is more clever. One possible way of course it is to index the books by their subject. You have a quantum mechanics books, a quantum physics theory and a cosmology book. From their topic to extract 1,000 topics probability distribution over the lecture. You and me genetics occur together. Machine learning technique would be able to extract topics initially occur together. Is something happening on YouTube but for some reason YouTube is not... If you go directly there. You have to do two things. Roberto or Nicolas, where do you... They don't think it's on my side. We cannot restart the broadcast with the same link. Create a new event with the new... So this stuff we can do it. YouTube is just... It's definitely a band with problem. But it's not from us because for instance if I have a problem it will collapse but you guys can keep going. On YouTube and it's low but they are still receiving that. The point is that... But the information that we are sending conversation right now will be on... We can cut that. Can you please go back a little? Can you please take it out? Just with... Perfect. Now it's an excellent connection. This video is private. So I don't know what's happening. Do you want me to keep on going? Hold on just one second. What do you mean that it's private? No, it's private. Nicolas. I think... Yes, the YouTube is hearing all our previous discussions. Ok, well that's... So let's back up a little bit and let's keep it up. Then what else we can do is... Nicolas, you're the host. y si no funciona, podemos poner el vídeo, incluso si no funciona. Y nos lo disculpamos para nuestros viewers, por ejemplo, no esperamos. Yo sé que en YouTube hay un desay, mis colegas me dicen que hay un desay en YouTube. Sí, por favor, ¿Puedes seguir con eso? Sí, perdón. Así que, vamos. Perdón, ¿puedo seguir? ¿Puedo seguir con eso? Sí. Ok, así que, perdón sobre eso. Ok, vamos a volver a un par de slides. Yo estaba diciendo que la forma clave para indexar un gran cantidad de documentos es por crear estos after topics. Lo que dije es que si tuvieras, por ejemplo, en muchos libros o en muchos documentos, el algoritmo de topic model podría reconocer que hay cosas que ocurren frecuentemente juntos. Por ejemplo, y aquí, que gene, DNA, genética, ocurren siempre juntos y con alguna probabilidad de distribución, y por ejemplo, brain, neuron, nerve también ocurren juntos. Así que es realizar el algoritmo que a lo largo de todos los documentos hay topics y que cada documento se constituye por los topics en diferentes fracciones. Eso sería. Tienes todos los documentos y los topics que son menos que los documentos, ¿ok? Y cada documento tiene algo de marzo, algo de pagamento, educación, para cada documento. Así que el model de topic es una técnica para descubrir, para extrasar los documentos en topics. Y cada tema es un clássico de la vida que se ocurren frecuentemente juntos. Por ejemplo, el tema de arte sería 2% del mundo arte, 1,3% del mundo cultural, música, colores, pero otros topics, para los niños instantes, tendrán un modo diferente de todos los trabajos en el diccionario. Por lo tanto, tendrán más peso en niños, niños, playa, juego. Así que estos son los topics que se contienen en todos los documentos. Esto es un algoritmo de lenguaje natural, pero luego he encontrado muchas aplicaciones en biología, genética, informática, y muy reciente, en los últimos dos años, en física también. Así que, primero hablaré de la lengua natural procesada para aplicar a un archivo, y luego hablaré de física. Pero déjame hablar un poco más en detalle, primero, sobre la técnica de aprendizaje de máquina, que es llamada LDA para la Alucación Latente. La idea detrás de esto es que cada documento es una distribución multinomial en los topics, y que cada tema es una distribución multinomial en todos los palabras del diccionario. Así que, más precisamente, lo que tenemos es que para cada documento, tener una gran parte de los topics tiene la probabilidad de que es un multinomio, que depende de algunos parámetros theta. Por lo tanto, para cada tema, es definida por la distribución probabilidad sobre todos los palabras del diccionario. Así que, si quieres, si tienes un set de 100 palabras, que es la probabilidad de tenerlos, depende, en cada tema, depende de los parámetros theta. Y la escena clave que han hecho es suponer, suponer que hay una distribución directa sobre los parámetros de la distribución multinomial, que es una probabilidad de una probabilidad. Y aquí, cuando puedes quantificar la probabilidad de una probabilidad, puedes aplicar base teoría, para que sea lo más probable de los parámetros. Así que, la idea aquí, muy claramente, por supuesto, es un papel muy complejo, pero la idea es que te sientes el algoritmo con todos los papas y el algoritmo tiene unas prioridades, unas prioridades de parámetros y puede obtener las propias topics en los documentos. Esquimáticamente, esto funciona como esto. Así que, tienes la tita, que es el parámetro de los parámetros de la propuesta de documentos y tienes la tita, que es para los topics. Entonces, para hacer el algoritmo, pones algunas prioridades de parámetros, eta y alfa, que, por leer cada documento de parámetros, cada vez que el algoritmo llegue al parámetro, dice, ok, este parámetro tiene la probabilidad de que en cada uno de los parámetros de los documentos, y luego, en cada parámetro, tiene la probabilidad de que cada uno de los parámetros de la propuesta de documentos. Así que, usando esto recursivamente, muchas veces, puede construir los más límites de los parámetros. Y eso es lo que hace y, por supuesto, es mucho más complexo, pero esta es la idea que es posible, al menos. Ok, así que, vamos a hablar de cómo podemos usar este LDI en el archivo. Fortunadamente, este es un algoritmo muy complexo, pero los chicos de Python han hecho las librerías para hacerla más fácil. Entonces, es increíble cómo muchas cosas puedes hacer con Python con todo esto. La idea behind LDI en el archivo es la seguida. Cada libro es una mezcla de conocimiento científico, que es loco, porque cuando haz un libro, tienes cinco colaboradores, cuatro, tres o tal, y cada uno es especialista en temas de diferentes formas. Entonces, cuando estás colaborando, cuando estás haciendo un libro, estás mezclando los temas de cada uno de los colaboradores, tienes que intentar aplicar esto en el archivo y ver cómo funciona. Entonces, la idea en el archivo es que tienes el archivo dividido por categorías de archivos. Vamos a tomar los documentos solo el título y el abstracto. No vamos a tomar el documento todo. Vamos a construir un model LDA usando el título y el abstracto. Es lo que nosotros costamos, peroitez, porque ahora el título es loco. Es loco. Y el título es loco. No tengo los diarios, ¿cuál era loco? No, ya no lo haces. No hecho, pero es cierto no es loco. Y el título es loco. Entonces, para выбrirlo, Hemos hecho esto en dos pasos. En el primer paso, hemos mezclado todas estas categorías. Pastro pH, gravitación, pandemios cosmológica, HEP-TH y HEP-PH. Y mezclando todas estas papas, tenemos un corpus de documentos. Y como dije un par de slides antes, nos preguntamos ahora el algoritmo para reconocer los topics. Tienes que poner el algoritmo de cuántos topics quieres, que no se realiza, porque no es definido, pero en este caso, necesitaremos cuatro topics. Queremos ver cómo bien la división humana de los topics corresponde a la división de la división de los topics. Lo que hemos encontrado es que, si lo hacemos, y luego quedas sólo el papel de una categoría y veas la distribución de los topics, veas que cada categoría tiene una categoría que pica en una. Entonces, lo que vemos aquí es que hay un gran y un acuerdo de supervisión entre los topics y las categorías. Ok, este es un buen resultado, que sería espectacular, pero es genial encontrarlo. Entonces, aquí están las secuencias de AROC, mostrando que las categorías son correctas. Entonces, déjame stressar esto. Lo que hemos hecho es usar totalmente y superar el aprendizaje de las máquinas de supervisión, la descubriría de cuatro topics, cuando te dices un acuerdo de los documentos, que son las cuatro categorías. Y hemos visto que el algoritmo extrae los cuatro topics que corresponden correctamente a las categorías. Ok, déjame mostrarles que son estos topics, que no tienen un título, no tienen un label, pero sólo un tema abstracto. Pero es inmediato ver, por ejemplo, que este, la última, es HEPTH, teorífico, gage, string. Ok. Este, el color blanco, es la gravitación de 1 de los módulos, este es la observación de la observación de la galaxia, es la astropiaz, y este que comienza con el modelo es HEPTH. Observa, hay muchas cosas. Observa que el modelo del mundo es en HEPTH y es también en HEPTH, pero es de una forma diferente. Entonces, los topics no se refieren a los keywords, pero se refieren a esto, que es una estructura más compleja de los topics. Es importante, porque si refieres a los keywords, podrías nunca distinguir uno de los otros, o podrías distinguir pero no tan eficientemente como aquí. Ok, entonces el tema es mucho más complejo que los keywords. Eso es lo que quería transmitir. Entonces, la siguiente cosa que hemos hecho, es ok. Ahora vamos a construir un modelo LDA, pero para cada uno de los categorías de ese tipo. Entonces, uno modelo LDA para HEPTH, uno para HEPTH, astro y GR, ok? Y hemos construido, preguntando sobre 30 a 60 topics, y aquí hay lo que llamamos la pizzería, donde a cada punto, es un documento en el cuerpo, y cada pizzería corresponde a un tema. Entonces, colocamos el punto en el tema, en el tema principal del documento, del papel, y lo colocamos más cerca del centro, si el papel tiene una homoginidad de los topics. Digamos que es una mezcla de todos los topics juntos, y más cerca de la pizzería aquí, si es solo un tema en el documento. Esta pizzería dice que estamos bien, porque no tenemos papas en el centro, y no tenemos papas en el costo, significa que no tenemos papas, que son compos homoginiosamente para los topics, y no tenemos papas, que son solo un tema monotópico, que es lo que queremos evitar en la construcción. Entonces, después de hacer esto, por ejemplo, en astro y GR, les mostré los topics. Hay 40 topics, y puedes ver aquí, los topics, y puedes reconocer, puedes desbloquearles con tu propia obra. Por ejemplo, aquí el Black Hole, la gravitación, la pizzería, el camino, esto es hablando de la pizzería en el Black Hole, este aquí, es sobre la pizzería en la construcción, la resolución de la resolución. Y aquí hay otro, que habla de los Black Hole, es una pizzería en el modelo de model, pero aquí no es hablando de la pizzería en el Black Hole, sino de la teoría de Black Hole. Entonces, lo que ves es que el modelo de pizzería, puedes realmente sentir el poder del modelo de pizzería aquí, porque el modelo de pizzería 2 es hablando de mergers de Black Hole, y el modelo de pizzería 39 es hablando de teoría de Black Hole, incluso que se compartan muchas palabras. Entonces, como veis, el algoritmo LDA puede distinguir dos topics, que son muy similares, y realizar que son diferentes, porque el hombre que trabaja en la teoría de Black Hole, es una pizzería de Black Hole, pero trabaja en la teoría de Black Hole, puedes imaginar a una persona que no sabe física, que te dices un par de libros sobre Black Hole, y te voy a llevar mucho tiempo para realizar que hay dos topics, uno es el modelo de pizzería y uno es la teoría. Yo estoy intentando transmitir el poder del técnico. Entonces, cuando tenemos esto, tenemos todo abajo, porque tenemos, para cada papel, tenemos un vector, que es el peso en cada uno de los topics, digamos 40 topics, y cada vez una persona llega a un papel, o dice un papel, tenemos el vector del papel que él escribió o él escribió, y lo que hacemos es constructar un vector personal para este autor, que es el sumo de todos los vectors que él escribió, y lo normalizan, y para saber cuánto usuario se interesa en un papel, en un nuevo papel, tienes que hacer el producto interno entre estos dos vectors, y lo más cercano es este producto interno, uno, es que hay más la probabilidad entre los topics que él gusta y los topics del papel. Entonces, eso es el secreto de escribir los papas, según el favor del usuario. Así que recordemos, tienes que recordar los papas que el usuario gusta cuando él clica, él o él clica en el lado, y lo constructa con su vector personal, y cada vez que llega a un nuevo papel, lo hace el producto interno. Así que puedes hacer un papel para cada usuario. Tienes números sordidos entre 0 y 1. Entonces, usando esto, hemos constructado el sitio, que es muy similar a Archi, pero con un IV4, Inteligencia de Archi. Entonces, déjame mostrar cómo funciona, y puedes probar, es already working, since like three months ago, and you can try, can take a look how does it work for you, our experience that works. Okay, you take your own conclusion. So, let me tell you a little bit about the IRCAP site. When you first log in, when you first get there, you're gonna see something like that, to log in, you can register. When you register, you put your minimal things that we need for you to keep track of who you, of the paper you like. It is important that you put your real first name and your real last name, because the system, it will look in the archive basis, the database, and recognize which are your papers. So, after you do that, if you put the student one, but for instance here, you choose which categories you want to follow, and then you confirm which are your papers, because eventually you have someone, some author which is similar to you. Once you do all these, you put set changes, and you can enjoy the IRCAP papers, which are now sorted according to your personal preferences. Not only that, you can choose also data slides. For instance, you went to vacation for 10 days. When you come back, you have to read either 500 papers, or you put it here, and you wanna sort the 500 papers for you, and okay, it's gonna be less work, okay? The papers are sorted according to the inner product I have told you before, and the system keeps on learning as you click. And the algorithm is such that the more recent papers you click, or you have written, it waits a little bit more that paper. So, we can recognize which are the topics you like more recently than the one you like it before, but also keeps track of the one you like it before, but with a less weight. And at the end of the list, you will see that there are other papers, which it doesn't show you the abstract, but just the title. You can expand the abstract, and the algorithm keeps on learning when you expand an abstract, okay? Since a week ago, we have inaugurated a new option, which is a daily email. So, you can subscribe to the daily email, and just as you will see the archive daily email, you can receive the IRCAP daily email, which has the same number of papers of the categories you choose. You can choose which categories you follow, and they are sorted according to your preferences. And that's very comfortable, and it has a nice more visual on the mail to read it on the phone and the tablet, everything. It tells you the score, it has each paper, and you can click either here to go to archive, or either here to go to a PDF, okay? And, okay, we have made it a little cheat. So, you can receive the paper, like 30 to 40 minutes before receiving the official archive paper. That's an interesting feature also. Okay, and let me... Okay, and that's about IRCAP. I really hope you can try and test it. Now, let me tell you about the launching of the IRCAP. This happened in February 6th. We put the paper in the archive called IRCAP. So, the first impression was very nice. We reached 500 users worldwide in four days. Of course, it didn't grow up that fast later. Nowadays, we are in 860 users, of which more than the half never log in. That's the truth. So, we are like about half of that. And, okay, people are using it, and we have a growing rate of about 10 a week, or sometimes 15, sometimes five, okay? But about 10 a week. That means... I think that it is more important that the launching because it means that it is working and people are commenting to their friends and colleagues that you can try this because it works fine. I appreciate the more this is slowly growing after a long time we have launching it. Okay, let me tell you a little bit about some feedback we had after we launched. Okay, we have many very popular people talking about the paper. We have a field medal also talking about it. And for instance, here people of the community of quantum information said something that we didn't understand at the beginning, but it is very interesting. The quantum information community use sorting by voting since many years, which is side rate. So, from our community like AstroPH, our four these categories, it is truly not important how popular is a paper, but really how... If does it describe nature or not? We have seen so many papers with so many sites and which are wrong. We have been so much saving of time, not following popularity, right? But however, other disciplines, as quantum information, it is important popularity because at the end, these are disciplines which end in a technology innovation and that has to do with popularity. I mean, what people think about something, but not in our field, okay? And okay, also people talking about size wise, I'm gonna talk about these other sites now. Here there is one guy, very interesting guy who said he will not use it because doing such it will put it in another bubble. So, of course, it is a nice contradiction because if you don't use it to try something new, you are already in a bubble. But we also have so many other positives of people here from CERN who were... I mean, the nice thing about IRCIVE, once you use it, is that many times it puts you a paper at the beginning of the list and you say, this title has nothing to do with what I do. But when you read the abstract, you realize, oh, okay, here it is a Z-prime that I do use. So, it makes the job for you of reading the abstract and sorting it because sometimes the title is nobody, maybe correspond to do, but many times it has topics on which you are interested but it is not in the title. So, sometimes you get amazed at how does it work. So, let me compare very briefly IRCIVE to other similar platforms because, of course, we are not the first one trying to do this. You have CIR-RAID, RKB ScienceWire, okay? The first one, ScienceRAID. As I told you, here you have in quantum pH. You have that each paper about it like 52 times, the most popular. But if you go to HEP-PH, it has only one book, the most popular, meaning that, in fact, different disciplines, our discipline, HEP-PH, HEP-PH, with this do not really care about popularity, but other disciplines do care. And it is okay that they should care because they go, they are more linked to technology innovation, okay? So, it has some pro, like popularity, some control, which is the bias. Archivist, also, it is a very nice platform, but, again, for instance, they say here, there is a sorting of the paper and these articles are based on your preferences that you have to sign in to reorder the articles based on your preference so you can influence this table. So, it is something weird. I see you would be interested in influencing what others read, which, again, is not what we are looking for. I want to say that all these are very good, but they are different goals, different objectives. Signs and points, info. Also, this works very nice because this has, it's kind of a topic modeling, but the difference is that the topics are made by the users. So, users have the freedom to create topics and to say this paper has these topics. This is more similar to what we do and works very nice, sorry. But the con is that having the users making the topics, introduce a bias which could be potentially dangerous because users want to, let's say, they want to put their text. In the machine learning, you have a bias. So, here, again, the process is very complicated and sophisticated, that is all categories and it does more than just sorting. It has some more features which are very interesting. Our con is that, I think that conceptual topic is not good and it is biased by supervising learning. And the other thing, which is not the best, is that being sophisticated, I'm not sure that having a tool that helps you to read the archive paper should be sophisticated. At some point, you want to do physics, you want to do papers and you don't want to really get into an involved work of bibliography, you just want to do papers. So, it's like to have it simple and that's something we kept in mind, like less is more. All right, this Ben D. Fields is not very known, but it's a very nice web which has a very nice features. You put the button and you just show you the figures of the paper. That's very interesting. What I've said about seeing it, that uses a algorithm based on keywords and supervised machine learning based on keywords. So, this kind of algorithm cannot distinguish the topic. Let me go back on this because this is one of the most important enhancement of our archive, right? For instance, let's say keywords versus LDA. In our, when we model a happy age, we can recognize these four topics which all have the word QCD. But if you see the ordering of the other words, you realize that one corresponds to lattice QCD, one to precision QCD, one to effective theory and one to phase transition. So, LDA can distinguish, can disentangle different topics with the same keyword. And that is very, it is very powerful. And that's why they use it for Wikipedia and they used to use it for Google this LDA. Okay. So, this is about more or less of our archive. The very short one slide for the plans on near future. Okay. Well, this is where the plans. Now with the coronavirus, we don't have no more budget to do nothing. So, we want to do, but we have in mind how to do a method where you can really access many categories at the same time and put some, and you can define threshold and weight so you can give you the paper that you are interested and not 300 papers a day. Okay. We have an idea which is bibliography one. You provide to the archive site, the paper, and it will give you all the related papers in the corpus, but using the LDA algorithm to find the related paper. Let's say each paper has a vector, it will find all the paper whose vector has an inner product larger than others. And this is another idea which sounds very interesting, this. Let's say that in the archive, we provide you a little form where you can put a title and an abstract of the paper you think you may write or you are writing or you are trying to write. And the site will return you all the papers related to that idea, to the topics you put in that abstract, in that proportion. So that, I mean, it is a new way of finding bibliography. This is all to be done. Okay, and we also thought about going beyond LDA using other machine learning techniques to make it much better each personal taste. But of course, these are all complications having it as it works now, which is simple, it works very fine. Now, let me talk about what I have promised you before, okay? This is physics using latent data allocation. The first thing comes to your mind, surely is how you wanna do physics if this is something which was created for natural language processing. And in physics, you have a dictionary, right? You have events. So the idea here, it is that you have to create, you have to adapt a physical situation to a dictionary. How you do that, let me show you. So we have done this. We have considered new physics searches, LHC, using LDA. This can be done also in AstroPH or in other fields. So if you have many events, you can say that you have signal and a background which are two topics. And if you have more than one background, you may have more topics. So with this idea, we have applied to a real LHC scenario, which is for top searches, okay? The idea is that you can construct a corpus of documents using the events and then use LDA to extract the topics. And you will have something that without using Monte Carlo, it can label that there are two topics and that some events are more likely to be signal and other more likely to be background. Well, it's not defined what is signal background, just two topics. So in four tops, what is, what we have, we haven't published this paper yet, but we are using it, the 8080. You have four tops at LHC, it's a very difficult state because you have many particles. It is impossible to reconstruct. You have very bad Monte Carlo simulations. And the background have very large uncertainties. So this is an ideal field for LDA. So what we have done is the following. We consider each event as a document. And we have to adapt the dictionary to the particles in the event features. We have done this like this. Instead of, I mean, this is a word. B1, under code 100, means that the leading bottom jet has 100 of PT, or the being of 100 between 150. The second one is, so we are converting the document, I mean the event into a document after defining a dictionary. So if you have many, many, many events, you will be recognizing that these features of other particles, which are worth, begin to occur together. And the LDA will extract some topics, which means it is realizing that it's a different kind of event, according to how frequently occur together these new words we are defining. So what we have done, it is, we have simulated four tops and took the two main background, which are TTH and TTW. And we have run LDA and required to extract two topics or three topics. So as you see, we are here simulating the physics with the Monte Carlo, but then we will use this just to simulate. We then, we do not use Monte Carlo at all, but we use LDA to extract the topics from this simulated event. And what we find, it is very encouraging, because when we restrict to the events, which are signal, for instance here, we see that the two topics defined by the LDA really have different way to signal. Whereas in background, this difference is not that large. Okay, but it is, but it is very large. So the end of discussion plot, it is this, which is the ROCQ, and we see that the red and blue line here are very similar, meaning that the unsupervised machine learning search strategy is fairly equal to the full Monte Carlo cut-based search strategy. So the unsupervised machine learning is doing as well as, let's say a human-made based on Monte Carlo. And that's very interesting because the Monte Carlo may have bias, but the unsupervised machine learning does not have bias. It's really distinguishing two kinds of events. So similar examples, an application can be thought everywhere. Okay, the idea is to convert a physics scenario into a document, I mean, many events, every event in a document and then understand which is the best dictionary you have to use to run LDA. So the conclusions, well, I'm very sure. We have created this new platform IRCAP.org. I really hope you can use it and enjoy it. You're gonna be surprised of how much better you can do physics when you have the paper sorted for you. We have used topic model application through LDA. Okay, the main feature of this is that it is some bias because it is machine-defined topics. And we only use the information about you and not about the popularity of the paper. So it's important to say this will not put you in a bubble in a sense that everybody is talking about a given subject. Then I am trying to talk about this but I am not really interested in that. It has to do with what you, which are your preferences. And again, all the papers are there, you can read them all. Okay, it has many useful properties for the near future as I have talked. We will try to go beyond LDA and maybe one of the most important things that we are finding now is that has many application in physics and we should really begin thinking, machine learning and supervised for finding new physics because supervised machine learning it is really biased by the Monte Carlo which we know that has many, I mean, this is very important to Monte Carlo but also has many limitations. Okay, thank you very much for listening. I hope you were there because I was talking to a computer alone here. Yes, we were here. Thank you. It's Nicolas. Sorry guys, I'm back. I have some problems with the connection. Can you hear me? Yes. Okay, so thank you very much, Sikil for this super nice talk and I first want to apologize to you and to all the viewers because we had some, well, these problems with the technical problems between the connection in Zoom and YouTube but okay, now it's working. So, are there questions from the audience first, for instance? I have a question for Sikil. So, first of all, Sikil, super interesting all the system behind how to sort the archive because it's a huge work to check out the archive every day and I remember one of the bad stuff that has archive, I mean, not bad stuff, how you were saying in some part in your talk if somebody goes for a holiday for one week then if you want to recover which paper were sent to archive in the last week you cannot arrive because it's like you can check just at most five days or something like that in back. I mean, according to the daily sort in that. So, one of the questions that I was wondering is when you make all these analysis if you can include or have you tried to check how topics are evolving like with the, in terms of the time when the paper was released or the preprint was to release like if, because this is gonna could give you some information about the, not the popularity, but the, where the people is working nowadays. Yes, yes, yes, yes. We can do that, yes, we can do that. We haven't done it, okay, because next time but actually, well, Manuel and Federico who are here, we are some of the authors who have done all the work. They've been playing with that and it is very interesting. I mean, it came out very interesting things about the topics how sometimes, I don't know, supersymmetry goes up, then goes down. And yes, it is very interesting. You can really play a lot with this. But of course, it's not physics but it is to see the bibliography investigation which is interesting at some point. Yes, yes, this is a tool that because you became, you are converting the whole archive into an algebra of vectors. So you can do everything with that once you have done this. Yes, yes, especially this is what you are mentioning. Yeah, another, maybe a little bit technical question about the archive because once I remember I was playing just with the API of archive and they have a kind of a strong restriction about the number of requests that you can do per day or something like that per time. So, because if you have to fetch all the information for archive from time to time maybe you could get some blockage from the website itself. No, but we get the information only once and then we have all the database all the papers in our database. So, yeah, yeah, but if you want to go back in time I mean, if there are paper pointing to elder papers in archive you have to go to fetch and if you are making a kind of biografía search backwards. We have downloaded the last 10 years of our high papers using the API. The API allows you to go like, you know, by 200. I mean, you can put it to work and it begins downloading like 200 and 200 and we have downloaded the last 10 years of each one of the four categories. So, we have all that in our database. So, and every paper it is converted it is already translated into a vector of the categories. It is a paper and also in the cross categories. And Roberto, I think you can also notify the archive that you are doing this and explaining them and then just take out the flag like they allow. You just specify the details and then they just allow. Ah, okay. Okay, thank you. But we didn't need to do that. Yeah. We just download everything. I can pass you the Python script which you put it to run and download from like it takes like, I don't know, like four or five hours because it waits like a couple of seconds between every batch and it downloads the whole, the whole, the last 10 years. So. Okay. Okay. Okay. Okay. Okay. Okay. Okay. Okay. Okay. Okay. Okay. Okay. Okay. Okay. Okay. Okay. Go. Okay. Okay. All right. Okay. So great. Thank you so much. Thank you. Thank you very much. ollut pero eso es un ambiguo con el... no, es muy difícil de hacer, es decir, sí, hay un hombre de China que me complica, y yo digo, estoy muy triste sobre eso, porque sí, él era otro atlas autor con el mismo nombre, y fue muy difícil, sí. Pero lo que puedes hacer, puedes poner todo a saber, y luego, si quieres la máquina, el algoritmo para aprender para ti, puedes tomar un piso de 10 días, y comenzar a clicar en el papel que te gusta. Por ejemplo, tienes que poner tu nombre incorrectamente. No es el final del mundo, porque tienes que elegir un piso de 10 días, y comenzar a clicar en el piso que te gusta. Y después tienes que clicar 20 papas, el algoritmo ya empieza a funcionar muy bien. Entonces, eso puedes hacer si tienes un nombre que es muy igual a algún atlas autor o CMS autor. Gracias. Yo tengo una pregunta. Yo tengo una. ¿Es la razón por la que HEPX no fue incluido? Porque eso sería tremendamente útil. Sí, la razón es que hay muy pocos papas en HEPX a día, como 6 o 7 papas. Pero sí, incluso en el principio, podríamos incluirlo con el mismo modelo de HEPPH, y eso sería la razón por la que podríamos ponerla juntos con HEPPH. Porque es el mismo tema, pero la razón es que hay... Para usar solo uno para HEPX, HEPX no hace sentido, porque tienes 5 o 6 papas a día. Pero quizás incluirlo en tu lista de... HEPPH sería genial. Y también, y ahora que dices esto, HEPX tiene algo que tiene como 6 o 7 papas, y tienen como 100 papas a día. Así que, tal vez, pensamos en decir, ok, yo recuerdo HEPX, pero no quiero instrumentación, por ejemplo. Estas son las cosas que deben ser mejoradas, pero necesitan un tiempo de dedicación y proyectos. Gracias. Ok, entonces hay una pregunta de Tomás Bailud. Él pregunta, ¿cómo es la razón de los archivos sobre el aspecto de la prevención de información sobre la prevención de usuarios? La prevención de información de los usuarios. Exacto. Bueno, nada. Tenemos un vector de un usuario, tenemos un vector en el database, que es privado, que es muy privado actualmente. Déjame decir algo muy divertido. El día y la noche que fuimos en el archivo, tuvimos un ataque al database. En la misma noche, como 20 minutos después del papel, hemos protegido muy fuerte con algunos chicos que hacen este tipo de cosas. Ok, todo lo que tenemos sobre los usuarios, como puedes ver cuando lo logres, solo tenemos el nombre y la imagen, nada más. Y también puedes poner el nombre fake y el e-mail fake. Y lo que tenemos es un vector de preferencias. Eso es todo lo que tenemos, que es muy bien mantenido. Por supuesto, nada es impregnable en el internet, pero en el escenario del peor caso, alguien puede saber lo que has hecho. Eso es todo. Creo que el database es muy fuerte, creptado y lockado. No hay nada que preocupa. Y, por supuesto, no nos compartimos con nadie, nada, y puedes suscribirse al e-mail, y eso es, por supuesto, cuando hemos instalado este nuevo e-mail, un e-mail, pensamos en enviar un e-mail a everybody, pero no, no, no podemos hacer eso. Así que hemos dejado a la gente saber que es este e-mail, que es muy útil, y si estás interesado, haz clic. Y luego tienes un botón, cuando recibes el e-mail, a quien dice, y suscríbete, y te suscribas, y no haces e-mails. Así que eso es lo que hemos hecho. Así que, entonces, déjanos un comentario, nei, que nos ha hecho un comentario, flipo, y se pregunta cómo es posible que visiten el texto de los documentos, y no sólo el texto e abstracto. Creo, o sea, lo veríamos define Ш un empate, porque muchas veces si hablamos de algo en el artículo no lo pusiste en las abstractas, porque no tienes mucho espacio o de cosas, porque hemos desbloqueado de la data base de Arcaide, solo Tirel y Abstract. Estamos intentando y trabaja muy bien, pero seguramente estamos perdiendo algo sin incluir todo el texto. Es verdad. Sí, esto es improbable en ese sentido. Es genial incluirlo con un modo diferente, por supuesto, una vez en el Tirel, una vez en el Abstract, una vez en el texto. Pero puedes encontrar algo que no puedes encontrar en algún otro modo. Sí, sí, es correcto, sería un gran improvement. OK, preguntas, Tavi, te lo dices. Por lo tanto, Diego, el respeto, otra pregunta ahora, esta vez, sobre coronavirus. Es curioso de qué podemos aprender a aplicar esto a estos cuáles son, literalmente, 500 papas sobre el coronavirus? Por supuesto, sobre los topics, ¿no? O sea, tienes que entrenar un modelo. Sí, no puedes aplicar esto directamente, tienes que, primero, obtener los 500 papas de cualquier número de papas y aplicar un modelo. Y luego podrás distinguir que estos papas tienen topics, ¿ok? Y para ti, por supuesto, sería un buen camino, también, para mantener el truco de todo lo que está haciendo. Sí, podría funcionar. Si alguien está trabajando en eso, el número de papas de día, es enorme. Para mantener el truco, es muy útil, pero hace un tiempo, ¿no? Para usarlo. Para entrenar el modelo, para todo esto, requiere de los recursos humanos para la máquina. Sí, ¿ok? Hay otra pregunta de Diego. ¿Quieres preguntar si planos a lanzar parte del software usado en este archivo? Bueno, sí, podríamos lanzar algo, pero no podemos lanzar todo. Y lo que pasa es que si lanzamos todo, las personas sabrán cuáles son los topics. Y si saben cuáles son los topics, puedes escribir un abstracto para hacer que tu papel aparezca primero. En, o sea, para las personas que trabajan en LHC, hay un tema llamado LHC y, por ejemplo, en Happy Age. Hay algunos topics que son muy populares. Y si saben exactamente cómo este tema se forma, es el peligro de tener a las personas, ¿cómo decirlo? O sea, para intentar lanzar, como las personas intentan lanzar en Google, intentar lanzar aquí para hacer que tu papel aparezca primero. Así que es mejor que los topics no se conocen y no se conocen los números de los topics para evitar cualquier tipo de singularidad. Pero, sí, todos los libros son open. Y es esencialmente lo que tenemos. O sea, si llegas a aprender el library de Jenssen, es esencialmente para aplicar eso a los abstractos. También con la subtencia que son las palabras que quieres incluir en los topics. Estamos muy contentos de escuchar eso con Diego. Así que, Diego, vamos a escribirlo. Podemos compartirlo como mucho como podemos. Así que, si quieres hacer esto para el coronavirus, es genial. Muy bien. ¿Alguna otra pregunta? Tengo otra. Dos preguntas, si puedo hacer dos, por ejemplo. Entonces, una de las... O sea, vamos a comenzar con una pequeña pregunta. Por ejemplo, ¿puedes decir que hay algunos estudiantes de PSG o personas que tal vez tienen 1 o 2 libros en archivo? Es un modo... Porque, tal vez, ellos no tienen una estatística para tener una buena selección de libros. ¿Cómo puedes planizar tener una excelente acción de libros, para los demás o... Sí. Tenemos que acumular más libros para que... No, no, no. para estas personas, es para abrir las líneas de 10 días de data, y tendrás ahí, no sé, 500 papas o 400 papas, y mantendrás y justamente clic en los papas, no sé, justamente clic en los papas donde habrás sido interesante leer o tener que hacer con tu tema. Entonces, después de clic en los 20 papas, el sistema empieza a funcionar muy bien. Y luego, cada día, tendrás una batalla de asorto, incluso si tienes... Así que, el sistema está enviado por dos lados. Por una lado, los papas que te han rechazado, y por el otro lado, los papas que te han rechazado, te clicas. Entonces, si te han rechazado a muchos papas, tienes que, digamos, alcanzar el otro lado. Y clic en muchos papas que te gustan, y eso es lo que funciona. Ok, entonces, y la otra pregunta, que tal vez es la más trica parte, porque, por supuesto, no es, no sé, no es parte de la red de archive, pero a lo largo de lo que ocurre con las personas cuando te metes un papel para el archive, incluso si te haces toda la biografía, la investigación, y así y así, para hacer la más representativa de la biografía de tu papel, y todo el tiempo, hay algunos papas que te estaban perdiendo para ser excítidos, y luego las personas escribieron, por favor, con mis papas, y así y así. Entonces, ¿es posible, o en el futuro, o tal como no es solo una idea, ¿tendrás que pensar si es posible? De manera como a dar, justo, escribir tu papel, y la biografía de tu papel, para recomendarle un extra papel, para completar la biografía de tu papel, de la gente que se asustó a la gente porque, por lo que es usual, eso ocurre en algunas topics que todas las personas asustaron solo este muy viejo libro de la historia, pero son completamente de edición y se han convertido en super popular en el campo, incluso aunque están ansiados por la misma relación, porque 30 años atrás voy a tener una biografía tan desvigida de una persona que es just going to be some meat. Yes. Yes. Thank you.