À partir de cette année, @LeCnam propose un certificat de spécialisation en intelligence artificielle. Il s'agit d'une formation en cours du soir permettant de se professionnaliser en IA « moderne », notamment en machine/deep learning.
L'objectif est former des professionnel⋅les qui souhaitent manipuler des données et construire des modèles décisionnels.
La formation démarre avec des prérequis niveau bac+3 en math/info et termine sur des cours niveau M2 (bac+5).
Il s'agit de formation continue, le certificat est composé de 5 cours :
1⃣ RCP208 : apprentissage non-supervisé pour la reconnaissance de formes (clustering, réduction de dimension, gestion des données manquantes, cartes auto-organisatrices).
Ça me rend bien triste mais ce fil est un exemple de très mauvaise médiation scientifique. Sous prétexte de vouloir défendre le principe de modèle prédictif basé sur des corrélations, on finit par promouvoir de la très mauvaise science.
L'argumentaire tourne autour d'un article (en preprint) qui construit un modèle (de réseaux de neurones) pour prédire la sexualité à partir d'une photo.
Le preprint a été unanimement décrié par la communauté scientifique en ML quand il est sorti.
Cet article décrit bien les problèmes du papier : le modèle apprend des corrélations qui n'ont rien à voir avec les traits du visage. medium.com/@blaisea/do-al…
Sauf que dans le fil du @ChatSceptique, ça se transforme en affirmation que ça marche.
(sorry to my english readers, this thread is about French research policies)
Vu que ça cause de ça aujourd'hui, un petit fil sur mon point de vue de jeune MCF recruté sur un poste IA.
Sur Opérations Postes, je compte 42 postes de MCF ouverts en info dont 19 en IA/data. 1/(n=?)
Mettons tout de suite les pieds dans le plat : j'ai un profil "deep learning" appliqué à des domaines en vogue (images). C'est vraisemblablement ce qui m'a permis d'être recruté rapidement et je sais que j'ai de la chance d'être arrivé au bon moment sur le bon sujet.
2/n
Il y a un engouement semi-justifié concernant l'apprentissage automatique. Justifié parce le DL rend possible l'automatisation de certaines tâches fastidieuses et que c'est intéressant industriellement.
Mais on exagère beaucoup le potentiel de ces technos. 3/n
Je réfléchis à voix haute : quel sens est-ce que cela a de demander aux élèves ingénieurs de présenter leur école dans leurs prépas d'origine ? Les prépas les mieux représentées recevront plus de publicité, est-ce que ça n'encourage la reproduction du recrutement ? 1/?
Est-ce que ça ne serait pas plus enrichissant pour les étudiants de présenter leur école là où elle est moins connue ? Tout le monde connaît les Mines à Ginette ou Henri IV. Mais dans les DUT ? Les licences ? Combien d'étudiants savent que l'admission sur titres existe ? 2/?
Et pour les écoles qui se targuent de vouloir diversifier leur recrutement, est-ce que ce n'est pas l'occasion de s'adresser aux élèves des « petites » prépa pour leur dire « Oui, c'est possible, on veut de vous » plutôt que ne parler toujours aux mêmes. 3/?
I have been reviewing a few papers in the last month and I have a (minor) rant. I hate when authors say "We will open source the code/release the dataset on acceptance".
I hate it for 3 reasons. ⤵️
1⃣ This means that I cannot review your code. Having the code when reviewing would crush my skepticism about your results I have any. This is especially annoying when I am not sure that your model is properly evaluated (e.g. you report validation metrics instead of test).
2⃣I don't doubt that you wish to release the code upon acceptance yet, in my experience, most of the time you don't. 🤷♂️ Because the paper is going to be published anyway, you do not have any strong incentive do clean and release the code anymore. That's why I ask beforehand.
After a long wait, I am glad to say that our review of deep nets for hyperspectral image classification has been accepted for publication! It goes with a PyTorch based toolbox that has been openly available for about a year : github.com/nshaud/DeepHyp…
This manuscript is important for me since it deals (mostly) with us failing to reproduce many results from the state of the art. Why? I have four reasons: 1. Wrong methodology (test set leakage) 2. Unclear network architecture 3. No answer from authors 4. Failure from our side
Reason #1 was a hot topic on which we had lots of debate with reviewers. We found that nearly all papers in RS dealing with hyperspectral data use random sampling on which networks definitely overfit. When tested on disjoint train/test set, accuracy decreases drastically...