this post was submitted on 06 May 2024

1 points (100.0% liked)

Forum Libre

841 readers

58 users here now

Communautés principales de l'instance

Nous rejoindre sur Matrix: https://matrix.to/#/#jlai.lu:matrix.org

Une communauté pour discuter de tout et de rien:

Fil quotidien "comment allez-vous?"
Contenu détendu
Questions à la communauté
Aujourd'hui j'ai appris
Anecdotes personnelles
Bonnes nouvelles
Projets locaux / associatifs
Inspiration
BD / illustrations
Etc.

Les mots d'ordre sont : respect et bienveillance.

Les discussions politiques sont déconseillées, et ont davantage leur place sur

Les règles de l'instance sont bien entendu d'application.

Fils hebdomadaires"

Lundi Méta
Mardi Créatif
Mercredi CinéSéries
Jeudi Tech
Vendredi Livres
Samedi DJ/Musique
Dimanche Jeux Videos

"Demandez-moi n'importe quoi"

Communautés détendues

Communautés liées:

Loisirs:

Vie Pratique:

Communautés d'actualité

Société:

Pays:

Communauté de secours:

[email protected]

founded 1 year ago

MODERATORS

[email protected]

Je bosse au 4/5 sur les modèles de langage (LLM, parfois appelées IAs) et à 2/5 sur la robotique open hardware AMA (jlai.lu)

submitted 9 months ago by [email protected] to c/[email protected]

113 comments fedilink hide all child comments

Hello!

bon slrpnk.net a l'air d'être dans les choux alors je lance ce post avec mon compte de secours jlai.lu

Alors je lance cet AMA car ça fait un moment que je bouffe du machine learning à temps plein et pour suivre les news technique, je passe le plus clair de mon temps à lire de l'anglais. Et je trouve qu'en français, ben y a pas grand chose. C'est presque uniquement du discours dystopique mal informé.

Rien sur la recherche sur l'alignement, rien sur les modèles open source (condition sine qua non pour que ça se passe bien), rien sur les évolutions sociales positives que ça peut amener.

On parle juste de OpenAI, Google et Musk qui ne sont que quelques arbres malades d'une forêt bien plus grande.

Perso ça va faire 5 ans que je fais du deep learning professionnellement. J'ai travaillé pour Skymind, qui développait deeplearning4j. Ça vous dira rien, c'est un projet plus ou moins mort, mais c'était une tentative de faire un framework alternatif avant que tout le monde passe à pytorch. Puis je suis devenu principalement utilisateur des gros modèles entraînés par d'autres.

J'ai travaillé sur les modèles de vision au départ et maintenant presque exclusivement sur des modèles de langage. J'ai réussi à passer au 4/5e l'année dernière pour me consacrer aussi avec le fablab local à de la robotique open hardware (où bien sur j'utilise des modèles de deep learning pour la vision).

Ça fait plus de 20 ans que j'ai réalisé que l'IA a le potentiel de changer le monde pour le mieux, c'est pas par hasard que j'ai essayé de m'orienter le plus possible là dedans et ça me fait mal au cœur de voir tant de gens croire que notre seul but est d'aider Sam Altman à se faire quelques milliards de plus, qui ne voient pas les capacités de transformation de cette tech.

J'ai déjà donné quelques avis en anglais pour éviter le "doomism" dans des romans de SF (https://slrpnk.net/post/6100538) mais le faire dans ma langue natale ferait du bien!

Et, si, le titre est correct, ça me fait 6/5 de boulot, mais quand on aime on ne compte pas!

Voila, je préférerais qu'on reste sur ces thèmes mais AMA anyway!

(page 3) 14 comments

sorted by: hot top controversial new old

[–] [email protected] 0 points 9 months ago (5 children)

Qu’est-ce qui peut changer le monde avec l’IA ?

Je ne peux pas m’empêcher de faire le parallèle avec l’informatique qui, bien qu’ayant changé le monde d’une certaine façon, nous fait travailler plus pour gagner moins (et je dis ça en tant que dev…)

load more comments (5 replies)

[–] [email protected] 0 points 9 months ago (4 children)

J'ai déjà donné quelques avis en anglais pour éviter le "doomism" dans des romans de SF

T'en écris toi même ? Je suis curieux de ce que peuvent donner les LLM en littérature mais j'ai l'impression qu'il faut des prompts bien pensés et écrits pour avoir de bons résultats. Moi en jouant un petit peu j'ai pas eu des trucs très convaincants mais je suis passé sur un stream de MonsieurPhi où il donnait des prompts très longues avec des exemples de texte pour générer des microfictions et ça marchait plutôt bien. Bref, qu'est ce que tu penses des LLMs pour une utilisation "artistique", et est-ce que t'as des exemples de résultats qui t'ont impressionné dans ce domaine ?

load more comments (4 replies)

[–] [email protected] 0 points 9 months ago (3 children)

Coucou merci pour l'AMA !

Quelle est la réalité du problème d'AI imbreeding que certains relèvent ? Si j'ai bien compris il y a un risque que les modèles (de langage ou de génération d'image) apprennent sur du contenu généré par IA, ce qui entraînerait à des résultats de plus en plus mauvais ?

Je suppose que ma question est plutôt quelles sont les mesures prises dans le milieu pour s'assurer une sélection de sources de qualité, ou bien quel est le processus qui permet de sélectionner les résultats pour d'entraîner l'IA ?

Et en plus léger, qu'elle est la première fois que tu as entendu parler d'IA ?

load more comments (3 replies)

[–] [email protected] 0 points 9 months ago (1 children)

Et forcément dés que je lance ça avec mon compte de secours, slrpnk.net remarche! Bon, je continue avec mon compte jlai.lu mais si vous passez sur ce fil après la fin du AMA mieux vaut me pinger en répondant à ce message.

[–] [email protected] 0 points 9 months ago* (last edited 9 months ago)

C'est comme quand un programme bugge et qu'il remarche dès que t'ouvres le gestionnaire de tâches pour le tuer 😏

[–] [email protected] 0 points 9 months ago (1 children)

C'est quoi pour toi le moment de Bascule ?

Quand j'étais thésard en physique, et ça commence à dater, on avait ce vieux professeur, qui aimait troller les gens qui utilisaient des likelihood en leurs demandant pourquoi pas un réseau de neurone, c'est dire que pas mal de concept ne sont pas neufs. Bref de l'apprentissage automatique que ce soit pour taggé des particules ou des supernova ça se faisait déjà de mon temps.

Puis, google deep dream avec déjà fait pas mal le buzz avec de la génération d'image il y a genre 10 ans, et pourtant, ça avait pas pris.

Et là depuis 18 mois, on voit de l'AI partout, à toute les sauces, pour le meilleur et le pire. Qu'est-ce qui a crée cette bascule/rupture

[–] [email protected] 0 points 9 months ago (1 children)

Oh oui, les réseaux de neurone ça date au moins des années 50 et certains outils mathématiques sont encore plus anciens! Dans les années 90-2000 on traversait le deuxième hiver de l'IA (tiens donc encore une page qui n'a pas été traduite en français!) et seuls quelques fervents zélotes tels que Hinton ou Le Cun prêchaient encore le perceptron multi-couches qui est un vieil algo! C'est plus leur "foi" que leurs innovations qui ont amené la vague actuelle.

Il y a un point de bascule très net en 2012 quand AlexNet emporte la compétition ImageNet, une compétition de classification d'images ("Identifie l'objet dans l'image parmi 1000 catégories: banane, chien, humain, voiture, etc..."). L'architecture n'était pas nouvelle, mais de petites améliorations ont été amenées et surtout, elle a été porté en CUDA et peut donc tourner très vite sur des GPUs récents.

D'un coté les algos sont devenus un peu plus efficaces, de l'autre le hardware est devenu plus performant. En 2012 ça s'est croisé et il est devenu plus efficace d'entraîner des réseaux "boite noire" que des algos spécialisés.

Alors c'est peut être plus tôt que tu ne le penses, mais c'est la bascule du point de vue des devs, et à partir de ce moment là on a commencé à mettre du réseau de neurones partout.

Pour le grand public, la découverte a été via la génération de texte. Il y a 2 points je pense: d'abord GPT-2, premier à sortir des textes étonnamment cohérents. Puis ChatGPT, qui a permis à tout le monde de réaliser que c'était réel, utile, et que certaines composantes de l’intelligence étaient là.

Puis, google deep dream avec déjà fait pas mal le buzz avec de la génération d’image il y a genre 10 ans, et pourtant, ça avait pas pris.

Deep dream a été une étape vers les générateurs d'image qu'on a aujourd'hui. Deep dream aujourd'hui ressemble presque à un hack d'un classifieur d'images, mais ça n'a pas pris parce que la qualité était très mauvaise. Elle a doucement augmenté petit à petit. Il y a eu deux sauts:

Les premiers GANs qui ont tout d'un coup produit des images d'un réalisme bluffant (qui aujourd'hui nous blase...)
Les modèles de diffusion, qui sont ce que tout le monde utilise aujourd'hui. Je crois, mais c'est moins mon domaine, que leur intérêt est de pouvoir se connecter à des modèles de langage et de pouvoir exprimer/comprendre un panel beaucoup plus large d'objets.

load more comments (1 replies)

[–] [email protected] 0 points 9 months ago (1 children)

Tu parles des modèles open source, quels sont les plus importants pour le moment? Y a-t-il une grande tendance à gérer ces modèles sous licences open source / libres, ou à l'inverse les modèles les plus performants sont-ils la propriété de société privées?

[–] [email protected] 0 points 9 months ago

Pour l'instant GPT-4, modèle fermé possédé par OpenAI est considéré comme le meilleur modèle avec la série Claude d'Anthropic (fermés aussi) qui le dépasse sur certaines choses.

Mais ça sent la fin de règne. Mistral et Meta (pourtant deux boites privées) ont sorti des modèles libres qui vient disputer leur turf.

En Open source, ça change toutes les semaines. En ce moment, Llama-3 est le modèle libre (certains considèrent sa licence trop restrictive pour être considérée libre, mais perso je considère que ça va) qui a les meilleures performances, y a un mois c'était la série de Mistral. La série des Command R pourrait être les prochains à monter.

Pour suivre cette course hippique et épique, le meilleur classement reste sûrement l'arène LMSYS où des gens évaluent les modèles en aveugle.

Il faut garder à l'esprit qu'il y a un aspect qui "handicape" les modèles libres: ils tentent de rester petits. Ils bénéficient de la communauté open source si beaucoup de monde peut les faire tourner. Un modèle à 7 milliards de paramètres (la taille la plus populaire) ou à 70 milliards (la taille considérée "max" pour la commu) va avoir du mal à concurrencer un modèle comme GPT-4 qu'on estime avoir 1700 milliards de paramètres.

En intelligence par paramètre dans le modèle, l'open source gagne de loi.

[–] [email protected] 0 points 9 months ago (1 children)

Quelles sont pour toi les trois idées fausses les plus dommageables que les gens ont au sujets de LLMs / IAs?

[–] [email protected] 0 points 9 months ago

Alors...

Que ces modèles sont contrôlés par des grosses boites et que c'est inévitable. De tous les scénarios possibles, on est dans une des meilleurs timelines vis à vis de ça et je pense qu'on le doit beaucoup à la communauté open source: même quand les modèles sont fermés, les architectures sont connues, ouvertes, libres de droit, les implémentations standard le sont sur des frameworks libres, tout ça était très, très loin d'être acquis. Et les modèles ouverts sont extrêmement compétitifs aujourd'hui. C'est simple, malgré les milliards injectés dans le domaine, y a que deux boites et demi qui sont encore dans la course: OpenAI, Anthropic et à moitié Google.
Qu'on a besoin de la puissance de mille soleils pour faire tourner ces modèles. Beaucoup de gens ont l'air de confondre l'énergie utilisée pour entraîner ces modèles, qui est à dépenser une fois, et l'énergie utilisée pour les faire tourner, qui est équivalente à faire tourner un bon jeu 3D sur un PC moyenne gamme (ça fait tourner le GPU). Et de nombreux fabricants sont en train de sortir des puces spécialisées pour améliorer grandement les rendements. L'aspect énergétique est vraiment négligeable.
Ce point là est moins dommageable mais trouble souvent les conversations: Que ce qui était vrai l'année dernière l'est encore aujourd'hui. Chaque semaine amène son lot d'évolutions parfois fondamentales. Je bosse depuis 20 ans dans la tech, j'ai suivi pendant mes étude le dotcom burst et pourtant j'ai jamais vu une tech évoluer si vite.

[–] [email protected] 0 points 9 months ago (1 children)

Quelles sont pour toi les meilleurs ressources pour quelqu'un qui n'y connait rien en LLM et voudrait commencer à comprendre comment ça fonctionne?

[–] [email protected] 0 points 9 months ago (1 children)

En Français j'ai pas grand chose hélas! Mais certains ici auront surement des idées.

En anglais, pour la théorie, le channel youtube (bleh!) 3blue1brown a fait une série qui a l'air bien sur le deep learning. Commencez par "But what is a neural network?".

Pour la pratique, j'avais suivi la première série de cours fastai (des vidéos gratuites) pour me remettre à niveau il y a quelques années quand je suis arrivé à Skymind. Je n'ai pas regardé leurs séries récentes mais je suppose qu'ils ont mis leur contenu à jour. C'était le mix parfait pour moi qui connaissait la théorie mais pas les frameworks rendant la chose plus aisée.

[–] [email protected] 0 points 9 months ago

Merci beaucoup!

load more comments