Nebaz.ru
vk.com/sneuro Количество участников: 7848
Название группы
Neurophilosophy
Страна
Россия
Город
Малоярославец
Тип сообщества
Публичная страница
Тип деятельности
Образовательное учреждение
Записи сообщества:
Neurophilosophy
Neurophilosophy 21 нояб. 2023 в 01:09
Давно такого философского бреда не слушал. Речь про тейки Артема Беседина. Даже не знаю есть ли смысл с ним когда-либо выходить на дебаты, потому что он не сможет понять мои аргументы. У него нет достаточной культуры абстрактного мышления.
https://youtu.be/6R81RbYWdRs?si=wme7MU-TYhbhKhab
Neurophilosophy
Neurophilosophy 4 мая 2023 в 19:36
https://youtu.be/I2ucw7quZWE
Новые разговоры для новых logical fallacies.
Лайк хоть поставьте.
Neurophilosophy
Neurophilosophy 12 марта 2023 в 22:22
Set of ideas.
1) Существует непреодолимая разница между обучением исключительно через готовые тексты и тем, как учится человек.
Ребенок стремится с младых ногтей убедить маму покормить его, купить игрушку, включить «любимый мультик». Sparse reward может быть получен лишь после длительных диалогов. Вовсе не значит, что текущий подход придется отметать совсем. Вероятнее, что двинутся по пути pretrained моделей, которые уже после дотюнят на специфических sparse reward language задачах.
Как сконструировать подобные задачи - уже большой вопрос.
Для себя подход обозначил, как delayed prediction - отдаленные предсказания будущего
2) Конечно, придется избавить от стохастических мини-батчей и делать dynamic evaluation (последовательные 1-сегментные батчи, мб еще in context learning на метаградиентах)
(картинка), как бы дорого это не было
3) Self-Play learning, как в случае модели Sparrow, но с более общими objectives (сеть просит сама себя решить какую-то задачу, например)
4) Работа с латентным пространством (world model) в парадигме RSSM, DreamV3 hidden state на базе трансформера (подобная статья уже есть)
5) Что-то из серии hippocampus-like памяти, которая запоминает последовательности input -> prediction и
input3 -> input2 -> input 1 (reverse replay), чтобы делать episodic replay и взаимодействовать с латентным пространством
6) Мультимодальное обучение на YouTube с субтитрами.
First draft подобной модели
https://arxiv.org/abs/2108.10904
7) curiosity objective function U
Я думаю, что обучение на видео даст огромный буст в ряде бенчмарков (например в геометрических)

Недавнюю статью Adeptive Agent от DeepMind посмотрел (ты ее кинул в более позднем сообщении и тегнул меня). Да, большой прорыв, поскольку речь уже о true self-supervised reinforcement learning для трансформера в отличии от Gato, но все еще остается ограниченная структура action пространства без NLP. DeepMind потом могут сразу стартовать с PLM в следующих версиях (уже делали подобным образом в одной статье, при чем делали loss, заставлявший RL-репрезентации ближе к language-репрезентациям, за счет чего получили gain в обучении, реальный transfer learning). Тем более, я помню, что они уже делали mix language и RL на базе LSTM - моделей, которые учились через подражание человеку.
Finally, хороший обзор о трансформерах в RL:
https://arxiv.org/abs/2301.03044
Neurophilosophy
Neurophilosophy 5 марта 2023 в 19:29
Давайте выписывать из людей всех, кто «нагло» сморозит чушь о том, что Солнце вращается вокруг Земли. Шерлок Холмс вышел из чата.
Neurophilosophy
Neurophilosophy 5 марта 2023 в 19:19
Люди secretly ChatGPT