Set of ideas.
1) Существует непреодолимая разница между обучением исключительно через готовые тексты и тем, как учится человек.
Ребенок стремится с младых ногтей убедить маму покормить его, купить игрушку, включить «любимый мультик». Sparse reward может быть получен лишь после длительных диалогов. Вовсе не значит, что текущий подход придется отметать совсем. Вероятнее, что двинутся по пути pretrained моделей, которые уже после дотюнят на специфических sparse reward language задачах.
Как сконструировать подобные задачи - уже большой вопрос.
Для себя подход обозначил, как delayed prediction - отдаленные предсказания будущего
2) Конечно, придется избавить от стохастических мини-батчей и делать dynamic evaluation (последовательные 1-сегментные батчи, мб еще in context learning на метаградиентах)
(картинка), как бы дорого это не было
3) Self-Play learning, как в случае модели Sparrow, но с более общими objectives (сеть просит сама себя решить какую-то задачу, например)
4) Работа с латентным пространством (world model) в парадигме RSSM, DreamV3 hidden state на базе трансформера (подобная статья уже есть)
5) Что-то из серии hippocampus-like памяти, которая запоминает последовательности input -> prediction и
input3 -> input2 -> input 1 (reverse replay), чтобы делать episodic replay и взаимодействовать с латентным пространством
6) Мультимодальное обучение на YouTube с субтитрами.
First draft подобной модели
https://arxiv.org/abs/2108.10904
7) curiosity objective function U
Я думаю, что обучение на видео даст огромный буст в ряде бенчмарков (например в геометрических)
Недавнюю статью Adeptive Agent от DeepMind посмотрел (ты ее кинул в более позднем сообщении и тегнул меня). Да, большой прорыв, поскольку речь уже о true self-supervised reinforcement learning для трансформера в отличии от Gato, но все еще остается ограниченная структура action пространства без NLP. DeepMind потом могут сразу стартовать с PLM в следующих версиях (уже делали подобным образом в одной статье, при чем делали loss, заставлявший RL-репрезентации ближе к language-репрезентациям, за счет чего получили gain в обучении, реальный transfer learning). Тем более, я помню, что они уже делали mix language и RL на базе LSTM - моделей, которые учились через подражание человеку.
Finally, хороший обзор о трансформерах в RL:
https://arxiv.org/abs/2301.03044