Эра трансформеров, отличие человека от LLM и будущее AI… — Transcript

Обсуждение трансформеров, отличий человека и LLM, эволюции ИИ и будущего искусственного интеллекта с Михаилом Бурцевым.

Key Takeaways

Трансформеры стали фундаментом современных больших языковых моделей и революционизировали обработку естественного языка.
Внимание (attention) — ключевой механизм, который позволил трансформерам превзойти предыдущие архитектуры.
Большие языковые модели не обладают субъектностью и целями, их поведение формируется через посттренинг.
Эволюция ИИ прошла через разные этапы, но сейчас доминирует подход, основанный на нейросетях и трансформерах.
Историческая связь между изобретением трансформатора Фарадеем и современными трансформерами в ИИ символична и вдохновляюща.

Summary

Рассказ о трансформерах как ключевой технологии в современных больших языковых моделях (LLM).
Объяснение концепции внимания (attention) и её роли в архитектуре трансформеров.
История эволюции искусственного интеллекта и нейросетей, включая смену парадигм в 2014-2015 годах.
Сравнение двух подходов к созданию ИИ: снизу вверх (биологический) и сверху вниз (символический).
Обсуждение отсутствия субъектности и целей у больших языковых моделей в отличие от человека.
Рассказ о научной деятельности Михаила Бурцева и его вкладе в развитие ИИ, включая рекуррентные трансформеры.
Связь исторического трансформатора Фарадея с современными трансформерами в ИИ.
Проблемы и вызовы современных моделей, включая ограничение контекста и методы их решения.
Обзор применения transfer learning и его значение для обработки естественного языка.
Призыв к подписке и взаимодействию с аудиторией для поддержки канала ПостНаука.

Chapters

Full Transcript — Download SRT & Markdown

Speaker A

Создали ли мы искусственный интеллект? У нас есть субъектность и цели, а у LM никаких целей, никакой субъектности нет.

Speaker A

Последняя буква в GPT — это, собственно, T, есть трансформер. Мы ведём репортаж об истории трансформеров из самой колыбели трансформеров, но ещё тех.

Speaker A

Фундаментально он работает на максимально больших датасетах. Давайте соберём всё, что мы можем собрать. Когда у нас есть такая модель, которая хорошо предсказывает, мы теперь можем вносить мутации в компьютере или физике.

Speaker A

Пишите нам, мы соединим вас с Мишей. Если у вас есть свободные 10 млн, помогите растянуть контекст.

Speaker A

Растянуть контекст. Добрый день, друзья. У микрофона Ивор Максутов, основатель постнауки, и значит, вы слышите подкаст «Мыслить как учёный», в котором я приглашаю людей, которые силой своей мысли меняют мир вокруг нас. Сегодня у меня в гостях давний автор постнауки, который записал,

Speaker A

наверное, несколько десятков лекций у нас по теме искусственного интеллекта, машинного обучения, нейросетей и вообще является одним из наиболее заметных, наверное, популяризаторов этой темы, который начал это делать довольно давно.

Speaker A

Это Михаил Бурцев, кандидат физико-математических наук, эксперт в области искусственного интеллекта, который сейчас работает в Лонгском институте математических наук, также известный как LIMS, и создаёт много инновационных решений. И одно из них — это рекуррентный трансформер, который он сделал вместе с коллегами,

Speaker A

который и, собственно, является поводом нам поговорить про то, как устроен современный искусственный интеллект и какие тектонические издвиги в этом исследовании и в создании того, чем мы сегодня пользуемся и называем искусственным интеллектом происходили. Собственно, мы будем

Speaker A

разговаривать с ним про трансформеры. Мы поговорили с ним про трансформеры. Вы послушайте эту запись. Мы поговорили о том, какое значение понятие attention, понятие внимания имеет для трансформера.

Speaker A

На трансформере построены все современные лэмки, которыми мы пользуемся, большие лингвистические модели. В слове GPT или там в понятии GPT последний — это и есть тот самый трансформер. Вот как создавался трансформер, какое значение имеет статья 2017 года «Attention is all you need». Внимание — это всё, что нам нужно. Такая перефразировка битловской песни,

Speaker A

какой она создала механизм внимания, как она изменила, трансформировала предыдущие подходы, а также поговорили о том, как искусственный интеллект вообще менялся как понятие, как он эволюционировал,

Speaker A

какие были у него подходы и как на самом деле на контенте постнауки, которая за 14 лет своего существования к текущему моменту и как на лекциях Миши можно проследить эту эволюцию. Надеюсь, вам понравится этот выпуск. Если так, не

Speaker A

забудьте поставить лайк и написать в комментариях, что вы об этом думаете. Это помогает алгоритмам YouTube показывать наши ролики большей аудитории. И несмотря на то, что нас смотрит всё больше и больше с каждым днём, ваша помощь наших постоянных

Speaker A

читателей и зрителей нам очень важна. И мы заметили, что только треть зрителей подкаста подписаны на наш канал в YouTube.

Speaker A

Не забудьте подписаться, чтобы не пропускать новые выпуски, анонсы наших спецпроектов и другого интересного контента. Где бы вы нас ни слушали, на какой платформе вы нас не слушаете, ваши оценки и ваша подписка для нас очень важна. Мы понимаем, как мы

Speaker A

развиваемся, как мы растём. Приятного просмотра. Михаил, привет. Привет, Ивар. Михаил Бурцев, кандидат физико-математических наук и Арнолд Иландау AI Fellow в London Institute for Mathematical Sciences. Учился в МФТИ и защитил PhD в институте прикладной математики имени Келдыша. Работал в

Speaker A

научных институтах в России и был визитинг-рэсёрчером в Кембридже. В Московском физико-техническом институте он основал лабораторию нейронных систем и глубокого обучения и создал Павлов —

Speaker A

open source-платформу для диалогового ИИ. Позже он был научным директором института E. Eir. Его недавние работы выходили на NeurIPS, ICML и в журнале Nature. По данным Google Scholar, его работы процитированы более 3 400 раз. Ты снова из Института математических наук в Лондоне, я так

Speaker A

понимаю, но в этот раз из аудитории. Да, здесь проходят семинары. Ну, вообще эта комната с большой историей.

Speaker A

Здесь жили все директора Royal Institution, включая Фарадея, Брага и других знаменитых учёных. И их дух здесь витает. Фарадей с Макслом здесь обсуждали теорию электромагнетизма. Так что мы заряжены научной атмосферой.

Speaker A

Это та же комната, что была в первом выпуске подкаста, который мы записывали с тобой полтора года назад. Только вид сбоку. Я узнаю люстру. Да, так и есть.

Speaker A

Главное, чтобы нам не помешал отбойный молоток в этот раз. Нет, ни в коем мере.

Speaker A

Да, у нас с тобой есть несколько тем, которые мы обсудили до начала, о которых хотелось бы поговорить. Главная из них — это трансформер, который, собственно, последняя буква в GPT — это, собственно, T и есть трансформер. Не путать их с

Speaker A

трансформерами — машинами, превращающимися в роботов инопланетян. В общем, ну, ещё трансформатор. Кстати, примечательный факт, раз уж мы заговорили про историю этого здания, если спуститься в подвал на два этажа вниз, то здесь есть экспонат, он называется ring-трансформер.

Speaker A

То есть это на самом деле первый трансформер, который это, ну, трансформатор, который Фарадей намотал своими руками. И он здесь, 1831 год, он хранится в витрине, и можно пойти посмотреть его, сфотографироваться с ним. Так что можно сказать, что мы ведём

Speaker A

репортаж об истории трансформеров из самой, так сказать, колыбели трансформеров, но ещё тех, а теперь новые трансформеры. Ты же знаешь вот эту фразу, что ИИ — это новое электричество.

Speaker A

И мне кажется, здесь у нас такая интересная связь времён. То есть у нас вот было электричество и был трансформер, трансформатор, который был сделан в этом здании, когда Фарадей экспериментировал в своей лаборатории в подвале. А сейчас у нас есть

Speaker A

трансформер. Это как сердце языка, больших языковых моделей LLM и новое электричество. Так что всё очень даже хорошо совпадает.

Speaker A

Круг замкнулся почти. Значит, у нас есть тема про трансформеры, откуда они появились, с этим связано внимание и куда они сегодня пришли и в некотором смысле какой их ждёт будущее и что ты делаешь для того, чтобы

Speaker A

это будущее там приблизить. Начать я хотел бы с того, как, собственно, искусственные интеллекты, нейросети вместе сосуществовали, эволюционировали, потому что у тебя на постнауке несколько десятков разных материалов, и по ним, на самом деле, можно интересно, я уже это проделал за прошедшие

Speaker A

несколько дней, следить за эволюцией отношения к искусственному интеллекту, к понятию искусственный интеллект и так далее. То есть первая лекция, кажется, тринадцатого или четырнадцатого, 13 или 14 лет назад была опубликована.

Speaker A

Собственно, так и называлась — искусственный интеллект. А дальше есть про нейросети, про разные, про дуализм, про разные подходы. Вот с этой, скажем, философской, что ли, части я бы хотел начать. Ты описывал в этих лекциях два подхода: bottom up и top down, да?

Speaker A

Снизу вверх и сверху вниз. То есть мы идём от общих абстрактных категорий и дальше ищем какое-то решение или мы копируем тот интеллект, который мы сейчас знаем. Можешь рассказать чуть подробнее про этих два подхода и, собственно, правильно ли я

Speaker A

понимаю, что сегодня один из них победил? Ну давай сейчас к победе мы как раз подойдём. Но вообще, чтобы пойти эти два подхода, можно себя представить на необитаемом острове и с огромной задачей построить искусственный интеллект. И кажется два очевидных

Speaker A

подхода, как его создавать. Первый выглядит так, что вот мы знаем, что мозг состоит, что в мозге есть искусственный, что в мозге есть естественный интеллект, да? Ну, то есть в нашем мозге интеллект есть. Как мы можем построить

Speaker A

что-то похожее? Давайте разберём мозг на кусочки, поймём, как эти кусочки работают. Соберём эти кусочки обратно, у нас возникнет интеллект. Это первый подход. То есть что нам нужно для этого подхода делать? Нам...

Speaker A

состоит из нейронов и вот нервных клеток, сетей нервных клеток. И вот эти сети нервных клеток и порождают наш интеллект. Тогда давайте смоделируем отдельную клетку и как они соединяются в сеть. И придумаем правила, по которым эта сеть будет учиться. Тогда сеть будет

Speaker A

получать знания и в результате такого обучения будет обладать интеллектом. Это называется нейросетевой подход или искусственно нейровная сеть. Подход снизу вверх. Другой подход тоже вполне логичный. Мы мы скажем, ну вот у нас есть есть вот умные люди среди нас. Если

Speaker A

мы можем теперь исследовать, как эти умные люди решают какие-то интеллектуальные задачи, ну, например, они делают сложную математику. Вот мы посадим 150 математиков в комнате, каждому выдадим по задаче и будем отслеживать.

Speaker A

Ну, как бы мы их попросим записывать каждый шаг решения и что они подумали, когда они делали это решение. У нас получатся такие как бы логи, как как люди рассуждают, как они придумывают решение для каких-то задач. И мы потом

Speaker A

соберём все эти 150 отчётов и на основе них мы придумаем алгоритм, грубо говоря, как нужно рассуждать. То есть у нас есть какая-то задача, как нужно преобразовывать эту задачу, рассуждать, придумывать какие-то новые идеи для того, чтобы её решить. Это другой

Speaker A

подход. Он не рассматривает нейроны, он пытается алгоритмизировать сам процесс решения задачи. То есть он скорее идёт от психологии или от какой-то когнитивной науки или от описания того, как человек решает задачу. Это подход получил название символьный искусственный интеллект, потому что не

Speaker A

ростевой искусственный интеллект, он пытается не растеть построить, а символьный пытается смоделировать манипуляцию символами. То есть все мы знаем, в школе решалит эти задачки там по действиям, да? Ну вот фактически он должен понять, как делать действия для того, чтобы решить задачку. Ну и

Speaker A

понятно, что мы исходим из предположения о том, что, ну, любую более-менее задачу в окружающем нас мире мы можем перевести в формальный вид, сформулировать некоторую математическую модель и потом рассуждением её решить. Оба этих подхода возникли параллельно где-то в сороковых-пятидесятых годах прошлого

Speaker A

столетия и развивались то один выигрывал, то другой. И в начало 2000ных годов мы пришли к такому состоянию, когда на самом деле, ну, более-менее все учёные разочаровались в обоих подходах. Они сказали: "Вообще всё эти неросетии ваши и искусственный интеллект - это всё

Speaker A

философия, но это какое-то что-то непонятное. А вот нам нужно решать практические задачи". И поэтому мы всё это назовём machine learning, машинное обучение. И машинное обучение - это просто статистические методы. Мы их можем сформулировать в виде неопределённых там алгоритмов,

Speaker A

формул, методов, да, подходов к оптимизации, при помощи которых мы будем решать практические задачи. Если ты говоришь про искусственный интеллект, то тебе нужно идти на конференцию по философии, а не на конференцию по компьютерному науку.

Speaker A

И вот в таком состоянии это всё бурлило потихонечку переживало переживало переживало до какого-то момента, когда ээ в десятых годах, в двенадцатых, тринадцатых годах оказалось, что, э, посредством того, что у нас появились графические карты GPU, э, graphic processing Unit, которые были сделаны

Speaker A

вообще-то для другого, для того чтобы, э, игрушка их можно было играть с с высокой частотой кадров, чтобы там ничего не тормозило. А для того, чтобы игрушки работали, нужно делать операции, которые с математической точки зрения реализуют некоторые линейную алгебру.

Speaker A

И оказалось, что для нейросетей ровно те же самые преобразования нужны, та же самая линейная алгебра. Она по-другому немножко используется, но и вот если взять эти карточки для игрушек, то оказать мы можем сильно ускорить вычисление. А если мы ускоряем

Speaker A

вычисление, это что значит? Это значит, что мы можем больше неросеть сделать. Но крупнее мозг, грубо говоря, мозг нашей модели сделан. Вдруг так оказалось, что вот такой нейросетевой, тоже можно сказать, что это статистический метод обучения, он вдруг стал очень хорошо

Speaker A

себя показывать, хорошо классифицировать картинки. Э все как бы э большие компании IT биктехи стали сходить с ума, предлагать какие-то бешеные деньги за эти все алгоритмы. И к 2015 году уже там на обложке Nature стали появляться статьи. И как бы вот

Speaker A

искусственный интеллект, то есть как бы термин искусственный интеллект снова стал возвращаться в такую харса, можно сказать, и но теперь его двигал в основном нейросетевой подход, потому что оказалось, что нейросети, если их просто увеличить размер, ничего особо больше ничего не делая, взять те же самые

Speaker A

нейросети пятидесятилетней давности, но просто их добавить побольше воды, добавить побольше слоёв, они лучше начинают работать. Казалось бы, неросети победили, да? Вот финиталя комедия. Все эти символьные вычисления никуда не годятся, ни зачем нам не нужны.

Speaker A

Например, та самая вычислительная лингвистика, которая пыталась как-то формализовать язык и описать его. А, но получился такой как бы твист. Фактически люди что начали делать? Говорят: "Ну тогда мы возьмём нейросеть, будем заставим её учить язык". Что значит учить язык? Это значит, что мы хотим

Speaker A

построить модель языка при помощи нейросети. И оказалось, что вот такая модель языка, построенная при помощи нейросети, может порождать утверждение, рассуждение и логический вывод, который на самом деле был пределом мечтаний тех людей, которые пытались сделать символьный искусственный интеллект. В этом смысле

Speaker A

как бы всё опять вернулось в некоторую, как, грубо говоря, такую точку конвергенции. Не вернулась, а произошла такой конвергенция. То есть мы как бы при помощи нейросетей стали решать задачи.

Speaker A

которые мы хотели решить при помощи символьного искусственного интеллекта. То есть в итоге мы всё равно получили какой-то нейросимвольный искусственный интеллект. И, наверное, это прекрасно.

Speaker A

Вот эти два два, грубо говоря, конкурирующих направления наконец-то слились в каком-то экстазе. И теперь как бы в этой точке катарсиса появилось большие языковые модели или LLM и чат GPT, которыми мы все сегодня пользуемся. То есть если мы смотрим

Speaker A

лекции твои и твоих коллег на на постнауке с там 2012 по 2000 какой-то, не знаю, двадцать второй год, то в первые 10 лет постнауки искусственный интеллект там, скорее всего, э синоним символьного искусственного интеллекта, это вот этого подхода. То есть нам

Speaker A

нужно, мы будем смотреть только на когнитивные операции, и нам не важно, какой у них там физический субстрат. Мы будем создавать, собственно, искусственный интеллект. Имеется в виду, мы будем создавать некоторую некоторые средства решения задач без относительно того, как оно существует в человеческом

Speaker A

белковом, э, виде. И это скорее машинное обучение, поэтому, ну, или там будет маркироваться машинным обучением сейчас.

Speaker A

Это не совсем тот искусственный интеллект, который сегодня, о котором мы сегодня чаще всего говорим в применении к лмкам и к их продукту.

Speaker A

Ну не не совсем так. Я, например, занимался тем, что я как раз пытался построить например нереэволюционные алгоритмы, где там нейросети эволюционировали и решали какие-то задачи, но не в символьном доме, а скорее как бы, например, робот, который ездил, решал какие-то задачи. И, ну, ну,

Speaker A

можно сказать, что тогда, ну, искусственный интеллект это была как бы скорее область применения алгоритмов машинного обучения. А под алгоритмом машинного обучения это могли быть символьные модели рассуждений или это могли быть неростевые модели или, может быть, какие-то другие более простые

Speaker A

статистические модели, там, там какие-нибудь графические модели. А, и это был как бы такой плюрализм мнений.

Speaker A

Но вот потом в районе четырнадцатого-пятнадцатого годов произошёл такой перегиб, и нейросети они как бы всех вытеснили и все эволюционные алгоритмы и всё остальное. Но сейчас парадоксальным образом это всё начинает опять слегка возвращаться, потому что вот, например, буквально, ну вот год

Speaker A

назад была опубликована статья, ребята из Дикмайда, с ними недавно общался, они сделали такую систему Alpha Evolve.

Speaker A

Так вот, это система, которая эволюционирует компьютерные программы, сгенерированные LL для того, чтобы решать математические задачи. То есть вы представляете, то есть это нейросеть, которая генерирует символьные представления для решения задач, но при этом она потом эти решения меняет таким

Speaker A

образом, что это похоже на эволюционный алгоритм. То есть здесь как бы вообще даже не два направления слилось, а как бы целая тройственный союз эволюции символьных рассуждений и неросетей.

Speaker A

Это вообще захватывающая вещь, на самом деле. Мы вернёмся на небольшую паузу. Если вам нравится это шоу, подпишитесь на него, там, где вы смотрите или слушаете этот выпуск подкаста. Знаете меня как автора и ведущего подкаста Мыслить как учёный, который выходит на канале Постнаука. В

Speaker A

2012 году я основал постнауку, чтобы дать учёным голос. За первые 10 лет своего существования проект навсегда изменил медийное пространство на русском языке и открыл тысячи новых имён в мире популяризации науки. В двадцать первом году в Лондоне я основал компанию Наука,

Speaker A

которая помогает учёным превращать их идеи в технологии и успешные компании. В ходе этой работы мы с командой обнаружили проблему, которая не давала нам покоя. Инновационные индустрии остро нуждаются в кадрах. Особенно её чувствуют молодые диптех и биотехкомпании.

Speaker A

И здесь вы можете нам помочь. Мы запускаем сервис Наука Talents, в котором каждый желающий сможет найти свой путь в глобальной инновационной индустрии. Достаточно оставить информацию о себе, ваше образование, опыт работы, навыки, интересы, владения иностранными языками. А мы будем искать,

Speaker A

где эти навыки могут быть применены. Для тех, у кого их пока недостаточно, мы будем проводить вебинары и индивидуальные консультации, чтобы понять, как их развить, а также запустим серию спецпроектов, которые расскажут о разных индустриях и как они устроены. А

Speaker A

тем, кто уже готов стать частью инновационной индустрии, мы поможем найти международные диптех и биотехкомпании, в которых человек сможет раскрыть свои таланты. По ссылке в описании вы найдёте анкету, заполнив которую вы станете частью программы.

Speaker A

Помогите нам вместе приблизить четвёртую индустриальную революцию. Я я хотел поправиться, что когда я говорил, что скорее всего это искусственный интеллект, это вот символ искусственно интеллекта, не тот, который есть сейчас, который является, не знаю, как его назвать, нейросимвольный вот

Speaker A

этот вот, который мы оперируем сегодня, когда чаще всего люди говорят про AI. Сегодня про AI говорит, ну, говорят все, не понимая, скорее всего, что они этим обозначают. Поэтому мне хотелось ээ некоторую историю и эволюцию этого явления проследить, а нашим слушателям,

Speaker A

которые хотят в это углубиться, в общем, понаукой можно пользоваться как историей вопроса, то есть отслеживая, да, уже уже накоплен багаж знаний.

Speaker A

По лекциям Миши можно следить не только за эволюцией причёски лектора, но и за но и за эволюцией концепций. И и нейросетевой подход там присутствует. То есть в какой-то момент он стал доминировать. Правильно я понимаю, что как раз к 2017му

Speaker A

году, когда выходит статья attention is all is all we need, нейросетевой подход является доминирующим, но не позволяет дать вот тот фундаментальный рост и и решение большого количества задач.

Speaker A

А а attention is all we need. И, собственно, вот про этотtion надо поговорить. И порождает идею трансформера. Google создаёт свой трансформер BER GPT появляется в у у у Op Open AI и дальше начинается эволюция этих трансформеров с космической

Speaker A

скоростью. И, собственно, всё, что мы имеем сегодня - это всё эти самые трансформеры. И это является некоторым ответом на потолок, в который упёрлись нейросети к семнадцатому году. И сегодня ты говоришь о том, что мы там спустя, получается, сколько девять 9 лет возвращаемся новый

Speaker A

виток, да? Вероятнее всего два этих подхода будут ээ друг с другом конкурировать, взаимодополнять друг друга ещё какое-то время. Можешь рассказать про семнадцатый год и про появление трансформера и и протенtion.

Speaker A

Что это за потолок, в который наросети упёрлись? И как антеншн этот потолок позволил преодолеть?

Speaker A

Ну, во-первых, я бы не сказал, что в семнадцатом году рассету потолок, потому что ну я бы сказал, что появление трансформера позволило существенно повысить качество имеющихся моделей к тому времени и сделать более универсальную архитектуру.

Speaker A

Наверное, я бы сказал так. А, и чтобы лучше осознать вообще вот то, что нам принесмер, я предлагаю сделать такой шаг назад и сначала нарисовать такую картину того, что мывили перед этим явлением, чтобы понять вообще, что происходило и корни истоки вот этого самого механизма

Speaker A

внимания или атеншены, а внести архитектур, э, можно сказать, то две ну ладно три основных типа задач, которые решались неросетями, начиная 2010 и там дначе годы, а они заключают следующие. Первый - это задачи, связанные с компьютерным зрением. И там задача выглядела так: мы

Speaker A

берём на вход какое-то изображение и должны предсказать, что на этом изображении. Ну самое простое классифицировать, например, это там кошка, собака, дом или ещё что-то.

Speaker A

И для решения этих задач использовалась определённые архитектуры нейронной сети, которая называется свёрточная нейронная сеть. Свёрточная - это значит, что она дробит изображение на некоторые такие маленькие паттерны. Каждый паттерн свёртка. И вот она ищет, где паттерны того или иного видера встречаются внутри

Speaker A

изображения и строят такую карту изображения в разных как бы с разных точек зрения в виде разных паттернов. и потом используть эту информацию для того, чтобы отличиться, отличать одно один тип изображений от других, то есть различать, разделять классы изображения.

Speaker A

Второй тип задач - это обучение с подкреплением. Обучение с подкреплением принципиально другая задача, потому что если в компьютерном зрении классификация изображения такая статичная задача, у нас картинки не зависят друг от друга. У нас есть картинка, мы должны просто

Speaker A

предсказать. Но если мы хотим смоделировать какое-то поведение или управление каким-то объектом, мы работаем современными ритами и с поведением. Нам необходимо делать какие-то действия для того, чтобы изменить состояние объекта, изменить состояние среды, с которой мы взаимодействуем.

Speaker A

Это более сложная задача в мене очередной связи. И там используются более такие сложные методы оптимизации под названием обучения с подкрепления или for.

Speaker A

Но при этом архитектура самой сети может, например, такая же свёрточная, как в картинках. Для того, чтобы, если, например, знаменитая статья Дитмайда про Игры Атари 2015 года в марте обложка Мельчи, а она вышла про то, что мы как раз взяли семёрточную нейронную сеть,

Speaker A

которая смотрела на четыре последовательных кадра из игротари и должна была предсказать на выходе действия, которые нужно совершить джойстиком влево, вправо, вверх, вниз и нажатием на отме для того, чтобы управлять игрой.

Speaker A

И как бы поразительность этой статьи оказалось, что можно одну и ту же архитектуру, тренируя по отдельности на каждой из игр, достичь высокого результата. То есть какая была идея? Игра имеет абсолютно разную семантику. Чёрт знает, что там может быть. В одном смысле это

Speaker A

пинг-понг, ты просто обвининие какой-нибудь там головоломки, где нужно двигаться по лабиринту ээ или там управление каким-то объектами. То есть это, ну, как бы разные сематические задачи, но оказывается, что если ты используешь один и тот же алгоритм, одно и ту же университет, ты можешь

Speaker A

более-менее хорошо на уровне человека решать все задачи. И это был такой фурор, типа вот mind мегастартап сделал скотском интеллекте. То есть ещё раз два первые два класса - это компьютерное зрение, второе обучение с подкреплением, управление агентами, можно сказать так.

Speaker A

А третий класс задач, как раз, который для нас сегодня самый важный в нашем разговоре - это обработка естественного языка или natural language process. И здесь основная как бы тестовая задача - это был машинный перевод. То есть это такая как бы одна, ну, вообще машинный

Speaker A

перевод можно назвать одним местных граалий вообще всех исследований искусственного интеллекта. То есть его пытались реализовать, начиная там с шестидесятых-семидесятых годов.

Speaker A

разработали огромное количество методов и так далее. И вот в это время, когда нерсети стали хорошо работать для задач с компьютерного зрения, люди стали пытаться их применить к машинному переводу. Соответственно, что такое машинный перевод? А как мы его можем представить для нейросети?

Speaker A

Машинный перевод - это преобразование одной последовательности в другую. То есть у нас есть слова или буквы, которые представляют предложение на одном языке и последовательность букв или слов, в зависимости от того, как будет представлена последовательность на втором языке. И наша задача придумать

Speaker A

такую модель, которая будет переводить одну последовательность в другую. И здесь люди стали в это время использовать такие м методы, которые назывались рекурентные нейронные сети. А почему? Потому что, э, ну, м, как я говорил, стандартная нейронная сеть, она может предсказать что-то относительно

Speaker A

того, что она видит в данный момент. Ну вот как наш классификатор картинок, он видит одну картинку, но он последовательно картинки не может анализировать.

Speaker A

А для того, чтобы ээ как бы подумать и закодировать некоторую последотенность, нам нужно обработать один за одним несколько входов или там у нас длина предложения может варьироваться.

Speaker A

Таким образом, а чтобы эту проблему решить, а была в нейросеть добавляется память. Что значит память? Это значит, что неросеть у неё есть дополнительные входы, при помощи которых она видит текущую, как, грубо говоря, задачу, текущее, например, слово, а также видит

Speaker A

своё собственное состояние, то есть активации своих собственных нейронов для предыдущего слоя, для слово. То есть как бы она получает такой как бы туннель.

Speaker A

своё собственное состояние, своё соб она видит саму себя на предыдущем шаге. Это называется рекурентность.

Speaker A

То есть у нас появилась такая память о своём собственном состоянии мозга на предыдущем шаге. И получается, что что у нас это есть входное предложение. Мы идём по словам, каждое слово смотрим и как-то меняем состояние своего мозга. Ну то есть мы его сравниваем с тем, что

Speaker A

слово обновляем, обновляем, обновляем. Потом мы доходим до конца последовательности, да, до конца нашего предложения. У нас есть некоторые состояние мозга нашей сети. И теперь нам нужно сгенерировать представление предложения на другом языке. Например, мы переводим с английского на французский.

Speaker A

И вот для французского языка мы что делаем? У нас на входе есть представление мозга сети. Он должен в этом представлении мозга, в этой памяти содержать всю последовательность, которая была в начале. И после оттуда он начнёт её разворачивать, по снову

Speaker A

предсказывая перевод. И люди так начали делать. И они столкнулись с тем, что вот, ну, у этого подхода существует проблема, что каждый раз, когда ты записываешь что-то вот в эту память, у тебя старая память, которая была до этого стирается.

Speaker A

То есть, грубо говоря, те слова, которые были в начале предложения, они забываются и несут меньше информации для перевода, чем те, которые слова, которые были недавно. Вот люди начали думать, что же мы с этим, ребята, будем делать, как нам вот это вот победить,

Speaker A

вот эту вот проблемку. И они придумали метод, ээ, здесь как раз возникает, вот это вот истоки атеншена.

Speaker A

Они придумали, что а давайте мы сделаем такой механизм, чтобы когда мы будем генерировать перевод, у нас были доступны все состояния мозга для каждого слова. То есть мы как бы сохраним все состояния для каждого из слов и как-то их каким-то образом будем вместе

Speaker A

собирать и переводить. То есть мы хотим решить эту проблему забывания, но если мы просто усредним всё, то у нас получится такая каша мала и может быть не очень хорошо все слова наложатся и будут мешать генерировать. А обычно в машинном переводе у нас есть

Speaker A

как бы сопоставление слов. То есть у нас порядок слов может меняться, но слова как бы более-менее совпадают. То есть много слов мы один в один можем отобразить. И тогда, кажется, нам нужно не не все эти памяти не складывать. а

Speaker A

придумать какой-то поисковый механизм, который нам будет говорить: "Ага, вот сейчас давайте посмотрим вот на основа, которые соответствует тому, что нам сейчас нужно".

Speaker A

И уже исходя из этого значения будем денорировать перевод. И вот чтобы э выбирать то состояние памяти, которое нам релевантно, был предложен механизм атеншена. Аншен здесь подвается, что это как бы фокус нашего внимания, который смотрит на то слово, которое нам сейчас нужно для того, чтобы

Speaker A

сказать следующее слово в переводе. И это было реализовано при помощи специальной скоринговой функции. Грубо говоря, вот у нас есть текущее состояние нашего мозга, которое переводит. Он уже, например, дошёл до третьего слова в предложении, да? Мы, грубо говоря, берём

Speaker A

и тренируем такую небольшую маленькую нейросеть, которая берёт это состояние мозга и задаёт, а, сопоставляет его с каждым из состояний мозга для исходного предложения и выдаёт чиселку, насколько оно похоже на то, что у нас было в предыдущем состоянии.

Speaker A

И вот из этой чиселки она может теперь посчитать, мы можем посчитать вероятности, ну, от нормализовательной длины, как какое какая память наиболее релевантна для следующего слова, для того слова, которое мы сейчас переводим.

Speaker A

И потом мы умножаем вот на эти вот ээ оценки, грубо говоря, там, ну, у нас одно слово будет иметь там 90% вероятности, а остальные 10% будут распределены между остальными словами. И мы, когда этих скорой памяти умножим на эти коэффициенты и смотрим вместе,

Speaker A

мы как раз произведём вот этот это называется механизм внимания, да? Он он состоит из двух частей. Первое, мы должны получить оценку, а второе сагрегировать все представления в одно представление, в котором главную роль будет играть то, что имеет отношение к

Speaker A

предсказанию как раз в текущем. И это вот как раз статья 2013 года. Бенджел там Богданов и ещё один коллега, который предложил для машинного перевода использовать такой механизм внимания.

Speaker A

И статья семнадцатого года, она фактически переиспользовала этот механизм, потому что ещё были промежуточные варианты. Оказалось, что для машинного перевода это очень хорошо работает. Google взял на вооружение эту архитектуру и где-то в пятнадцатом году он сделал в пятнадцатом-шестнадцатом году он сделал Neural Machine

Speaker A

Translation. То есть это что значит? Это значит, что у нас есть вот эти вот наши рекурентные сети. Причём мы идём, одна сеть идёт вперёд по предложению, другая в обратном порядке. То есть, чтобы память у нас была из двух направлений,

Speaker A

поэтому называется Birectional, двунаправленная нервта. Потом она комбинирует состояние памяти для этих разных двух проходов. И так делает много, много слоёв. Но атенфил был только в конце. То есть это она много слоёв набрала, а в конце у нас получились какие-то представления. И вот

Speaker A

это вот вся первая часть, когда это очень следующий важный понятия. Первая часть, которая, грубо говоря, обрабатывает предложение на входном языке, называется энкоoder. Она или кодировщик, она как бы кодирует на исходном языке представление. И в конце она представляет какие-то наборы памяти

Speaker A

или имбединговых векторов, которые представляют это выходное предложение. А вторая часть декодер, декодировщик. Она как бы расшифровывает эти представления в последовательность слов на другом языке. И атенtion - это как бы связь, как декодировщик смотрит на состо на память, произведённую кодировщиком или

Speaker A

инкодером для того, чтобы снурировать представление. То есть это это получил название декодер архитектура кодировщик декодировщик русском языке. И вот в шестнадцатом году там семнадцатом началом Google, вот у нас естькодер, декодры модель, построенная вот на таких референдух сетях. когда это был LSTM,

Speaker A

точнее BL LSTM, потому что B directional LSTM, двунаправленный LSTM, а LSTM - это long shop memory, такой специальный вид электронных сетей. Google тогда опубликовал прессовый лист, что мы теперь достигли качества машинного машинный перевод достиг качества переводчика человека. То есть вот этот

Speaker A

вот подход вниманием позволил достить качество человека. И потом ребята из Гугла другие, они взяли и стали думать о том, как усовершенствовать эту архитектуру, как избавиться вот от этой рекурентности.

Speaker A

Потому что, э, чтобы сделать архитектуру более оптимальной, мы хотим параллельно обрабатывать все слова. В рекурентной нейронной сети, чтобы получить представление следующего слова, нам нужно получить представление предыдущего слоя. Помните, мы как бы сеть смотрит на своё собственное состояние на предыдущем шаге. Поэтому у

Speaker A

нас есть такая зависимость временная, и это очень заставляет, грубо говоря, линейно увеличивать длительность расчёта в зависимости от длины последовательности.

Speaker A

Так вот, ребята, а из Гугла, они придумали трансформер как некоторый способ для того, чтобы параллелизовать рекурентную нейросеть. Для этого они сделали так, что а каждая, э, память, она смотрит не на соседа в том же самом слое, а на состояние памяти на

Speaker A

предыдущие слои. Поэтому нам теперь можно слои, ну, внутри слоя все эти состояния независимы, можем, мы их можем обрабатывать параллельно. Таким образом, мы избавились от рекурентности и сделали вычисление параллельными.

Speaker A

Ну и, а, второе, они ввели такую штуку под названием self attention. То есть, ещё раз, был антенtion и антенtion был из декодера в энкоodдер, из декодировщика в кодировщик. А сетенtion - это такая штука, когда у нас, когда мы каждый вот

Speaker A

кодируем каждый токен, например, он смотрит на окружающие токены. То есть антеншном как бы взвешиваются представление соседних токенов, и они учитываются при кодировании. То есть как бы получалось, что у нас при кодировании все слова смотрят друг на друга. Вот такая прикольная вещь. То

Speaker A

есть они как бы при того, что как бы чтобы хорошо понять симатику слова, она зависит от контекста, в котором это слово употребляется.

Speaker A

И как раз, когда сеть обрабатывает слой за слоем это слово, она смотрит на окружающий контекст. И это смотрение на окружающий контекст при помощи внимания позволяет получить лучшее представление этого слова для последующей обработки.

Speaker A

Ну и в декодировщике точно так же. Это ещё важнее, потому что когда мы начинаем декодировать по одному слову, а нам важно знать, что мы уже написали для того, чтобы произвести следующее слово.

Speaker A

Поэтому нам важно смотреть не только на то, что у нас было в исходном тексте, который мы переводим, но и уже в том, что мы сгенерировали уже в переводе. То есть мы в первой половине предложения сгенерировали, и это очень сильно

Speaker A

определяет, что мы должны сгенерировать во второй половине предложения. И вот это вот был проры.

Speaker A

Мне вообще интуитивно кажется, что вот сам подход нейросетевой, то есть понятно, почему он должен хорошо работать в ситуации, когда у тебя есть картинки. когда у тебя мало объектов и ты, ну, плюс-минус понимаешь, что на них происходит, но различить в них какой-то паттерн

Speaker A

человеческому там мозгу, глазу сложно. То есть, ну, например, там найти на флюрографии у кого или там на КТ у кого какая болезнь, да? И мы знаем, что сегодня, не знаю, можно ли это назвать искусственным интеллектом в этом случае,

Speaker A

как бы, да, нароссить умеет определять это лучше, чем чем врач, да, там даже тренированный тренированный класс, да, видимо, потому что есть как раз вот эта связь ну всего со всеми и ээ как бы этот принцип работает хорошо. Интуитивно же

Speaker A

кажется, что если ты пытаешься применить это к машинному переводу, то чем больше у тебя контекст, чем больше у тебя, ну, просто поскольку у тебя другой массив данных нужен, она не будет работать. Ну, такой классический норсетевой подход.

Speaker A

Почему его использовали для машинного перевода, мне не очень понятно. А одновременно, ну не знаю, может быть, просто как бы пытались применить, но кажется, что нейросетевой подход должен хорошо работать вот в ситуации ограниченного количества данных и при этом, ну, которые можно легко разметить

Speaker A

и у которых ээ нужно не уметь предсказывать, а просто мы точно знаем, где рак, где не рак, и уже постфактум. И поэтому мы можем на всех следующих картинках это определить. Ну или там на ота или на го или на шахматах, на чём

Speaker A

угодно, где мы, ну, мы понимаем, что правильно, что неправильно, а в языке чёрт его знает, что правильно, что неправильно. И так, ну, в вашем переводе тоже мы знаем, что правильно, что неправильно. У тебя же есть переводы, да, но у тебя количество ээ

Speaker A

вариантов слишком большое. То есть тебе нужно ээ ну то ли датасеты большие, то ли тебе нужно просто, ну, просто количество объектов очень большое. И чем у тебя больше контекст, условно говоря, там на можно на 100 картинках на, наверное, или

Speaker A

там на 1.000 картинках на натренировать, а в Нет, нет, нет, нет. Ну, смотри, у тебя же есть много параллельных текстов, а машинный перевод ставился так, что это именно из предложения в предложение. То есть, к счастью, эволюция языка привела

Speaker A

к тому, что мы, ну, это, видимо, связано с некоторыми когнитивными ограничениями нашего мозга, что мы не можем длинные последовательности запоминать.

Speaker A

Поэтому у нас наша речь, она делится на некоторые куски, которые, ну, ограничены в длине и передают какой-то кусочек смысла.

Speaker A

И это как бы предложение, если ты не Лев Толстой. Ну, я не Лев Толстой.

Speaker A

Вот. И задача машинного перевода, она стоилась так, что именно перевод, то есть, грубо говоря, вот эти модульные структуры языка, если так это можно сказать, а она как бы развязывает предложения друг от друга. То есть внутри предложения всё сильно связано, а

Speaker A

между предложениями связь есть, но не такая сильная. Поэтому вариантов перевода одного предложения в другое не так много. Ну, они, конечно же, существуют, можно по-разному перевести, но всё-таки их не так много. Гораздо сложнее диалог. То есть, потому что, например, если у тебя

Speaker A

есть какой-то диалог, то продолжение какого-то диалога гораздо больше, чем, ну, вариантов перевода одного конкретного предложения, потому что, ну, в диалоге гораздо более opened, гораздо более открытое с точки зрения продолжения. Поэтому, кстати, перевод, ну, проще задача, чем ведение диалога с

Speaker A

человеком. А, интересно, слушай, сейчас у меня такой прямо пример из жизни. Я тут дочке, мы так развлекаемся, она просит какую-то сказку на ночь, и я я устал придумывать. Я прошу лмку, я вбрасываю какой-то набор ключевых слов и говорю:

Speaker A

"Про что ты хочешь?" И там обычно набор, ну, сложносочетаемых элементов. Там как бы что про тигров и про замок Батут и какие-то, ну, в общем, там набор чего-то, что вот сейчас в голову взбрело.

Speaker A

Ил неплохо справляется с повествованием, но всё, что касается диалогов, я я вот думаю, насколько это насколько это передаёт эту проблему предсказания э живой речи и обмена репликами, потому что обычно в как раз в диалогах там полная каша. То есть вот рассказ о том,

Speaker A

как они с дельфинами куда-то поплыли, там куда-то пошли и так далее, и так далее, всё хорошо. Вот как только они начинают разговаривать друг с другом, там месиво начинается, но но это уже не нейросетевой, это уже как бы нейросимвольный, мы уже имеем дело с

Speaker A

более развитыми. А да, и, ну, здесь важно, потому что диалог в диалоге для того, чтобы его понимать и генерировать, нужно, кроме того, что знать, как диалоги выглядят, ещё иметь некоторую модель, ну, субъекта, которые генерирует эти слова.

Speaker A

ну, его намерений, его представлений об окружающем мире, в каких он был ситуациях и почему он, ну, то есть говорю, то, что он говорит, связано как-то с его историей и его опытом.

Speaker A

Поэтому, кроме того, что ты выдумаешь какие-то события в книге, когда ты разговариваеш с каким-то персонажем, за ним ещё обычно стоит что то, что не написано словами, но подразумевается, например. И, возможно, в процессе этого диалога это открывается, и мы видим, что

Speaker A

он про что-то рассказывает, там, что было написано. или, ну, это, ну, как бы это гораздо более сложные вещи, менее предсказуемые. То есть если там пошёл дождь, да, и Петя промок, то это какая-то простая история. А вот про то,

Speaker A

что Маша разбила вазу, совсем непростая история, потому что Маша - это некоторый субъект, и Маша могла разбить вазу, потому что случайно длинула локтем. Или она получила двойку, и её так взбесила ваза, что она её кинула в стену.

Speaker A

или там эту вазу подарил ей Петя, а потом Петя, и она увидела, как Петя целуется с Катей, и и она поняла, что эта ваза ей теперь не нужна совсем и будет напоминать вот об этой гадости. И нужно её непременно измельчить и

Speaker A

превратить в порошок. Ну то есть как бы все вот эти вещи, ну гораздо более сложная в зависимости. О'кей, давай вернёмся на два шага назад к трансформерам, чтобы мы потом пошли и посмотрели на то, что с ними произошло дальше. Значит, трансформеры - это в

Speaker A

итоге такой такая архитектура, которая использует self atttention для ээ более эффективного предсказания чего бы то ни было. И я криво это формулирую, чтобы ты меня чтобы ты меня поправил. Но а-а при этом ты описывал разницу, почему atttion и self

Speaker A

attentiontion был важен в примере с машинным переводом, но мы сейчас все и на трансформерах построены все текущие ломки. Всё, что мы сейчас используем, все все эти супердостижения, включая текст в картинку, картинка в видео и так далее, и так далее. Почему на машинном

Speaker A

переводе тренировались? Ты примерно объяснил, потому что проще проверить, правильно, неправильно. Но как мы от машинного перевода перешли к предсказанию? И ты рассказывал в предыдущем подкасте, который я советую всем слушателям обязательно посмотреть, если вы ещё не посмотрели, и послушать.

Speaker A

На трансформерах сейчас всё построено. Мы остановились в точке, где машинный перевод. Почему, э, нейросети рекурентные с этим справляются плохо? Ты мне объяснил, я совсем не думал, на самом деле про то, что действительно у нас есть вот эти кусочки нашей речи,

Speaker A

предложения, которые позволяют эффективно нам существовать, а значит, дальше тренироваться, как мы как мы думаем.

Speaker A

Появляется трансформер. Как он от этого переходит к созданию нового контента, к предсказанию? Может быть, здесь логичный переход, но я его пока не чувствую. При этом ты рассказывал, что ещё в 2015 каком-то, в общем, мохнатом году, по нынешним меркам, когда мы все ждём

Speaker A

сингулярности, уже буквы успешно предсказывали и они складывались в какие-то осмысленные тексты. Значит, ну, как бы от букв к словам не не сложно перейти.

Speaker A

А почему потребовалось так много времени? Зачем нужен был трансформер? Ну, я рассказал, что появился в 2013 году, но кроме задачи машинного перевода в области обработки естественного языка, ну вот эта область обработки естественного языка или Natural Language Processy NLP, она как бы работает с

Speaker A

последовательностями текстов. Ну, как мы говорили, что фактически задача перевода - это трансляция, перевод одной последовательности в другую.

Speaker A

Соответственно, есть другая задача языкового моделирования, когда мы строим, грубо говоря, модель языка как продолжение текста.

Speaker A

То есть вот у нас есть предыдущий набор слов, и мы предсказываем, какое наиболее вероятное слово, исходя из всех тех тек текстов, которые мы прочитали, в этом тексте будет в этом кусочке.

Speaker A

И вот для этого языкового моделирования сначала используются тоже рекурентные нейронные сети, но без оттеншей, просто рекурентная нейронная сети.

Speaker A

Значит, и оно существовало параллельно. Вот есть у нас такая задача языкового моделирования. Значит, когда была написана статья трансформера, она была в первую очередь для задачи машинного перевода. То есть как бы для для этой задачи была архитектура энкоoder, декодер, про которую я

Speaker A

говорил. Почему такая архитектура? Потому что в машинном переводе у нас исходное предложение, оно уже дано полностью, то есть оно не по слову нам подаётся, оно полностью сразу задано. Поэтому, когда энкоodдер работает, в нём есть self attention как бы на слова

Speaker A

в будущем и в прошлом внутри нашего предложения, которое мы переводим. Ну, потому что мы сразу всё видим. И, грубо говоря, вот у нас происходит кодирование, как бы это называется создание хорошего представления или этого предложения. После получено хорошее представление, хорошее вс мысли,

Speaker A

что из него легко перевести. У нас включается декодер. А у декодера совершенно другая как бы логика работы, потому что он не может сразу параллельно декодировать всё предложение, потому что есть разные варианты слов. Он сначала первое слово предсказывает, потом

Speaker A

второе. И когда он предсказывает третье, да, он смотрит как на исходное предложение, так и на первое и второе.

Speaker A

То есть у него так называемая авторегрессионная генерация, э, которая для которой нужно каждое слово по отдельности генерировать.

Speaker A

Он не может параллельно работать. Таким образом, он как бы попадает в какую-то траекторию генерации последовательности.

Speaker A

Э, и это два две как бы энкодер и декодер, две принципиальные части. Потом, значит, после публикации этой статьи Google взял первую часть, поднял на флаг, который называется.

Speaker A

Почему? Потому что, а, она оказалась наиболее полезной для каких-то приложений семиминутных инженерных в этот момент. Потому что, э, э, что мы можем сделать? Смотрите, если у нас есть тексты, вообще для решения задач обработки естественного языка нам нужно получить хорошее представление

Speaker A

предложений или хорошее представление текстов. Даже если мы сейчас отойдём от машинного перевода, да, вот я, например, хочу предсказывать сентимент или эмоциональное состояние человека, который пишет какой-то комментарий. То есть это негативное, позитивное, злое, он испугался и так далее. То есть,

Speaker A

например, это важно для анализа социальных сетей или фидбэка. Что я хочу иметь? Я хочу иметь такую университет, которая у меня закодирует этот контекст, потом получит такое хорошее представление, из которого я предскажу состояние человека. У меня будет там какой-то словарик: "Да, рад, не рад, э,

Speaker A

боится, злится, не знаю. Вот я должен какой-то вариант из этих предсказать. В этом случае оказывается, что если ты просто возьмёшь нейройсеть как бы с нуля новорожденную, которая ничего не знает о языке и будешь тренировать, ты, в принципе, можешь её натренировать на

Speaker A

большом примере размеченных, ну, на большом корпусе размеченных примеров". То есть, ну, например, ты там 20.000 примеров разметишь, если посадишь там студентов, они будут говорить: "А это злой комментарий, это добрый, это какой-то там не от мира всего". Вот они

Speaker A

понаразмечали, и ты потом как бы просто тренируешь модели из слов прямо в эти лейблы. И это работает до какой-то степени. Но оказывается лучше будет, если ты сначала возьмёшь энкоodдер, притренируешь его просто на этом языке, а потом уже вот на этих двадцатитысях

Speaker A

примерах его добучишь, так как он у тебя уже будет хорошо знать язык, теперь ему гораздо легче выучить эмоцию. То есть классифицировать эти предложения.

Speaker A

Это называется transfer learning или knowledge transfer. Это значит, что как бы мы обучили одному знанию языка вообще, потом перенесли на задачу конкретную решению оценка эмоционального степоста ээ в Твиттере или там на форуме.

Speaker A

Как мы как мы можем решать задачу предобучения на текст? Мы это можем решать так, что мы говорим: "Вот у нас есть какой-то входной текст, ну там одно несколько предложений. Давайте часть слов как бы закроем масками, когда мы будем подавать на вход модели". Модель

Speaker A

как бы видит предложение, какое-то слово пропущ. И мы говорим: "Твоя задача, дорогая модель, а предсказать это слово".

Speaker A

И вот так мы начинаем учить сеть. И для этого легко сгенерировать кучу данных. Вот здесь уже очень много текстов.

Speaker A

Просто закрывай слова и всё. То есть тебе не нужно вообще ничего платить людям за то, чтобы они что-то размечали.

Speaker A

То есть текст сгенерирует легко. И таким образом ты учишь как бы, это называется encoder only модель, как бы кодировщик хорошо представляет тексты. А сама задача называется задача маскированного языкового моделированного, потому что мы маскируем кусочки, предсказываем mask language modдулиing.

Speaker A

И вот мы долго-долго этому научили. И такая, может, кто- слышал, появилась архитектура, называется берт. Это когда мы взяли трансформера и учим его на задаче маскированного языкового моделирования, предсказывать пропущенные слова. Потом получившуюся в результате модель, предобученную, мы можем применять в разныхкейсах.

Speaker A

Вот. И это то, что это стали делать практичные ребята из Гугла. А, а непрактичные ребята из Open AI, они взяли другую часть этой модели, которая называется декодер, который генерирует перевод, и сказали: "А давайте мы будем учить эту модель на языковое

Speaker A

моделирование". Ну, но предсказание следующего слова, не демаскирование, не снятие масок, а предсказание просто следующего слова. И будем так вот двигаться. И это авторегрессионная модель. Она не может в будущее заглянуть. Ну, потому что в будущем мы не знаем ещё, какое слово будет, но она

Speaker A

может посмотреть на то, что уже у неё есть в контексте при помощи Атеншена и решать эту задачу. Ну, ака говорят, ну вот мы при помощи такой модели мы тоже можем получить какое-то хорошее представление текста и с ним что-то

Speaker A

сделать. И по первости, ну, если вот мы просто сравним вот эти вот внутренние представления модели, которые учат в две стороны смотреть своим атеншеном и та, которая только назад может смотреть, то логично, что та, которая в обе стороны может смотреть, у ней качество вот для

Speaker A

таких представлений целых текстов выше оказалось. Поэтому никто особо и не мучился вот с этими моделями языковыми.

Speaker A

Ну, они генерировали что-то, там галлюцинировали. Это как бы с точки зрения исследования было интересно, но не очень интересно с точки зрения приложений.

Speaker A

И Open I они были такие борцы, вот упорно били в эту точку. И на самом деле за этим есть Vision.

Speaker A

И Vision говорит: "Вот смотрите, у нас есть языковая модель маскированная, да, и мы говорим: "Вот мы её предобучаем сначала, а потом можем с гораздо меньшим числом данных получить хорошее качество, потому что мы уже имеем хорошее представление языка.

Speaker A

А vision за второй частью декодировщиком. Почему называется GPT? Потому что Generative printined transformer, то есть это декодерная часть.

Speaker A

И в том, что мы можем сделать ещё следующий гораздо более крутой шаг в переносе знаний, в Transfer Noly, в обобщаемости, в универсальности модели.

Speaker A

Мы говорим: "Ребята, смотрите, если у нас задача сформулирована на естественном языке, то зачем нам вообще дообучать модель?" Мы можем просто подать это описание задачи как некоторые входные данные, ну и вообще описание домена, необходимого для решения этой задачи. и модель

Speaker A

натренированные продолжать тексты, но она просто видела, что если у нас есть условия задачи какие-то формулировка дополнительной информации, она сама может их скомбинировать для того, чтобы просто, ну, как бы продолжением формулировки задач является решение.

Speaker A

Ну или если напише решение двоеточие, модель поймёт, что дальше надо писать решение, и она как бы уже никуда не денется, так как она обучена будет писать решение.

Speaker A

Вот модель поставлена в безвыходное положение, что ей нужно совершить действия, которые от неё требуются. И это гораздо более универсальная модель, понимаете? Не нужно под каждую задачу файнтюнить, дообучать модель, не нужно размечать данные. Всё сделано в притренировке. Просто подаём описание

Speaker A

задачи, и она генерирует решение. Вообще мегауниверсальная модель, решающая любую задачу, которую можно сформулировать на естественном языке. Но и ответ, естественно, тоже на естественном языке.

Speaker A

решение. Вот таким образом мы как бы перешли э от задачи машинного перевода вот к этим двум задачам: представление текста и генерации текста. А от генерации текста к вижу о том, что генерация текста - это и есть решение всех проблем без

Speaker A

добойчения. И это, на самом деле, очень глубокая штука. Ну мы как бы начинаем теперь спорить. Вот смотрите, как так получилось.

Speaker A

что, ну, задача абсолютно тупая. Нам нужно предсказывать просто следующее слово в тексте. Но если мы очень хорошо это делаем, то мы можем решить какие-то, ну, огромные задачи. Это мега становится полезным.

Speaker A

И мы считаем, что вот эта вот сущность, вот эта модель статистическая, которая просто предсказывает следующее слово, мы начинаем думать, что она обладает сознанием, что она может сделать то, может сделать. Люди там влюбляются, люди там и так далее.

Speaker A

Это важная тема, на самом деле, про про субъектность искусственного интеллекта, потому что с появлением агентов, а которыми уже многие компании пользуются, а в некоторых странах возникает даже вопрос, будут ли это новые рабочие руки, ноги, не знаю, как это, головы, а

Speaker A

и у них может появиться и какая-то форма гражданства. Ну, потому что их, если их надо налогооблагать, например, о чём тоже идёт разговор, то тогда у них тоже приходит сказать субъектность. Но до сознания, мне кажется, далеко. Мы вот с

Speaker A

твоим, одним из твоих учителей Константином Владимировичем Анохиным недавно записывали подкаст. Прекрасный подкаст. Я прямо послушаю с удовольствием. Мне кажется, важный вопрос: создали ли мы искусственный интеллект? То есть вот эти GPT, мне кажется, ты попытался иронично как-то это прокомментировать, но я хотел бы

Speaker A

чуть подробнее от тебя это услышать, потому что исследования нейросетевые, исследования bottom up, исследования мозга, картирование мозга, попытки понять, как устроено, как устроены интеллект и устроено мышление, и тем более как устроено как бы где там сознание, они продолжаются. И пока такое ощущение,

Speaker A

что искусственный интеллект, точнее, то, что называется искусственным интеллектом, нам в этом не помогает, а нас даже как бы уводит в сторону.

Speaker A

Одновременно искусственный интеллект нас как бы так немножко приземляет или смиряет, можно сказать, а поскольку и поэтому, может быть, и вызывает так такое раздражение у многих людей.

Speaker A

Так же, как Коперниканская революция заставила нас, ну, как бы и привела нас к пониманию того, что мы не центр, наша планета не центр мира. Дарвин показал, что мы не венец эволюции, а а просто один из видов млекопитающих.

Speaker A

А там, ну, кто-то может сказать, что Фрейд показал, что мы не контролируем вообще, что с нами происходит. Ну и другие исследователи когнитивных процессов показали, что мы не очень контролируем себя, и идея там свободы воли как-то стала меркнуть или

Speaker A

самоопределение. А теперь AI в некотором смысле говорит нам, что то ли что мы не самые умные или не обязательно мы можем, мы будем самыми умными, кто-то заберёт у нас на эти когнитивные функции. А может быть, вообще-то весь наш интеллект - это

Speaker A

просто умение предсказывает следующее слово, что на самом деле я сейчас не мыслю, а просто моя какая-то машинка внутри предсказывает следующее слово. И поскольку мы в состоянии набор белиберды интерпретировать как какое-то что-то осмысленное, и вот мы вот эту слов

Speaker A

набросали, каждый что-то своё такое понял, и как бы и прикольно, и и классно. Вот. Э, и что всей эта большая часть нашей интеллектуальной деятельности, которой мы так гордимся, особенно люди интеллектуальной культуры, на самом деле, это просто вот такое

Speaker A

предсказание. А, а, в дистиллированном виде в лингвистической модели, а в ней вся её магия и вся эта прелесть человеческого ума, прорезающего ткань реальности, оказывается всего лишь умением предсказывать следующее слово.

Speaker A

Да, так и есть. расходимся. Нет, нет, нет. Я я как раз хочу добавить глубины, перейти на следующий уровень обсуждения этой тематики. Я вот не знаю, начать как с философии или с или с возникновения жизни. Ты как предпочитаешь?

Speaker A

Ты имеешь в от теории или от физического субстрата? А-а, ну да, просто вот мой любимый философ, который оказал на меня огромное влияние, это Карл Поппер. Он, значит, посвятил свою жизнь сначала э методологии науки. То есть он пытался разобраться, как правильно вообще делать

Speaker A

науку, так, чтобы наука, вот её цель достигалась наиболее оптимальным способом. Потом он это применил ещё всё к развитию общества, пытался применить и этим увлёкся.

Speaker A

А, но в конце как бы он не оставлял, ну, размышление о знании, о природе знания, о природе науки. Он сформулировал такую как бы набор концепций, такой подход ээ в философии, который он назвал эволюционная эпистемология. Основной тезис эволюционной эписмологии можно

Speaker A

сформулировать её такой дифференциатор таким примером, который Попперсм давал. У животных, у амёп, у них все еде умирают вместе с организмом. То есть идеи омёбы умирают вместе с амёбами.

Speaker A

А человек Эйнштейн отличается от омёбы тем, что он может убивать свои собственные геи, не умирая сам.

Speaker A

И это даёт для меня такое как бы новую глубину понимания эффективности языковых моделей. Почему?

Speaker A

Потому что, если мы представим, что действительно всё живое требует предсказания будущего, то есть для того, чтобы выжить в среде, мы должны предсказать, какая среда изменится в тот или иной момент, чтобы изменить своё поведение или свои процессы внутри нашего одноклеточного,

Speaker A

например, организма соответствующим образом, чтобы существовать в изменившихся условиях. Можно сказать, что вообще знание - это некоторый жизненный императив, потому что чем в большем, чем больше условий среды мы можем предсказать, тем в большем наборе сред мы можем выживать, тем, в принципе,

Speaker A

вероятность выжить выше. То есть здесь мы проводим такую интересную параллель. Её пока нет в теоретической биологии, но было бы здорово разработать такую теорию, которая говорит о том, что, вообще-то, наша приспособленность эволюционная, она напрямую связана с нашей способностью предсказывать

Speaker A

будущее. И вообще, возможно, это позволит нам концептуально разграничить живое от неживое, как то, что может предсказать своё будущее и как-то изменить поведение от того, что не может предсказать будущего.

Speaker A

То есть вот как бы возможно это концептуальный водораздел между живым и неживым. Вот есть такой принцип того, что предсказание будущего полезно для выживания.

Speaker A

И фактически можно сказать, что весь интеллект он построен. Это как бы усиление способности предсказывать будущее.

Speaker A

То есть чем мы говорим, что организм обладает, чем большим интеллектом, тем, ну, как бы большее число задач он может решить, а это значит, что он большему репертуару будущих может приспособиться.

Speaker A

И, конечно же, с точки зрения, ну, грубо говоря, отдельного организма у нас человек наиболее эффективное с этой точки зрения существо, которое мы знаем.

Speaker A

И когда мы начинаем тренировать языковую модель, фактически там тоже вот этот вот принцип предсказания будущего, он заложен в её сути. То есть вот наблюдать число слов, но какие-то слова и предсказывать будущее. На поверхностном уровне кажется, что это какая-то

Speaker A

блиберда, но он просто предсказывает тексты, не понимая их. Ну теперь давайте подумаем. Мы же заставляем вот эту вот бедную модель предсказывать какие-то очень сложные вещи в тексты. Они же отражают нашу реальность. То есть в тексте что-то написано не просто так. Это не

Speaker A

произвольный набор слов. Это вот человек эволюционировал, потом он создал язык. Язык он обладает определённой структурой и семантикой, которая позволяет людям передавать друг другу описание состояний внешнего мира. То есть мы говорим, там солнце светит. Это некоторый набор звуков, да, который описывает некоторое

Speaker A

состояние мира там в мозге другого существа, создаёт такие активации, которые соответствуют вот этому набору ситуации в окружающей среде.

Speaker A

Для того, чтобы эффективно предсказывать последовательности слов, нужно предсказывать вот это состояние среды, которое связано с этими словами.

Speaker A

То есть тезис такой: если у нас есть модель и мы её тренируем и мы ей говорим: "Предскажи следующее слово", то для того, чтобы эффективно предсказывать, модель внутри себя должна построить представление не только о последовательности слов как слов, но и о

Speaker A

том окружающем мире. Грубо говоря, она должна иметь некоторую модель мира, которую описывают эти слова. То есть она как бы из слов как бы пытается реконструировать тот мир, который этот эти слова описывает. Можно провести интересные параллели, там, я не знаю, вот есть

Speaker A

слепоглухонимые дети, которые от рождения слепоглухонимые и которых всё равно можно научить там языку и они даже учились в МГУ. Вот эти все прекрасные примеры, это вот как вот языковая модель. Она не видит мира, она видит только слова, и она ничего не слышит, не

Speaker A

может ничего почувствовать. Но вот из этих слов она каким-то образом узнаёт очень многие вещи.

Speaker A

И это как бы с одной стороны, ну, некоторые такая прекрасные прекрасная гипотеза о том, что вот действительно модель начинает выучивать всё лучше и лучше понимать окружающий мир через язык, через вот это отображение в текстах описания окружающего мира. А с

Speaker A

другой стороны, конечно, ну вот оно продолжает вот эту вот замечательную традицию снизвержения человека, как бы говоря о том, что там мы не в центре вселенной, мы не Богом избранные существа, а теперь оказывается, что ну вот просто предскажи следующее слово, и

Speaker A

ты будешь такой же умный, как как и человек, что интеллект - это всё просто какая-то генерация слов. Я, ну, не берусь такую отважную гипотезу выдвигать, да, но эта параллель явно просматривается, и мы можем теперь, ну, в философии или в наших исследованиях,

Speaker A

ну, это это эту идею обсуждать и продумывать, действительно ли, грубо говоря, что в человеке или в других животных существует за пределами предсказаний. Ну, небольшой намёк.

Speaker A

Например, у нас есть субъектность и цели, а у ЛМ никаких целей, никакой субъектности нет. Вся субъектность ЛLМ задаётся в процессе посттренинга, когда мы люди так дообучаем модель, чтобы она одни продолжения выдавала чаще, чем другие. И мы это делаем для того, чтобы те

Speaker A

продолжения, которые она выдаёт, были нам более полезны как пользователь. Все компании пытаются адаптировать эти генераторы, чтобы вот эти последовательности, потому что по текстам можно генерировать очень много разных последовательностей. Часть этих последовательностей будет полезна нам, как пользователям, а часть бесполезно.

Speaker A

И вот прорыв чат GPT в том, что как раз удалось придумать алгоритм, который отбирает последовательности, которые полезны человеку. Как правильно дообучить языковую модель, чтобы она говорила те продолжения, которые нам нужны для решения задачи. Но при этом у модели у самой по себе нет никакой

Speaker A

целенаправленности. То есть, в принципе, сегодня мы управляем поведением модели с точки зрения целеноправности, просто задавая ей какой-то контекст, говоря: "Ну, тебе сейчас хочется есть. Что ты скажешь?

Speaker A

И таким образом, как бы, вот это вот этот вот интент, он заложен в начале контекста. Модель будет продолжать просто исходя из того, как обычно продолжаются текстами, тексты, где написано, что я хочу есть, да? Вот как бы вот и вся суть этого

Speaker A

феномена. То есть как бы принципиальное отличие в том, что у людей есть какие-то внутренние цели, возможно, неосознаваемые или неконтролируемые или осознаваемые.

Speaker A

А у моделей просто этих целей нету. Мы с тобой говорили в прошлый раз про различия моделей, и ты, ну, упоминал эту идею, что CH GPT получился не только потому, что, э, ну, сложился какой-то набор технических средств, но самое

Speaker A

главное, а возник T of voice, способ определённым образом разговаривать и помогать ээ не просто предсказывать следующее слово, но быть помощником человеку.

Speaker A

Но при этом мы знаем, что разные модели, например, Клод антропика, там GI Гугла и CH GPT Open AI, они помогают по-разному.

Speaker A

И в результате, например, чат GPT с большей вероятностью будет усугублять твою проблему, если ты обращаешься к к ней за помощью, если ты, например, потому что она соглашается с тобой, более такая как бы соглашательная, что ли, модель. Клод с

Speaker A

большей вероятностью тебе будет подсказывать, что тут здесь какая-то ошибка или там будет как-то её критиковать, критически подходить и так далее. А, то есть есть ещё риск, что те пользователи, для которых лэмки станут основным способом думать, и они будут

Speaker A

совершать то, что называется cognitive offloading, будут как бы передавать лмкам часть своей мыслительной деятельностью и перестанут самостоятельно мыслить или, по крайней мере, будут делить это с ЛЛэмкой, будут получать не самый, а, как бы качественный, э, результат. Тут есть

Speaker A

вопрос про изначальный выбор. Когда ты описывал примеры, э, двух подходов ээ из к искусственному интеллекту, а то есть мы можем мы можем изучить, как устроен мозг фундаментально и как бы обществить это понимание.

Speaker A

И оно в некотором смысле позволяет нам выстроить универсальные структуры. А дальше можем посмотреть, как люди решают задачи.

Speaker A

Но если мы тренируемся на решении шахматных задач, математических задач, ну, каких-то сложных задач и того, как решают их люди, а, высокой интеллектуальной культуры, то результат и рекомендации, и подходы будут отличаться от того, как если мы натренируем его на редите, ну, со всем

Speaker A

уважением, да, ну, как бы и в форумах я плакал или ещё какой-то, значит, каких-то исто без всякого уважения нет. тренироволся без Ну, в общем, много контента в интернете, да. Если мы будем тренироваться только на комментариях в Ютбе, то, скорее всего, значительная

Speaker A

часть этого контента привезёт нас к вот итоговый средний результат, интеллектуальная культура, которая и мышление, которое будет формироваться, будет негативно влиять на нас как на цивилизацию. То есть, с одной стороны есть проблема, когда мы переда, если мы предполагаем, что лэмки выполняют такую

Speaker A

функцию, и они похожи на то, как мы мыслим, а передавая им эти эти свойства, эти функции как цивилизация, а мы можем как цивилизация же деградировать.

Speaker A

С другой стороны, есть вопрос. Если мы пытаемся понять интеллектуальную деятельность или мы пытаемся понять интеллект через ээ его byйпродукт, как через его побочный продукт язык. Ну и тут вопрос: является ли язык первичным, а мышление вторичным или наоборот какое место занимает сознание?

Speaker A

А является ли это таким же инструментом, как эгэ? То есть, ну, мы считываем активность мозга, и нам кажется, что мы через это понимаем там, что происходит в мозге, но это просто изнанка ковра. это какой-то сигнал, который мы можем

Speaker A

попробовать реинтерпретировать и ээ что-то понять, но это будет какая-то часть только того, что мы можем ну то есть какой-то фон, какая-то часть сигнала, да? Как мы пытаемся сейчас понять, есть ли обитаемая ли планета по тому, какой свет идёт, э, и предположить

Speaker A

как бы какие-то какой состав атмосферы, но не оказавшись на этой планете, не посмотрев на неё каким-то образом глазами, ну или чем-то, да, понять, есть ли там жизнь, мы не сможем. И здесь кажется, что такой же слой. То есть мы

Speaker A

получаем этот побочный сигнал, называем его интеллектом, вокруг него строим какой-то какие-то серьёзные ожидания. ожидание agi, general intelligence, ожидание, что сейчас мы, масштабируя эти лингвистические модели, получим агентов или получим каких-то цифровых сотрудников, которые будут неотличимы от ээ обычных сотрудников. Вот тут, честно

Speaker A

говоря, есть большие сомнения. Хотя, может быть, на самом деле в большинстве случаев всё, что мы делаем, легко реплицируется, и нет там никакой загадки, э, двойного дна и какой-то души, искры божиьей или ещё чего-то.

Speaker A

Моё видение абсолютно механистическое. У нас есть модель, она предсказывает следующее слово. А при этом это может выглядеть очень целенаправленно или разумно, но это всего лишь модель, которая предсказывает следующее слово. Если мы можем управлять этим предсказанием так, чтобы решать

Speaker A

какие-то задачи, которые нам полезны, давайте будем этим пользоваться. Если оказывается, что она генерирует то, что что нам вредно, пишет какие-то программы, которые нам мешают, давайте будем так её контролировать, чтобы он не писал такие программы. Всё в наших руках. Мы можем её тренировать

Speaker A

по-другому или выключить или что-то ещё с ней сделать. Так что вот, исходя из этого утилитарного подхода, мне кажется, так модель не надо использовать.

Speaker A

Ну, я поясню. Я как всегда смешал несколько вопросов. Я имел в виду следующее. От того, как мы тренируем модели, на чём мы тренируем, ээ зависит, как мы, какой мы получим, как общество потом результат.

Speaker A

Изначальный подход больших датасетов приводит к тому, что мы, как мне кажется, зачастую получаем вот такой, ну, из среднего качества.

Speaker A

Не, ну у нас же есть как раз обратная связь. Компании хотят сделать так, чтобы уна, чтобы модель была максимально полезная. То есть есть итеративный процесс. На тренировали на одном датате оказалось, что вот это вот плохо работает. Давайте это выбросим, добавим

Speaker A

других данных, перебалансируем. То есть как бы идёт отеративный процесс устранение того, что мешает и оставление того, что полезно.

Speaker A

Понятно, что мы можем уйти в какую-то глубокую как бы аля такой социологою часть рассуждения о том, у нас есть фастфуд, он дешевле, он отрицательно для, ну вот как бы есть какие-то привычки, телевизор там люди смотрят, ну как бы это, ну некоторые последствия

Speaker A

технологии, которые возникают и, ну мы как общество решаем, что с ними делать. Ну, понятно, что там, не знаю, какое-то время люди сидели, прилипнув к телевизору, и считали, что это большая проблема. Не знаю, я вот лет 20 назад перестал смотреть телевизор, с тех пор

Speaker A

его не смотрю, и для меня уже это перестало быть проблемой. Ну, есть экранная зависимость, люди смотрят там в телефон, соцсети, потому что это связано с их мозгом там. Ну, мне кажется, это как бы всё валидные и важные проблемы,

Speaker A

но напрямую они как бы не связаны с самой моделью с архитектурой, да, они связаны с тем, как мы эту технологию используем и как мы можем регулировать её использование. Ну, то есть очевидно, что если какая-то технология начинает приносить вред людям, то мы должны так

Speaker A

сделать, чтобы она его не приносила. То есть понятно, что ЛСД мы могли там давно варить, делать в промышленных количествах и чтобы с каждого крана лилось, да, и в каждом магазине продавалось. Но мы этого не сделали, потому что это будет не очень позитивно.

Speaker A

Ну, есть алкоголизм, да, вот проблема тоже. Это как бы, ну, вот люди придумали, как что-то делать. Сначала как бы они не осознавали вреда или осознавали, но не могли, не имели возможности регулировать. Потом они научились это регулировать, там курение,

Speaker A

алкогольные напитки стали там ограничивать. Ну, как бы вот главное, чтобы скорость нашей реакции не отставала от тех, ну, скорости изменений, которые происходят. Здесь, кажется, пока я не вижу каких-то, а, каких-то таких мощных проблем в этом плане.

Speaker A

Я, собственно, я, собственно, хотел через это перейти к длинному контексту. Давай. Я думаю про GPT, э, который победил вот, условно говоря, какой-то под трансформер дал возможность сделать какие-то вещи классные.

Speaker A

Он во многом популяризировал тему AI, привёл к тому, что космические деньги просто в эту в эту индустрию вливаются и и вливались и будут, видимо, ещё вливаться. А в этом году мы увидим одни из самых больших IPO в истории, что,

Speaker A

возможно, приведёт к сильной коррекции на рынке и к новой зиме AI, потому что не будет столько денег и не смогут никуда вливать. Но в результате мы, как человечество, получим некоторое решение, которое при этом называется искусственным интеллектом и с которым будет ассоциироваться

Speaker A

искусственный интеллект. Ну, вообще весь этот подход. При этом вполне возможно, что победивший подход не является самым эффективным, не является, как с технологической точки зрения, не является самым полезным, потому что фундаментально он работает на максимально больших датасетах. То есть

Speaker A

давайте соберём всё, что мы можем собрать, не самое лучшее, а а всёвсёвсёвсёвсёвсёвсё, что есть. И поэтому, скорее всего, большая часть того, что мы соберём, это будет, это будет, ну, короче, это будет какой-то цифровой мусор, который мы как человечество накопили, какие-то странные

Speaker A

блоги там и так далее. И мы видим, что, но это не совсем так, потому что, ну, люди всё-таки фильтруют всё, они делают так, чтобы всё-таки результат был правильный. То есть они Нужно, чтобы данных было максимально.

Speaker A

Ну, смотри, ну, мы, да, мы видим, мы видим уже сейчас там лингвистические исследования, что, а, язык английский, например замусоривается фразами, выражениями и так далее, которые привычны, скажем так, в некоторых регионах, на которых активно тренировалась ээ тренировались лэмки.

Speaker A

А предположительно использование. Дальше есть это первый слой, это то, как было натренировано. Дальше компании, которые владеют этим, оказавшись самыми большими игроками, задают правила игры. И это похоже на QR раскладку клавиатуры, которая энерго не самая энергоэффективная, но она есть во

Speaker A

всех раскладках, и её уже не переделать. То есть всё, она как бы с нами навсегда, да? И мы получили вот такое решение, которое, с которым нам теперь жить. И поменять его будет сложно. И понять, что это на самом деле сигареты, алкоголь или

Speaker A

цифровые там гаджеты, от которых есть зависимость. Мы и побочные продукты мы увидим только когда-то потом. И, например, может быть, одним из следствием такого подхода является работа с вот этими маленькими ограниченными контекстами. И то, что могло бы приносить пользу

Speaker A

человечества в виде каких-то прорывов в лечении заболеваний, как ээ будет приводить только к решению очень простых утилитарных задач ээ какого-то создания продолжения цифрового шума. как интернет должен был быть инструментом связывания учёных обменем обменом э как бы полезной информации превратился в инструмент

Speaker A

распространения мемов и порно. Аа, ну не только, но имеется в виду частотность использования научного и образовательного контента в интернете значительно меньше, чем у порно или какого-то развлекательного. Можно, ну, можно, ну, можно с другой стороны это посмотреть. фактически развлекательный

Speaker A

контент интернета и оплачивать всю его инфраструктуру для того, чтобы передавать научные данные. Ну то есть люди платят за доступ к развлекательному контенту, и это поддерживает всю эту систему, сделает её более и более эффективной.

Speaker A

Можно на это, наверное, так посмотреть, но мне кажется, что если мы всё время пытаемся, как бы, если мы идём на как бы путём удовлетворения запроса большинства, то мы будем всегда скатываться к, ну, мы будем всегда деградировать, то есть мы

Speaker A

как бы наше движение будет к среднему, к ниже среднего и и будет двигаться вниз и вниз, вниз. А в, например, алгоритмы Ютюба построены таким образом, что они приоритизируют наиболее кликабельный и досматриваемый контент. Поэтому многие производители контента делают его таким,

Speaker A

чтобы удерживать внимание. Поэтому они делают контент проще. И даже образовательный контент делается так, чтобы не не задавать вопросы, а давать ответы. И в результате, так же, как и лэмки, на самом деле, лэмки, забирая вот эту когнитивную нагрузку, на самом деле,

Speaker A

создаёт ощущению многих потребителей уже сейчас, поскольку они, ну, уже несколько лет существуют с нами, что, ну, все ответы доступны, они не требуют как бы когнитивного усилия, их добывание не является чем-то ценным, потому что они все уже есть в лэмках. Ну, и дальше там

Speaker A

пустья за нас придумывает, как бы, и всё открывает. А, и мне кажется, что формфактор то, как устроен этот продукт, как он, отчасти, как он спроектирован. И я вижу, на самом деле в том, что ты сегодня рассказывал, вот в этой как бы

Speaker A

эволюции трансформеров тоже, ну, как бы не не вину, а причину того, почему мы имеем то, что мы имеем сейчас, что вот выигравшая модель, выигравший подхо выигравший подход, в который вложили больше всего денег, привёл нас не к лечению рака, а к созданию более дешёвого

Speaker A

контента в интернете. Давай перейдём к длинным контекстам и к тому, чем ты занимаешься. Мы коротко рассказали про это в прошлый раз. Тогда это называлось DNLM. Сейчас, может быть, это уже называется по-другому. А расскажи про тип трансформера для начала, который вы с коллегами

Speaker A

разрабатываете. Что это за рекурентный ээтрансформер? И он связан с рекурентными несетями. Это какой-то микс или это просто слово похожее?

Speaker A

Да, всё правильно. Видишь, ты уже как подкачался прокачался в нейросетях. Смотрите, какие проблемы стали возникать с архитектурой трансформеров.

Speaker A

И эти проблемы, они связаны как раз вот с тем, грубо говоря, есть вот какой-то, не знаю, золотой болтик или главный механизм внимания, он же является и такой ахиллесовой питой этой архитектуры. То есть, что нам даёт механизм внимания? Он нам даёт

Speaker A

возможность Давайте так посмотрим на это, вот представим, что трансформер - это он обладает двумя видами памяти. Вот будем рассматривать его как некоторую такую когнитивную систему.

Speaker A

Первый вид памяти - это его долговременная память. Долговременная памяти - это то, что он выучил в процессе притренировки, читая все книги, редиты и всё остальное. В принципе, ну, он, когда вы ему зададите начало какой-то последовательности, он из памяти вспомнит, как она продолжается.

Speaker A

Если он несколько раз видел какую-то специфическую последовательность, он может её просто полностью запомнить. И это как бы такая как бы обобщённая, генерализованная память.

Speaker A

И для неё не нужен атенtion. То есть эта штука, она живёт вне атеншена, не механизм внимания. А механизм внимания - это кратковременная память или эпизодическая память. То, что трансформер знает о текущем состоянии какой-то задачи или диалога. И то, то,

Speaker A

чего у него нет в памяти, то, что он не видел в процессе тренировки, это, грубо говоря, та специфика, которую вы сейчас задаёте. Он не мог выучить ваши возможные ответы или то, как вы себя ведёте, но если вы будете с ним

Speaker A

переписываться, он как бы может анализировать, что вы ему написали в ответ. Ну, анализировать, в смысле находить что-то похожее там тому, что вы написали свои как бы долговременные памяти и использовать это для продолжения.

Speaker A

Соответственно, ещё раз два типа памяти: долговременная память и эпизодическая или такая кратковременная память. И для кратковременной эпизодической памяти нужен механизм внимания. Когда механизм внимания создавался, он сначала создавался для машинного перевода. И нужно было одно предложение, в котором, не знаю, там,

Speaker A

ну, 30 слов - это уже очень длинное предложение. Ну, то есть там, не знаю, 10 слов в среднем или 15 слов перевести в 15 слов. То есть как бы вот глубина этого внимания, а она была 15 единиц, не знаю, там 20-30. Потом, когда

Speaker A

мы стали энкодеры использовать, то мы стали кодировать по там 300 слов или 400 слов за раз.

Speaker A

Соответственно, внимание, оно как бы стало растягиваться. Понятно, что это внимание как бы в современных трансформерах там механизм внимания так называемый multhead attention, то есть это многоголовое внимание. То есть, когда мы вот, как я говорил, решаем, какое следующее слово поставить в

Speaker A

последовательности, трансформер состоит из многих слоёв, ну, например, там 100 слоёв. И на каждом слое у нас есть несколько десятков разных механизмов внимания. И каждый из этих механизмов может смотреть на что-то своё. То есть, в принципе, комбинаций много. То есть на первом слое мы смотрим

Speaker A

на одно, на втором слое мы смотрим одними головами на одно, другими на другое. То есть мы как бы комбинируем информацию из разных частей последовательности.

Speaker A

Ну теперь представьте, если ваша последовательность растёт, она была сначала 300 слов, потом у нас стало 3.000 слов, потом у нас стало 30.000 слов, а механизм внимания он, в принципе, один. И помните, я рассказывал, что он нормализует, он как

Speaker A

бы должен перевзвесить. Если у вас очень длинная последовательность, то как бы всё ваше внимание расплывается, то есть вы теряете фокус внимания.

Speaker A

Модель точно так же теряет фокус внимания, как и человек. То есть, если вам дать, скажем, найди слово вот в этом параграфе или найди слово на этой странице или найди слово на в книге, как бы для вас вы не можете всю всю книгу приместить в

Speaker A

вашу как бы эпизодическую память. Вы когда читаете, вы что-то забываете, какие слова у вас раньше были. Вот то же самое и происходит с Трансформером, грубо говоря. Вот мы про проводим исследование, мы тестируем, как хорошо трансформеры используют контекст. Мы

Speaker A

берём некоторый факт, закладываем внутри текста и можем увеличивать длину текста, в котором этот факт находится, и спрашиваем об этом факте модель. И оказывается, что, ну, вот у нас есть Gemini. Gemini не, ну, как бы по техническим характеристикам в неё можно

Speaker A

подать миллион токенов. Ну, токены - это там ну слово там из нескольких токенов состоит, скажем, обычно. Ну, аналог слова.

Speaker A

Вот. И мы видим, что если длина последовательности больше 100.000, ну, даже 50.000, то модель уже плохо находит факт. Это значит, что хотя модели растянули внимание вот на этот миллион, но эффективно оно для такой задачи может использовать только там 5 или 10% своего

Speaker A

внимания, длины своего внимания. Более того, если мы теперь поставим более сложную задачу, например, скажем, что мы поместим два факта и нужно отвечать на вопрос, который обязательно должен скомбинировать эти два факта. То есть по одному факту нельзя на этот

Speaker A

вопрос правильно ответить, то это ещё сопрощается. То есть если три факта нужно скомбинировать, то модель уже нужно не больше, чем 2.000 слов. Ну то есть мы видим, как бы драматически сокращается эффективный размер контекста, когда мы усложняем задачу. А

Speaker A

во-вторых, это как бы проблема растягивания внимания, то, что оно как бы распыляется и модель сложности фокусироваться с практической точки зрения. Ну, мы все пользуемся этими чатботами. Это значит, что нужно время от времени очищать контекст, открывать новый чат, потому что модель начинает

Speaker A

путаться в своих собственных мыслях. Она не может отличить важное от неважного. Про контекст на простом примере. Я я у меня есть какой-то чат с моделью, неважно какая там с клодом, например. Я я даю ей сообщение, то есть я делаю

Speaker A

что-то на ввод, она что-то сгенерилась в ответ, да? Что в этом смысле считается контекстом? Я пишу дальше следующее сообщение, да? Что является контекстом?

Speaker A

Вся предыдущая последовательность или моё новое сообщение плюс какая-то выжимка из предыдущей последовательности? Потому что ты в прошлый раз говорил, что модель приоритизирует свои ответы над над твоим инпутом. То есть, если я, например, засунул в модель там, не знаю, свою

Speaker A

статью, там полностью текст своей статьи, потому что там 10.000 знаков. Ну а нам нужно в токенах, да, там, допустим, это 2.500 токенов, да? То есть вот есть 2.500 токенов. Говорю, там напиши, допиши, расширь там что-то. Да, она мне даёт ещё свой ответ. А что будет

Speaker A

считаться контекстом в этом случае? Ну, всё, что делаем так 5 раз. Всё, что в чате есть, всё будет контекстно. То есть, если она возьмёт текст статьи 2.500 и просто что-то допишет и повторит предыдущие 2.500, то контекст в два раза вырастет. Если она

Speaker A

сделает только приписку, то контекст вырастет на размер этой приписки. То есть, если вы один и тот же, то есть как бы с этой точки зрения эффективно дописывать по параграфу. То есть не нужно каждый раз переповторять всю статью, потому что тогда контекст будет

Speaker A

гораздо быстрее забиваться. Но если мы начинаем с ней какой-то мыслительный процесс, типа давай подумаем над тем, как может, как компания такая-то, на таком-то рынке делать такую-то деятельность, у нас начинается длинная переписка. На каком-то на каком-то шаге всё, что было в начале из этого

Speaker A

контекста выпало. Соответственно, его нужно либо как никогда не оно никогда не выпадает. То есть просто просто внимание модели размазывается по всему. И, по-моему, то ли ты в прошлый раз про это говорил, то ли это мы мы собирали в фактуре, что к

Speaker A

то есть это из каких-то твоих статей, что внимание к в начале и в конце будет выше, чем в середине.

Speaker A

Да, так и такие есть исследования, но это просто связано тоже с тем, как модель обучалась. Некоторые артефакты обучения, которые говорят, что в начале и в конце, ну, модели легче, грубо говоря, внимание сфокусировать.

Speaker A

Абстракт и заключение важно. А всё, что в середине - это, ну, там неважно, как пришли к выводу. Главное, что ты знаешь, с чего начали и постановка задачи, и результат. Ну, типа того.

Speaker A

Понятно. О'кей. То есть у нас есть у нас есть эти проблемы с контекстом не справляются текущие модели. А естьли ещё проблемы или уже есть какое-то решение?

Speaker A

Ну да, есть ещё одна проблема. Мы говорили о проблеме с качеством э вы с качеством предсказания модели. То есть мы говорим, что чем больше контекста, тем сложнее модели предсказывать. просто посложнее из-за свойств механизма оттеншена, механизма внимания. Здесь ещё

Speaker A

другой другая проблема, которую мы как пользователи не видим, но это объём вычислений. В стандартном механизме внимания, как мы помните, мы считаем вот эту вот схожесть нашего текущего состояния памяти с каким-то состоянием памяти из истории. Если у нас история

Speaker A

увеличивается, то нам с каждым новым нужно пересчитывать. То есть у нас как бы количество взаимодействий при какой-то длине истории, оно растёт как квадрат длины, потому что мы все попарное взаимодействие считаем.

Speaker A

И это с точки зрения вычислений очень трудозатратно. То есть мы пытаемся увеличить контекст. Для этого у нас всё больше и больше мы числительных ресурсов, больше электричества, больше памяти, всё это медленнее работает.

Speaker A

Поэтому это вторая как бы проблема оттеншена. А для того, чтобы с этими проблемами большими, огромными справиться, мы придумали решение. Точнее говоря, мы думали об о совсем о другом, но оказалось решение, которое позволяет справляться с этими проблемами. То есть

Speaker A

мы думали о том, но вот трансформер думает. Вот я говорил вам про то, что у Трансформера есть долговременная память.

Speaker A

Это то, что он выучил давным-давно. Есть кратковременная эпизодическая память. Это то, что вот он видел в своём контексте, к чему он может обратиться.

Speaker A

Но у него есть ещё и рабочая память. Рабочая память - это вот я вам говорил, что есть представление или имбединг - это, грубо говоря, такой многомерный вектор, в который обновляется в процессе вычисления, который трансформер делает.

Speaker A

Это его рабочая память. И фактически всё мышление идёт внутри вот этого пространства, этого вектора. И в 2000 году где-то примерно, может, чуть раньше, у возникла такая идея: "А как мы можем сделать трансформера умнее?" Давайте мы попробуем, чтобы он думал как

Speaker A

бы, ну, не изнутри только вот этого одного пространства, а сделаем параллельно несколько таких мыслительных пространств, чтобы он мог по ним мог идти и, грубо говоря, какие-то альтернативные гипотезы рассматривать, но при этом, чтобы он мог при помощи внимания смотреть из одного как бы

Speaker A

мыслительного пространства в другое, из одной рабочей памяти в другую, то есть как бы добавить новую рабочую память. Я назвал это Memory Transформер, потому что я как бы добавил такие мыслительные токены на вход. И таким образом получилось, что как бы модель

Speaker A

смогла параллельно думать не над каким-то конкретным словом, а просто в целом. И это немножко улучшило качество машинного перевода. Но оказалось, что эту память можно теперь приспособить и для генерации. То есть мы можем теперь сделать, как вот помните, я рассказывал,

Speaker A

что чем рекурентные неросить отличается от стандартный. то, что рекурентная нейросеть, она может посмотреть на своё собственное состояние своего собственного мозга для предыдущего входа модели, как она думала на предыдущем шаге. Оказалось, что логично, что если у нас есть память, уже мы добавили нашу

Speaker A

модель, то есть у нас стандартный трансформер, мы ему на вход подаём специальные как бы токены, которые мы называем память и а которые никак семантически не связаны с текстом в целом, и модель их может использовать для своих как бы для своего

Speaker A

мыслительного процесса, то теперь мы можем превратить вот эту вот штуку в Memory трансформеры, в рекурентный Memory transформеры, потому что у нас есть как бы контекст какой-то коротенький, например, 500 слов, и мы к нему добавили память, когда трансформер обдумал этот контекст, он параллельно

Speaker A

создал некоторое представление в памяти, которые ему соответствуют. Теперь мы берём это представление из памяти и подаём на вход трансформер на следующем сегменте. Таким образом трансформер может теперь видеть, ну, состояние своей предыдущей памяти при обработке следующего сегмента наше нашей последовательности, следующего

Speaker A

входа, следующего контекста. То есть, э, потом, когда мы обработали следующий сегмент, мы можем обновлённую память перенести на следующий сегмент. То есть мы получили, ну, такой аналог регурентно нейронной сети. Но теперь мы, память у нас не к каждому отдельному нейрону

Speaker A

приписана, а к целому целому состоянию всей нейросети, к целому контексту. Оказалось, что это можно использовать для того, чтобы обрабатывать очень длинные последовательности. Почему?

Speaker A

Потому что мы теперь не будем растягивать контекст на миллион. Мы просто возьмём, у нас контекст будет равен 1.000. И мы разобьём этот миллион на 1.000 кусочков. И в первый кусочек мы его обработаем, запишем что-то в память, перейдём на следующий кусочек, опять его

Speaker A

обработаем, запишем в память. Смотрите, у нас получается, мы как бы решаем проблему вычислений. Во-первых, у нас получается, что не квадратично растёт длиной последовательности, а, грубо говоря память вообще постоянная, потому что мы каждый раз всё время фиксированную последовательность обрабатываем. Всё

Speaker A

время тысячи слов. Второй, у нас не размазывается, потому что у нас всегда лежит в интервале от нуля до тысячи. Он, ну, больше не растягивается, потому что представьте, у вас модель на миллион, а вы работаете с документом, там 1.000,

Speaker A

5.000, 100.000. То есть там всё время должен как бы отмасштабироваться, отнормализоваться на эту длину. И поэтому этому не очень хорошо. В нашем случае он всегда внутри небольшого диапазона, что гораздо лучше с точки зрения нормализации этого теншена.

Speaker A

А, ну и второе, он может обрабатывать потенциальные последовательности любой длины. Просто если мы подольше подождём, мы можем хоть бесконечные последости обрабатывать.

Speaker A

И, ну, так мы взяли и стали её тестировать, и оказалось, что мы можем при помощи этого подхода обрабатывать последовательности для, ну, решать какую-то задачу на последовательности 50 млн токенов, например. То есть отвечать на вопрос по 50 млн токенов. Чтобы вы

Speaker A

понимали, это там, ну, не знаю, во сколько раз? В пять раз больше, чем энциклопедия Британика.

Speaker A

А или, ну, в 50 раз больше, чем контекст Джемина. И при этом и у нас какое-то было там качество. Понятно, что при этом мы можем что-то потерять. То есть модель теряет частично свою универсальность, потому что она не может всю информацию сжать в

Speaker A

эту память. Но если у нас есть некоторые специфичные задачи, то для неё мы можем обрабатывать очень длинные последовательности. И вот до сих пор этот рекорд 50 млн токенов, ни одна нейросеть ещё больше 50 млн токенов никогда не обработала в истории

Speaker A

человечества. Вот уже 2 года прошло, но ещё нет такого не случилось. Чтобы на мне и слушателям всем нам лучше понять. Вот 50 млн токенов которые вы сделали в вот в последней версии трансформера а ни одна модель не обработала. Что это

Speaker A

значит? Это значит, что ээ частота ошибок у вас лучше или никто не занимался тем, чтобы сделать такого размера.

Speaker A

контекст 50 млн, условно говоря, тем, как бы, клоду и чату GPT и так далее, и так далее, всем этим большим моделям не нужны такие контексты. Никто не забивает просто такое количество данных в свои ээ ну пользователям это не нужно, да? То есть

Speaker A

они пошли просто по другому пути. Их 100.000 токенов вполне устраивает контекст. Никому больше это не надо. В крайнем случае открой новый чат и заново задай задачу. Да. объём энциклопедии Британика никому не нужен.

Speaker A

Или он решается каким-то другим способом, что модель уже натренирована на каких-то на каком-то другом знании.

Speaker A

Или всё-таки они могут справляться с такими объёмами? Просто у вас частота ошибки была не частота, а процент ошибки был ниже гораздо.

Speaker A

Во-первых, они могут потенциально справиться с таким объёмом, но для этого потребуются очень большие вычисления.

Speaker A

Ну, для этого нужно решать много инженерных задач. То есть теоретически ты можешь растянуть трансформер, если ты там перепишешь и будешь его не на одном компьютере считать, а на целом кластере, то ты на эту длину его сможешь растянуть. Но это огромный челлендж, и

Speaker A

поэтому никто этим не занимался. Мы тоже этого не тестировали. То есть никто на такую длину просто не тестировал.

Speaker A

А, но отсюда и вывод такой, что кажется, что и миллион-то может быть не нужен никому с точки зрения фактический задач.

Speaker A

Поэтому они дальше как бы не стараются его увеличить. То есть ответ такой: и не тестировали, и кажется, что он и не нужен.

Speaker A

Но если мы посмотрим, как, грубо говоря, ну, на расстоянии миллион, наша модель всё равно лучше работает. Ну, на миллион там наша модель выдаст тебе точность 95%, а Джемина 20%.

Speaker A

Ну, ну просто наша модель специализированная, а их как бы общего назначения. Если её дообучить на эту задачу, она тоже будет хорошо работать, если её специализировать.

Speaker A

Вот и это подводит нас к тому, что вот у нас есть как-то если мы придумали какой-то молоток, а а гвоздей нету с точки зрения NLP, надо с этим молотком побегать и найти всё-таки, что е можно заколотить.

Speaker A

И вот, к счастью, мы уже до этого начали заниматься, а аналогом языкового моделирования, но для ДНК последовательности.

Speaker A

Ну, кажется логичным, что если вот есть тексты, тексты из буковок состояв, но у нас ээ в нашем организме в каждой клетке есть 2 л молекула, которые тоже состоят из буковок. И эти буковки определяют ну очень большую часть заболеваний. Ну,

Speaker A

например, там, не знаю, есть четыре основных там заболевания, которые приносят триллионный ущерб там и миллионы жизней в год уносит. И у них наследуемая, э, часть - это где-то там, не знаю, от 30 до 80% наследуемые компоненты.

Speaker A

То есть вклад наследуемых вклад содержания генома в развитие этих заболеваний. И сегодня мы можем объяснить там половину этой врождённой компоненты современными методами.

Speaker A

Поэтому стоит вопрос как бы причём здесь длинный контекст? А при том, что если мы теперь все эти буковки сложим, там возьмём геном человека, то это 3 млрд буковок. Если даже мы будем считать, что один токен 10 буковок - это 300 млн

Speaker A

токенов. То есть понятен масштаб, да? 1 млн токенов Джена и 300 млн токенов - это геном человека. Даже если мы будем считать, что там половина мусора в нашем геноме, ну, какие-то повторяющиеся последовательности или ещё что-то, ну, даже если 70%,

Speaker A

то всё равно мы остаёмся в районе сот сотен там десятков миллионов информативных токенов. Если в буквах будем, то это ещё нам здесь уже.

Speaker A

Поэтому тут наш метод оказался к делу, и мы активно начали его применять. Ну и видим, что действительно сочетание вот такого трансформера с рекурентностью позволяет решать задачи эффективно на длинной последовательности, предсказывать разные биологически важные сигналы из ДНК, например, экспрессию генов

Speaker A

или классификацию видов там как одна последовательность отличается от другой. А можешь привести пример, чтобы чтобы лучше это понять? И ещё один вопрос. Это моя любимая тема. Я задаю несколько вопросов подряд, и потом ты в каком порядке ходишь в таком отвечаешь. А

Speaker A

почему Почему 3 млрд буковок понятно? Почему один токен - это 10 букв? Непонятно. Потому что ты сказал, что слово - это, скорее всего, несколько токенов.

Speaker A

И, насколько я понимаю, там в английских словах чуть меньше токенов, в немецких больше. Ну, то есть там в зависимости от длины 3 с по токена на слово приходится.

Speaker A

Почему токен - это 10 последовательностей, да, а не пять и и не 20? То есть почему мы можем таким образом нарезать?

Speaker A

Если там какой-то биологический, физиологический какое-то объяснение или ты просто сейчас назвал некоторую условную условное значение? Если 30% наследуется, означает ли это первый, это ещё первый вопрос токен. Второй вопрос: если 30% наследуется, означает ли это, что нам интересно только эти 30%? Тогда,

Speaker A

условно говоря, нам нужно не 300 млн, а 90 млн, да? Ну, максимальный контекст, да? И третье - это какие приложения, собственно, примеры применения у такого поиска.

Speaker A

Первое, м, про токен. Ну, конечно, это не то, что я от балды сказал. А-э, есть такое как бы понимание, у нас есть трейдоф.

Speaker A

Мы можем, у нас есть всего четыре буквы. Мы можем либо каждую букву представить отдельным входом нашей сети, и тогда контекст будет в буквах. Но при этом, кажется, не очень эффективно тратить весь контекст на букву. Ну, мы могли бы

Speaker A

и ll тоже на буквах тренировать, но так никто не делает, потому что ты можешь больше текста записать, или ты его представишь в виде слов.

Speaker A

Аа уже для lm придуманы методы, как ээ создавать словари вот этих токенов. То есть аэ мы, когда получаем на вход текст, мы делаем его токинизацию. То есть у нас есть некоторый словарь, который говорит, какой последовательности букв, какой токен

Speaker A

соответствует. И мы в соответствии с этим словарём переписываем текст в токенах. Потом модели с этими токенами уже работает.

Speaker A

А чтобы делать эту токинизацию эффективно, предложено много методов. Один из методов называется Bait Pair Encoding. Он, э, делает так, что мы задаём размер словаря, то есть мы хотим, э, задать, сколько всего возможных токенов разных у нас может быть. Почему это важно? Потому что, ну,

Speaker A

это влияет на степень сжатия текста. Чем больше словарь, тем мы в более короткий последовательности можем текст сжать. Но чем больше токенов, тем нам сложнее как бы предсказывать, потому что нам из большего числа вариантов нужно выбирать на выходе модели. Ну, что так работает

Speaker A

модель, она получает последовательность, а а на выходе она должна из словаря предсказать вероятности для каждого из там, не знаю, 100.000 токенов или 80.000 токенов, которые у нас есть. Поэтому есть некоторый, ну, оптимальный метод, который для которого мы сдаём размер

Speaker A

словаре. говорим, например, мы хотим иметь в словаре 100.000 токенов. И он начинает искать. Он сначала ищет ээ самые часто встречающиеся последовательности и их сопоставляет токенам и так далее. То есть он как бы находит ээ часто частоты последовательностей, которые наиболее часто встречаются.

Speaker A

Затем, когда он составил словарь из этих часто встречающихся последовательностей, в процессе токинизации он идёт как бы от наиболее длинных токенов. То есть он берёт там самые длинные токены и пытается найти их в тексте. Что-то с ними совпадает или нет. Если что-то

Speaker A

совпадает, он заменяет на эти более длинные токены и так далее, пока он все буквы не заменит на токены. И, соответственно, что мы сделали? Мы просто взяли этот подход, применили к ДНК. То есть мы хотели сделать, чтобы наша модель больше ДНК съедала, и мы,

Speaker A

ну, задали там 30.000 токенов размер словаря. То есть мы говорим, мы ищем какие-то мотивы в ДНК, которые часто встречаются.

Speaker A

и возьмём там 30.000 таких наиболее часто встречающихся мотивов и сделаем из них словарь. И вот мы сделаем такой словарь. И оказалось, после того, как мы 30.000 таких токенов задали, что мы потом посчитали, какой средний размер одного токена в буквах. И оказалось, что

Speaker A

средний размер 9 с букв. Ну, поэтому я говорю 10, так округляя, но в нашей модели конкретно, но если бы мы задали другой размер словаря, то число букв бы уменьшилось там или увеличилось. То есть, если бы у нас был бы меньше

Speaker A

словарь, то средний размер токена бы он бы уменьшился. Если бы у нас был бы больше словарь, то средний размер токена бы увеличи средняя длина токена в буквах, нуклеотидах, она бы увеличилась.

Speaker A

Вот. И вопрос в том, имеет ли это какой-то биологический смысл или нет. Здесь нет ещё установившегося мнения по этому вопросу, потому что с одной стороны кажется, что какие-то повторяющиеся мотивы должны иметь биологический смысл, потому что раз они повторяются, скорее всего, естественный

Speaker A

отбор на них, может быть, каким-то образом действовал так, что они повторяются, они никуда не исчезли и не перемешались. С другой стороны, если мы делаем ту же самую токенизацию для геномов разных видов, то у нас получаются разные наборы токенов, то

Speaker A

есть разные последовательности могут быть. И это говорит нам о том, что, ну, как бы вроде как бы не оптимально. Хотя, если у нас универсальный как бы язык, там аминокислоты триплетами одинаково кодируются, стопкадо одинаково кодируются, ну, почти все, да. И, ну,

Speaker A

кажется, какого чёрта у нас ну разные наборы токенов? Мы пока ещё до конца не знаем, но при этом мы знаем, что если мы вот нашу токинизацию создали словарь на геноме человека, а потом применяем на других видах, вроде как

Speaker A

модель обучается, получает нормальные результаты. То есть, ну, не видно сильной разницы от ээ того, как мы эту, ну, что мы сделали токинизацию на другом виде.

Speaker A

А вот это ответ про токены. Следующий вопрос был про аэ длину. Почему у нас 30% важно и может нам всё выкидывать? То есть да э-э у нас есть, а, повторы, и мы можем при обучении модели или при обработке действительно их как бы

Speaker A

отфильтровать, отложить в сторону и с ними не работать. Ээ тогда это сократит нам длину контекста, но всё равно она будет гораздо больше, чем у современных LЛМ необходимо для того, чтобы полный геном сразу за раз обработать.

Speaker A

Какие приложения? Последний был вопрос, то, что ты начал говорить, что это это как бы отсутствие понимания физического смысла не мешает. Понимание, что последова токены разные у разных видов.

Speaker A

А тоже пока пока вы как бы игнорируете этот этот эту может быть это не проблема, потому что есть результаты.

Speaker A

Как выглядят результаты? Чтобы так обрисовать какой-то Я начну из далёкого будущего. в далёком будущем. Ну вот рассуждение такое, вот у нас есть однояцевые близнецы, у них одинаковая последовательность генома, но за исключением соматических мутаций, это те мутации, которые появляются в процессе жизни, в геноме. И

Speaker A

мы видим, насколько, грубо говоря, вот эта вот врождённая детерминанта играет роль. То есть они могут быть очень-очень сильно похожи. То есть, фактически это значит, что потенциально мы, если мы хорошо знаем последовательность, мы можем так её изменить, чтобы то, как

Speaker A

выглядит организм, ну, по научному его фенотип изменился каким-то определённым образом. Например, я хочу сделать, чтобы у меня уши оттопырились у такого же организма, как я. То есть я делаю своего клона, вношу туда какие-то, могу переписать таковой геном, что уши

Speaker A

оттопырятся. Ну, я сейчас привожу такой пример. Может, там поменять цвет глаз или там сделать шею, короче, или руки длиннее, ну или там, ну, не знаю, какие-то другие свойства. Это какая-то ультимативная цель, которая кажется потенциально мы можем достичь, если наши модели

Speaker A

достаточно мощный, если они могут всю эту информацию извлекать из этой последовательности, потому что она там есть, мы это знаем.

Speaker A

Что мы можем сейчас сделать? Мы можем начать предсказывать какие-то свойства организма и щенотипа, которые влияют на, например, усваимость ээ лекарств.

Speaker A

То есть, ну, для многих лекарств очень важна доза, потому что эта доза определяется так есть индивидуальные например индивидуальные особенности метаболизма.

Speaker A

У людей очень может сильно различаться. один человек метаболизирует там это это это действующее вещество там за 3 часа, а другой за 10 часов.

Speaker A

Соответственно если например мы рассчитываем, что это, ну, как бы усвоение этого лекарства идёт в течение 10 часов постепенно, то это как бы правильный, например, вариант. То если то же самое произошло за 3 часа, это значит, что, грубо говоря, доза вещества

Speaker A

гораздо выше. оказалось, и это может привести к каким-нибуд побочным явлениям. Соответственно, если у нас мы можем построить такую модель, часто мы знаем, что это определяется генетически вот эта вот способности к метаболизму. Можем построить такую модель, которая, грубо говоря, имея геном человека, может

Speaker A

предсказать, как какая какая должна быть доза, чтобы эффективно усваивать этот лекарственный препарат. Другой вариант, более такой технологический.

Speaker A

Э, сейчас очень многие генные терапии, а они используют вирусные вектора для того, чтобы внедрять в клетку какую-то последовательность э-э буковок, с которой считывается, ну, протеин, да, который белок, который является действующим веществом, который как-то должен регулировать работу клетки.

Speaker A

И соответственно вот этот вот векторная вектор, вот этот вирус, да, который мы вставляем вот эту вот полезную нагрузку, он должен как бы мы должны решить несколько задач для того, чтобы это лекарство работало. Первое, оно должно проникнуть в клетку. За это отвечает как

Speaker A

бы, ну, вот вирусная часть. А второе, зачастую нам нужно, чтобы это вещество, оно как бы считывалось и экспрессировалось только в определённом типе клеток, но не в другом типе клеток.

Speaker A

То есть вы хотите, чтобы у вас в печени это вещество появлялось, а в мозге не появлялось.

Speaker A

Как сделать это целенаправленно? Для этого необходимо как бы к этой полезной нагрузке добавить некоторую последовательность, которая будет как бы управлять считыванием, говорить: "Вот это надо считывать, то, что за мной идёт или нет". Это то, как работает на самом деле

Speaker A

наш геном, да? Есть некоторая последовательность ээ в ДНК, которая называется там промоторная регуляторная последовательность гена, которая э управляет тем, считывается тот ген, который за ней находится или нет.

Speaker A

И, соответственно, вот стоит задача, так как в генетельность достаточно длинная, а наша вирусный носитель, мы ограничены в длине, в буквах, сколько мыда можем записать, нам нужно подобрать такую оптимальную последовательность, которая бы запускала считывание в определённом типе клеток. Так вот, при

Speaker A

помощи таких генетических моделей можно оптимизировать и вот искать такие последовательности, которые позволят как раз клет к клетоспецифично ну экспрессировать ээ терапевтические агенты в необходимых клетках.

Speaker A

Не до конца ясно, по крайней мере, пока как ты описал, почему важно иметь токены большого размера, то ли потому, что я просто по поразмышляю вслух, ты поправь меня, если я не прав.

Speaker A

То есть, а то ли потому, что можно с помощью вот этих больших токенов создать более эффективную модель, э, какую-то лингвистическую модель ДНК, то есть создать аналог как бы лмки и натренировать её так, чтобы когда мы запускали в неё ээ вот, например, такую

Speaker A

задачу, получать про промоутер или про реакцию организма на определённые лекарства, да, а получать более ясный инсилика ответ в, то есть в машине, да, обсчитывать как бы эту проблему. Но как бы какой у нас способ сейчас, да? Вот есть там тот же стартап Миша Застрожена

Speaker A

PGXI, то есть как бы, но они используют, что они смотрят на имеющиеся данные разных клинических исследований и исходя из этого формируют потенциальные рекомендации там какие лекарства в какой дозировке людям с каким геномным профилем будут ээ как они будут

Speaker A

работать, то есть обрабатывая те данные, которые которые уже есть, не строя универсальную модель и используя те системы, которые уже есть сейчас. Они, по-моему, строят уже свою какую-то модельку, но имеется в виду, они всё равно им не нужны вот эти супербольшие

Speaker A

токены, да, почему-то они используют имеющиеся данные. Контекст. Контекст, да, контекст. А, то есть как бы они используют, насколько я понимаю, существующие подходы, существующие трансформеры и как-то справляются. Может быть, просто у них сохраняются ошибки, но они не настолько критичные, да? Но в примере с

Speaker A

пробоутером суть, я предполагаю, что размер этого контекста супербольшие токены, это неправильно выразился. Вот эти как бы многомиллионные, я назвал это токенами, имел в виду, да, то есть этот очень большой контекст нужен тогда, когда промоутер и редактируемая часть находятся очень далеко друг от друга. И,

Speaker A

соответственно, также, как ты сказал, что если модель смотрит в начало и в конец, если мы будем использовать, условно говоря, существующие модели, чат GPT там или на них будем что-то тренировать, то, скорее всего, задавая им задачку с как бы

Speaker A

вот ту же самую биологическую задачку на промоутер и редактируемую часть, то мы получим э большую частоту ошибок, потому что они не смогут увидеть весь этот контекст. Поэтому нам нужно он очень большой, потому что промоутер может быть далеко от редактируемой части. А

Speaker A

правильно я понимаю? Или или или где-то напутал что-то? Да, здесь есть два разных фактора, которые на это влияют. Но прежде чем мы к ним перейдём, ну вот когда ты говорил, что мы возьмём какую-то лмку, там Клод или ещё кого-то и натренируем,

Speaker A

то тут нужно отметить, что ты имеешь в виду, наверное, что ламу. Ну ламу. возьмм которая не обучена на языке, и просто будем учить на ДНК. Ты это имел в виду, например? Да.

Speaker A

Ну, потому что как бы если она училась на языке, но не училась на ДНК, она про ДНК ничего сказать не может. Она ничего его не видела.

Speaker A

Вот теперь мы возвращаемся к этим задачам. Первое. Нам важно иметь длинный контекст в процессе обучения, а для того, чтобы выучить как раз регуляторное взаимодействие между разными участками ДНК.

Speaker A

То есть у нас вообще в регуляции Экспрессив там, ну, участвуют, как бы есть разные масштабы влияния.

Speaker A

Есть как бы совсем какой-то короткий масштаб, есть масштаб там до миллиона токенов, как что-то на что-то влияет.

Speaker A

Есть, например, у нас есть какой-то транскрипционный фактор, который может вообще на другой хромосо, но он там замутировал, он в этом типе клеток перестал экспрессироваться. И поэтому и тот ген, на который он должен был влиять, он его работа тоже

Speaker A

нарушилась. Вот чтобы выучить такую длинную зависимость, необходимо, чтобы и тот далёкий, последовательность того далёкого гена и последовательность вот этого гена, на который он влияет, находилась внутри одного контекста, потому что иначе модель не сможет выучить эту зависимость.

Speaker A

Соответственно, первый - это когда мы преобучаем модель на огромном количестве ДНК данных. Чем больше контекст видит модель, тем более сложные зависимости она может из этого выучить, тем более глубокое понимание биологии, грубо говоря, организма, она внутри себя построит.

Speaker A

Это первая часть ответа на этот вопрос. Вторая часть ответа на твой вопрос заключается в том, что действительно, когда мы начинаем генерировать промоутер для какой-то конкретной там плазмиды, то а мы не не мы можем не видеть весь геном, да? Нам видно, нужно видеть только

Speaker A

небольшой кусочек, но знание о возможных корреляциях, да, если мы знаем какой тип клеток, и мы знаем, что в этом конкретном типе клеток есть какой-то далёкий транскрипционный фактор, который связывается с какой-то частью вот этой нашей большой промоутерной последовательности, это позволит на

Speaker A

нашей модели найти те кусочки промоумотерной последовательности, которые как раз важны для данного типа клетка клеток, но не для другого типа клеток, потому что как бы ген Он как бы, ну, есть гены, которые почти во всех клетках работают, а есть гены, которые

Speaker A

работают. Нам интересны те гены, которые в разных типах клетках работают, которые их дифференцируют друг от друга. И вот, чтобы выучить вот те управляющие кусочки, которые важны для дифференцировки, они как раз зависят от этих удалённых генов. Поэтому, если модель их не выучила, то и их сложно

Speaker A

предсказать. Она может только из небольших данных как-то, если мы разметили это попытаться предсказать. И это как бы часть промотры. Если мы возьмём вопрос с мутациями и с фармакогенетикой про метаболизм лекарств, то часто, например, у нас есть генотип, есть, ну, все мутации этого

Speaker A

генотипа, как он отличается от референсного генома. Эти мутации могут быть разбросаны по всему геному. И часто мы можем не иметь знания о том, какая из этих мутаций в действительности влияет на этот метаболизм.

Speaker A

А мутации может быть миллион. И вот мы как бы хотим теперь получить предсказание. То есть у нас есть данные. Вот человек с таким-то генотипом, с такими-то мутациями, он вот так-то усваивает.

Speaker A

Другой человек вот с такими-то мутациями вот так усваивает. И у нас есть таких, не знаю, там, ну, сколько, тысячи примеров или 10.000 примеров.

Speaker A

И утверждение такое, что если у нас есть модель, которая может смотреть на весь геном и видела все геномы, которые доступны человечестве, то она сможет вот по этой обучающей выборке гораздо лучше найти вот те мутации, которые влияют на метаболизм и построить лучшую

Speaker A

квалификационную модель. Потому что мы можем как бы другими способами попытаться найти. Мы знаем, ага, вот из учебника, ну или из каких-то статей, что вот это вот, скорее всего, вот этот ген связан с кимметаболизмом. Поэтому, скорее всего, мутация вот рядом с этим

Speaker A

геном будет как-то ассоциирована. Тогда мы выбросим все остальные из этого миллиона и оставим только тыся, подадим на вход нашей модели, и тогда она будет что-то предсказывать.

Speaker A

Как бы так можно делать. И, ну, просто утверждение о том, что если у нас есть модель, которая выучила все геномы, то она будет лучше решать эту задачу, когда она будет видеть сразу все мутации. Да, я скорее хотел привести пример, который

Speaker A

может быть понятен слушателям, потому что, ну, Миша был застрожен был несколько раз и мы, ну, я так иначе возвращаюсь к теме фармакогеномики AI, как пример того, как AI приносит пользу, а не только, в смысле, не только проходит, не только вред,

Speaker A

да, как, да, не только вред, только жгёт электричество и потребляет чистую. Нет, то, что он не электричество меня не беспокоит, там электричество, вода, там мы на найдём какой-то способ это эту проблему решить. Главное, чтобы от этого была польза, потому что просто генерация

Speaker A

более дешёвая картинок или какого-то контента, ну, не самая полезная вещь. Большой контекст, такой гипербольшой контекст Бабилонг он нужен и, ну, значит, он нужен и для тренировки модели, и для потом решения задачи.

Speaker A

А вопрос, то есть сейчас последняя версия трансформера от двадцать четвёртого года умеет делать 50 млн токенов за раз, чтобы тренировать модель этого достаточно. А а при этом у нас 3 млрд в в ДНК, и если считать, что нам

Speaker A

все вся информация оттуда нужна, это 300 млн. Достаточно ли пятидесятимиллионного контекста для тренировки при условии, что ДНК 300 млн? То есть её можно нарезать или всё-таки надо сперва какой-то найти способ делать эффективным и умещать в контекст там 500 млн или

Speaker A

миллиард токенов, и тогда уже это как бы заработает. Технически мы уже можем при помощи нашей модели обучать на полный геномы. Как это, как это мы можем посчитать? Вот в наших экспериментах на 50 млн токенов мы делали следующим образом. Мы брали окна,

Speaker A

сегменты по 500 токенов. Это значит, что наша модель смогла решить задачу на 100.000 сегментов, да? То есть мы показываем, что если у нас есть 100.000 сегментов, то модель может решить задачу. Представим. Ну и это очевидно, что м современные

Speaker A

трансформеры, они достаточно хорошо работают, там, не знаю, на 8.000 токенов. То есть это базовая длина трансформеров, которые современно обучают в предобучении - это 8.000 токенов.

Speaker A

Пусть даже мы возьмём 4.000 токенов, да? А, то есть мы возьмём один сегмент 4.000 токенов. Ну или для простоты, не знаю, там было 500, стало 5.000. То есть у нас размер последовательности увеличился в 10 раз.

Speaker A

Это значит, что в токенах, если раньше у нас было 50 млн, это превращается в 500 млн.

Speaker A

Да, каждый сегмент стал в 10 раз длиннее, а сегментов то же самое число. И теперь у нас каждый токен - это 10 нуклеотидов. Получаем 5 млрд.

Speaker A

Это уже больше, чем нам нужно. Но вопрос в том, как это всё будет вместе работать, как мы это правильно будем обучать, это как бы это, как это сказать, это покажет наше будущее исследования. Но с технической точки зрения, с инженерным,

Speaker A

мы уже можем больше обрабатывать, чем геном человека. И причём это несокращённо. Нумы, если мы выбросим все повторы, которые занимают там, мы оставим только половину, так консервативно подрежем, кто-то там скажет, что можем можем 70%, пош мы остали 50.

Speaker A

У нас есть большой запас, да, нужно каких-то всего миллионов э- 100100, можно сейчас с десяти. То есть, если у вас есть свободные 10 млн долларов, пишите на адрес номер телефона записы 0033223.

Speaker A

Пишите нам, мы соединим вас с Мишей. Если у вас есть свободные 10 млн, помогите растянуть контекст.

Speaker A

Растянуть контекст. Нет, ну я так понимаю, что контекста уже достаточно. Надо просто натренировать дальше модель.

Speaker A

Будущая Нобелевская премия. Альфад уже получил всего лишь за протеины, понимаете? Альфафолде делал только протеины, а здесь вся вся ДНК, да? Да. То есть все белки, они записаны внутри ДНК. То есть в человеческом геноме там, не знаю, там больше 20.000

Speaker A

генов. То есть, в принципе, потенциально вы можете спонсировать получение более 20.000 нобельских премий. Если за сворачиваюсь с одного белка дали одну нобелевскую премию, а её геноме 20.000, то простая арифметика показывает, что 20.000 близких перей, да, это не обязательно спонсировать, это

Speaker A

может быть фо инвестиции, то есть мы сделаем SPV, тем более тем более 20 20.000 умножит на миллион с Лубольской премии миллион, то потом инвестиции легко окупаются. Мы просто перемножим одним на другом.

Speaker A

Это несомненный вклад в развитие человечества. Я не шучу, кстати говоря. Я знаю, что нас слушает много людей, которые обладают капиталом и как бы интересуются. Это прямо вот такая такая вещь, которая, несомненно принесёт много пользы человечеству. Аа с удовольствием

Speaker A

поспособствую вашему знакомству с Мишей при условии, что это не, как сказать, не кровавые деньги. Ну, в общем, если всё чисто чисто законно, то, ээ, помогу организовать процесс, потому что, мне кажется, за этой истории будущее, и надо ковать её пока пока есть такая

Speaker A

возможность, пока есть интерес к Ааю и Миша находится в Лондоне. Это, мне кажется, уникальная -э возможность создать что-то классное. А, ну можешь привести пример задачи? Ты сказал, что это была минутка рекламы почти. Э пример задачи. Ты сказал, что вот сейчас то,

Speaker A

что вы делаете, ну, с с коллегамисследователями, э это, я так понимаю, что пока не, ну, не бизнесовые задачи, а исследовательские. Э и это получается.

Speaker A

Можешь просто пример привести, как это как такая задача выглядит? То, что с найти что-то в контексте типа маше мыло там вазу или что-то такое. А, понятно, найти текстовую иголку в стоги сена, но в биологии понятно, что надо не просто

Speaker A

найти какую-то последовательность, а нужно убедиться, что это, ну, на что-то влияет. Классный кейс расскажу. Там ещё до конца нет результатов, но зато мне кажется очень понятно и идеологии, как это работает. То есть, смотрите, у нас есть такой феномен, который очень важен для

Speaker A

медицины. Это резистентность к антибиотикам у бактерий. То есть у нас есть много больничных инфекций, которые уже выработали резистентность стандартным антибиотикам. Людей заражают, когда они находятся в ослабленном состоянии после операции, и на них не действуют антибиотики, и поэтому люди погибают от воспаления.

Speaker A

Кажется, что люди давно пытались это сделать, что существует такой замечательный инструмент, как вирусы. Инфекции, которые заражают человека - это бактерии. Но есть вирусы, которые заражают только бактерии, но не заражают клетки человека.

Speaker A

Это так называемые фаги. И вот казалось, мы можем предложить такую фаговую терапию. Ну и на самом деле такая терапия есть. Во многих странах разрабатываются виды такой терапии, где мы собираем такие библиотеки вирусы, которыми будем заражать эти бактерии и бактерии будут

Speaker A

погибать. Таким образом, мы будем избавляться от этой инфекции, от больничной инфекции. А, соответственно, мы сейчас и ведём совместное исследование с компанией TL Bio, которая как раз цель её разработка и коммерциализация вот такой фаговой терапии для антибиотико-резистивных ээ штамов, бактериз.

Speaker A

Смотрите, как там можно поставить теперь задачу. У нас есть последовательности фагов. Это вирусы, которые заражают бактерии. И мы знаем из лабораторных исследований, как хорошо тот или иной вирус заражает бактерию. Соответственно, мы берём нашу ДНК модель. Эта ДНК модель, она как бы

Speaker A

кодирует последовательность вируса и, э, предобученная и учит такой предсказатель оценку, насколько хорошо при данном куске, в вирусе этот вирус будет заражать данный тип ээ бактерий.

Speaker A

И, соответственно, что мы можем делать теперь, когда у нас есть такая модель, которая хорошо предсказывает, мы теперь можем вносить мутации в компьютере Insilicon и отбирать те последовательности которые максимизируют заражаемость, чтобы ускорить экспериментальный цикл.

Speaker A

То есть мы сгенерируем последовательность, потом они проверяются в лаборатории. Если действительно они срабатывают, мы их оставляем. То есть у нас включается такой инструмент, который может там, ну, мы генерировать миллиарды, миллиарды, миллиарды этих мутаций. мы их будем отбирать через нашу предсказательную

Speaker A

модель скоринговую и потом использовать вот для этой фвой терапии. То есть, если мы нам удастся создать такую систему, понятно, что тут важный момент, что бактерии будут эволюционировать.

Speaker A

То есть как бы когда мы начнём их лечить вирусами, то бактерии будут пытаться приспособиться к этим вирусам и адаптироваться. Поэтому наш прогноз, что эта система будет работать только, если она постоянно генерирует, ну, дообучается на реальных данных и постоянно будет генерировать новых и

Speaker A

новых фагов. Так что бактерии не будут успевать к ним приспосабливаться. То есть мы должны создать какой-то цикл из этих флагов, каждый из которых заражает следующий вид бактерий. И таким образом мы как бы будем их обгонять. И в принципе, ну кажется, что это вполне

Speaker A

решаемая задача. Я думаю, если она будет решена, то это тоже наберская прима. То есть если кто-то, кто создаст такую фговую терапию и решит проблему больничных инфекций, да, вот это и резистентности к антибиотикам, это будет вообще классный прорыв.

Speaker A

Круто. Спасибо тебе, Миша. Спасибо тебе, Ивр. Это было очень интересно. И мы не поговорили про агентов, про как бы передний край, но мы, я думаю, что ещё раз встретимся обязательно и поговорим про эт передний край и что он нам

Speaker A

принесёт в смысле интеллекта, искусственного интеллекта и этих моделей. А тебе желаю удачи с этим проектом.Сибо, мне кажется, у него дол должны найтись, эли спонсоры, то то инвесторы. Круто, что есть уже конкретные приложения Фаговая терапия. Звучит как классно. Я

Speaker A

се отдельно записал про фаги. Мне кажется, у нас мало было материалов про фаги. А, ну и вообще как бы резистентность от антибиотиков отдельная большая тема, про которую можно поговорить. Спасибо.

Speaker A

Спасибо большое за приглашение. всегда с огромным удовольствием подключаюсь ээ к подкастам э науки и приезжаю в студию и вещаю из из тех мест, где я обитаю, подкреплённый духом Макса Лайфроде и завершающая фразы. На самом деле наука - это же ээ самая большая ценность для

Speaker A

человечества, потому что наука она открывает будущее для нас. И чем больше мы знаем о будущем, тем больше возможности у нас выбрать то, куда мы хотим попасть.

Speaker A

И вот прикладная ценность науки, она, конечно, хорошо видна. Там можем сделать какой-нибудь чайник там или мост. Но на самом деле, чем больше глубина у науки, чем более тем больше её фундаментальность, тем более широкое пространство тех состояний мира, в которых мы будем

Speaker A

существовать, мы получаем. И давайте не забывать про эту ценность науки и ценить эти фундаментальные знания и подарим их нашим потомкам.

Speaker A

Да, это это правда. И и, к сожалению, часто люди недооценивают, насколько наука как институт вещь хрупкая.

Speaker A

Её воспринимают как данность. А-э, а при этом далеко не в каждой стране и не в каждом городе есть, ну, существует наука не как уже обобществлённое знание, а как практика. Ээ, не везде можно заниматься наукой. Не, не, не во всех странах. Во

Speaker A

многих странах и ей заниматься просто сложно. где-то для этого это вопрос не только финансирования, а ещё и свободы, возможности, которые необходимы учёным для того, чтобы ээ как бы думать за нас, в некотором смысле грешных, в общем, думать про будущее, формулировать

Speaker A

фундаментальные теории. И это большая ценность. И несомненно, никакого будущего человечества без науки ээ нет и не будет. И и это касается и прикладных вещей. Те вызовы цивилизационные, которые перед нами стоят, невозможно решить со существующими технологиями. Просто они не решаются от того, что мы их там

Speaker A

масштабируем, ээ, как китайцы, там всёвсё застроим, всё построим. Только инженерными решениями, к сожалению, мы не изменим.

Speaker A

Не вернём пресную воду, не принесём биоразнообразие, не долетим до других планет и так далее. Нам нужны наука.

Speaker A

которая создаёт фундаментальные открытия, которые потом превращаются в технологии, которые мы, которыми мы все пользуемся. И поэтому продолжаем просвещать ээ народ населения. Да, любите науку, цените науку. Ээ шерсть - это видео, кстати говоря, тоже распространение научного знания. Да, спасибо, Игор. И вот за это я цену

Speaker A

Постнауку, за то, что она несёт в себе вот эту прекрасную, высокую миссию распространения как бы и популяризации, и коммуникации фундаментального научного знания, делая науку более понятной её роль в обществе и её ценность.

Speaker A

Аминь. А, спасибо, Миша. С вами я прощаюсь, друзья. До новых встреч. Пока-пока. Всего хорошего.

Speaker A

Спасибо, что провели это время с нами. Надеюсь, этот выпуск вам понравился и дал пищу для размышления, для новых инсайтов. Мне он в некотором смысле напомнил беседу с Константином Владимировичем Манохиным о сознании. А, и это не случайно. Миша ученик

Speaker A

Константина Владимировича, и мы познакомились в некотором смысле параллельно с Анохиным и с Бурцевым и делали тоже какие-то совместные проекты, в том числе там работали над концепцией политехнического музея. И я видел, как как это влияние Анохина на Миша отражается, как формулирование задач,

Speaker A

постановка вопросов, любовь к фундаментальной науке, а которая на самом деле рождает прикладные аспекты, но начинается с вот этих фундаментальных вопросов. И видно, что а это не просто занятие там скажем искусственным интеллектом или какой-то хайповой темой.

Speaker A

Это поиск ответа на сложные э вопросы, на на загадки. И в некотором смысле это попытка понять сознание машин. И не случайно, что мы с Анохиным закончили на этой теме. И явно нам нужно будет её продолжить. Если не видели этот выпуск,

Speaker A

обязательно посмотрите. Э, мы оставим ссылку на него. Но я ещё советую посмотреть выпуск с Михаилом, который мы записали полтора года назад.

Speaker A

посмотреть на динамику, как изменились темы. Ну и если этот выпуск показался вам, может быть, излишне сложным, предыдущий создаёт большей контекст про модели, про эллэмки, про какие-то более базовые вещи. Я вижу, как мы с каждым выпуском становимся как бы всё глубже и

Speaker A

глубже проникаем в некоторые темы. Поэтому, когда вы видите героя, который уже был в подкасте, пойдите в предыдущие выпуски и и посмотрите, часто мы отталкиваемся от предыдущих тем. И мне хотелось бы задать вам вопрос по следам этого подкаста, который по сути остался

Speaker A

за скобками, но про который интересно было бы поразмышлять. Мы коснулись его буквально вскользь. Про е агентов и возможность появления реального гражданства у искусственного интеллекта, их налогообложения, если они вдруг станут нашими как бы соавторами и активными игроками, они уже

Speaker A

ими становятся. Как вы думаете о такой перспективе? Что что вам что вам кажется? Это наш прогресс развития или или деградация? Будет ли у них и может ли у них быть зачатки сознания или это всё же мечта из ээ мира научной

Speaker A

фантастики, которая сейчас пока недостижима? С вами был Ивор Максутов. Подкаст мыслить как учёный. Спасибо и до новых встреч. Пока.

Topics:искусственный интеллекттрансформерыбольшие языковые моделиattentionнейросетимашинное обучениеМихаил БурцевПостНаукаобработка естественного языкаtransfer learning

Frequently Asked Questions

Что такое трансформер и почему он важен для современных моделей ИИ?

Трансформер — это архитектура нейросети, основанная на механизме внимания (attention), которая позволяет эффективно обрабатывать большие объемы данных и контекста. Он стал основой всех современных больших языковых моделей, таких как GPT.

В чем отличие субъекта человека от больших языковых моделей (LLM)?

Человек обладает субъектностью и целями, которые формируются через опыт и сознание. Большие языковые модели не имеют собственных целей или субъектности; их поведение определяется обучением и посттренингом, который задаёт предпочтения в ответах.

Какие два подхода к созданию искусственного интеллекта обсуждаются в видео?

Обсуждаются два подхода: снизу вверх — имитация работы мозга через изучение нейронных сетей, и сверху вниз — построение ИИ на основе абстрактных категорий и символических моделей. В современности доминирует подход, основанный на нейросетях и трансформерах.

Get More with the Söz AI App

Transcribe recordings, audio files, and YouTube videos — with AI summaries, speaker detection, and unlimited transcriptions.

App Store Google Play

Or transcribe another YouTube video here →