AI: от основ до трансформеров. Регрессия. Лекция 3. — Transcript

Лекция о регрессии в машинном обучении, переход от классики к трансформерам, с разбором линейной регрессии и предположений модели.

Key Takeaways

Регрессия — задача предсказания вещественных значений на основе входных данных.
Линейная регрессия — простая, но фундаментальная модель с обучаемыми параметрами.
В реальных данных всегда присутствует шум, который нужно учитывать в модели.
Сложные модели могут переобучаться, поэтому важен баланс между точностью и обобщением.
Математические инструменты помогают формализовать и оптимизировать процесс обучения.

Summary

Введение в курс от классического машинного обучения к глубокому и трансформерам.
Обзор обучения с учителем и роли размеченных данных.
Переход к задаче регрессии с объяснением целевых переменных и входных данных.
Разбор линейной регрессии как базовой модели с обучаемыми параметрами.
Обсуждение предположений модели, включая наличие шума и ошибки.
Визуализация данных и объяснение необходимости простых моделей для обобщения.
Пояснение, почему идеальные предсказания невозможны и как учитывать ошибки.
Введение в методы оценки качества модели и работу с ошибками.
Обсуждение математических инструментов, таких как матрица плана и базисные функции.
Заключение с приглашением к вопросам и обратной связи.

Chapters

Full Transcript — Download SRT & Markdown

Speaker A

А так, ну что, давайте начинать наконец-то снова. Прошу прощения за небольшую задержку всем. Добро пожаловать на третью лекцию по нашему курсу, который из классического машинного обучения постепенно перетекает в глубокое, до самых модных архитектур, таких как трансформеры. Мы с вами на прошлой лекции

Speaker A

разбирали обучение с учителем, да, самой его основы без конкретики. И сегодня конкретика наконец-то к нам приходит. Машинное обучение, напомню, это тот класс алгоритмов, где количество опыта или, иначе говоря, данных повышает вашу точность. И в обучении с учителем мы с вами говорили о том, что здесь

Speaker A

основная суть в том, что у нас есть обучающая выборка, которая размечена. Так, сейчас один момент, стало хуже, по-моему. Окей, да, стало хуже сейчас. Извините, пожалуйста, другое дело. Итак, да, у нас есть правильные ответы, а у этого есть свои плюсы, свои минусы, да.

Speaker A

Часто это необходимость разметки, если конечная задача, но, как я уже сказал, нам не нужно на это смотреть таким образом, потому что часто это лишь элемент в более сложном плане обучения. Вот у нас есть входные мерные векторы, у нас

Speaker A

есть наши правильные ответы, это наша нотация. И соответственно, если мы с вами ведём речь про классификацию, то в этом случае это про номера классов. Сегодня нас этот вопрос беспокоит меньше, а больше нас интересует регрессия, тот случай, когда наши target variables в общем

Speaker A

случае это будут какие-то там мерные векторы. Но мы с вами будем считать, что это просто скалярное значение, то есть нам для каждого входного вектора необходимо предсказать ровно одно вещественное число. Итак, мы с вами очень подробно разбирали в прошлый раз по поводу

Speaker A

разбиения датасета на части. У нас была обучающая выборка, у нас была выборка валидация и была выборка тестовая. Да, я сейчас повторять всё это не буду, потому что это всё более-менее, ну точнее, ну какой смысл, тогда это будет такая же

Speaker A

лекция, как прошлая, да. И вот наконец-то мы с вами переходим к задаче регрессии. Мы с вами разбираем линейную регрессию. Это означает, что наша модель будет линейная. Мы с вами в неё в итоге некоторую нелинейность добавим, но в самом своём сердце, в самой своей сути она

Speaker A

линейной останется. С этим в каком-то плане поспорить нельзя, точнее, как это будет не в моде, но та компонента, которая будет отвечать за машинное обучение, она будет линейной. Итак, если нам необходимо с вами предсказать одну или более целевых переменных, которые у нас являются

Speaker A

вещественными, да, на основе мерного вектора X, а то мы говорим о том, что у нас задача регрессии. Как это могло бы выглядеть? Давайте посмотрим на этот слайд. У нас с вами есть датасет, да, и давайте считать, что это наша, например,

Speaker A

обучающая выборка, а в ней N большой элементов. Соответственно, у нас есть входные векторы мерные X1, X2, X3 и так далее, и так далее, Xn, и у нас есть с вами целевые переменные T тоже N штук. Каждому вектору

Speaker A

соответствует одно значение. Если мы с вами представим, что наши входные переменные скалярные, то есть X1, X2, X3 — это на самом деле не векторы, а просто вещественные числа, то получится, что мы с вами наш с вами датасет сможем отобразить на плоскости.

Speaker A

Да, у нас по оси Ox будет непосредственно X, да, наш входной вектор, а по оси Oy будет T. И вот этот пример вы видите, а в правой части слайда, а то есть мы с вами просто для визуализации, для демонстрации

Speaker A

буду такие графики показывать, то есть там предположение, что input variable у нас скаляр. Так, теперь эти данные я сгенерировал определённым образом. Каким именно образом поговорим потом, потому что это будет тот способ, который, скажем так, удовлетворяет базовым предположениям, которые лежат в основе

Speaker A

тех алгоритмов, что мы сегодня разбираем. А эти предположения следующие. Это очень важно, это же лекция с этой точки зрения, это не какое-то уникальное знание, но если вы слушаете это в первый раз, то это тот момент, где необходимо со всем вниманием к этому

Speaker A

обратиться. Итак, а у нас есть наши с вами данные, где входному значению X, да, входному вектору соответствует некоторое целевое значение T, и мы теперь хотим построить некоторую функцию, которая нам для новых значений X будет давать какое-то адекватное значение

Speaker A

T. Для того чтобы это сделать, мы с вами выдвинем следующее предположение: мы считаем, что значение целевой переменной T для какого-то входного вектора X определяется значением детерминированной функции Y от X и W с некоторым нормально распределённым шумом си. Вот эта формула вы

Speaker A

видите, вот здесь, вот она. Смотрите, T равняется Y от XW плюс си. Позвольте, я своё объяснение несколько сделаю более подробно, сейчас секундочку. Итак, что нам необходимо вообще, что нам эта формула даёт? Во-первых, я мог бы, давайте мы начнём с самых азов, и я

Speaker A

напишу следующее: T равняется некоторому Y, да, где Y ни от чего не зависит. Что это означало бы, если мы такое предположение, э, выдвинули, сделали? Да, то есть мы говорим: у нас есть некоторая константа Y, и наше базовое предположение следующее, а

Speaker A

что целевая переменная равна этой константе. Какие это накладывает на нас ограничения? Такие, что получается, что целевая переменная не зависит вообще от X, да. То есть получается, что если мы с вами у нас есть какие-то данные, да, вот у нас X, вот у нас T, и у

Speaker A

нас есть датасет, то если вы работаете в рамках данного предположения, то получается, что вы можете построить только вот такую модель, где T равняется Y констант. То есть вам нужно будет просто определить высоту этой линии, да, какой Y должен быть.

Speaker A

Можем взять там среднее значение T и такое T выдавать. Понятное дело, что это так себе модель, да, она не реагирует на её вход. Окей. А теперь мы сделаем, ладно, давайте ещё один шажок сделаем. Я мог бы сказать вот так:

Speaker A

смотрите, давайте Y, которая описывает наши данные. Что в таком случае я мог получить? Здесь будет два момента. Первый момент — это то, что у меня будет какая-то такая функция, но вы видите, что в реальности данные отличаются от этой линии. Даже

Speaker A

если я, как бы, идеально её не провёл, получится. Так что даже хуже в каком-то плане. То есть у меня это предположение, как и предыдущее, оно в принципе не выполняется. Но здесь есть ещё один нюанс: мне получается необходимо строить модель.

Speaker A

Мне необходимо искать вот эти функции Y. А их бесконечное количество. Тогда мы можем с вами сделать ещё один шажок и сказать: хорошо, я зафиксирую в каком-то виде вид функции Y, не буду сильно там. То есть просто Y выглядит вот так-то, и

Speaker A

эта функция Y будет зависеть не только от X, она будет зависеть и от W. И W — это и есть те самые наши обучаемые параметры. То есть получается, что если Y зависит от X и W, то я могу

Speaker A

переформулировать задачу следующим образом: я не буду искать произвольную функцию Y, я зафиксирую функцию Y, буду искать такие параметры W, при которых Y от XW будет хорошо описывать мои данные. Проблема здесь какая? Такая, что по-прежнему мы считаем, что мы должны найти какую-то

Speaker A

функцию, которая была бы вот такая, да, где ошибок нет. Здесь она даже не функция, но неважно. Поэтому мы должны каким-то образом тот факт, что наши предсказания будут не идеальными, потому что если вы хотите идеальных предсказаний, да, если вы

Speaker A

хотите то, что я вот здесь нарисовал, то в этом случае сразу подготовлю вас к разочарованию, которое будет касаться обобщения. Ваша модель не будет хорошо обобщать. Вот поэтому мы хотим, да, чтобы эта функция была сравнительно простой. Мы хотели бы, чтобы она была какой-то вот

Speaker A

такой, но если она такая, то получается, что не все данные лежат на этой функции, получается, что наше базовое предположение не выполняется само. А в чём дело? Дело в том, что есть некоторая ошибка, да. Смотрите, здесь отклонились, здесь отклонились, здесь,

Speaker A

здесь, здесь, здесь, ну в некоторых местах не отклонились. И возникает вопрос: а как с этими ошибками работать, как с этими отклонениями работать, да? Нам необходим какой-то инструмент, который мог бы нам сказать, что лучше, да? А, например, допустим, мы ограничены с вами линейными

Speaker A

моделями. Да, и что лучше: в двух случаях идеально угадать и в одном случае сильно ошибиться, или лучше, например, везде ошибиться, но нигде не ошибиться сильно? Необходимо каким-то образом сравнивать ошибки между собой, говорить, какая ошибка хуже. Если мы говорим, что здесь просто вот э

Speaker A

детерминированная функция, всё, то получается, что вы вообще...

Speaker A

слож па магония пому что э логика с одной стороны простая а с другой стороны это логика которая сразу же несёт в себе а ошибку то есть эта логика почти никогда не верна но при этом это работает хорошо и

Speaker A

поэтому в каком-то плане оставили А идея будет следующая мы считаем что помимо вот этой детерминированной компоненты У нас есть ещё компонента которая отвечает за шум некоторая си и мы будем считать что этот шум имеет нормальное распределение с нулевым средним и

Speaker A

некоторой фиксированной дисперсии сигк что здесь здесь интересно то что у меня си и распределение си А во-первых что здесь как бы просто понятно И полезно Это то что теперь Когда у нас будет расхождение то есть Теперь мы можем сказать

Speaker A

Окей я ищу точнее даже так у меня где-то то есть когда эти данные порождали каким-то реальным процессом может быть физическим может быть это не знаю В результате действия каких-то людей или что угодно или экономический процесс там в основе лежит некоторый

Speaker A

детерминированный закон который может быть не очень сложный который не будет описывать мело он будет ошибаться но эта ошибка Она будет иметь вот такое нормальное распределение с нулевым среднем и фиксированной дисперсией И теперь я могу поставить задачу регрессии следующим образом я хочу найти этот

Speaker A

закон Y Причём я заранее ограничиваю поиск этим законом тем что я фиксирую Как выглядит фиксирую Как выглядит моя функция y и буду искать просто параметры W которые будут который максимально приблизит меня вот к этому так Уважаемые студенты Уважаемые

Speaker A

слушатели на Ютюбе Поставьте пожалуйста плюс А если вам понятно что я объясняю так а теперь время почитать комментарии Добрый день будет ли выложен в ближайшее время курс math ai Ну я видел ваш комментарий в Telegram канале Да это

Speaker A

всегда вызывает у меня чувство вины потому что он ещё не смонтирован Но я надеюсь на это вот у меня сейчас достаточно хлопот Я не могу это сделать там своим приоритетом номер один но план у меня такой есть но

Speaker A

для этого нужно несколько людей синхронизировать и чтобы это всё сделалось так Спасибо за лайк и за подписку и за комментарии в т Стример чат не читает потому что ого читает читает периодически Вот как сейчас а в целом у меня на весь экран

Speaker A

развёрнутая презентация А я отслеживаю что вы видите ровно то что я хочу чтобы вы видели когда смотрите этот самый Стрим так Аа Сейчас мы посмотрим Ага я вижу что Понятно Уважаемые студенты если не понятно ставьте пожалуйста минусы задавайте

Speaker A

вопросы а и я на них отвечу пока Буду считать что понятно но опять же Не стесняйтесь меня в этом плане переубедить Итак Что здесь интересного интересно здесь вот что что если мы посмотрим с вами вот на эту формулу Мы видим что в этой формуле нет

Speaker A

X Хотя это могло бы быть следующим образом мы могли бы сказать что у нас дисперсия зависит от x каким-то образом но мы этого не делаем и это и есть причина по которой это модель не очень-то хорошо описывает реальность Я приведу пример я

Speaker A

его регулярно привожу а Представьте что вы предсказывает стоить биткон в долларах завтра и понятное дело ваш алгоритм не идеален и даже даже давайте так скажем что тот закон детерминированный который в основе всей этой Крипто экономики лежит он тоже

Speaker A

не он он да О'кей какой-то детерминированный закон он ошибается и модель которую вы сделаете она тоже будет ошибаться и в случае если завтра биткойн будет стоить 50 центов Допустим мы с вами находимся на заре биткоина Да когда биткон стоил очень дёшево вот он стоит

Speaker A

50 центов и тогда ошибка в доллар да вместо 50 центов предсказать полтора доллара это ощутимая ошибка то есть модель никчёмная в каком-то плане если же биткойн стоит 20.000 долларов то ошибка в доллар А это почти не ошибка Да потому что

Speaker A

колебания курса значительные и доллар - это лишь 1 это значение и соответственно 1 про ошибки но с точки зрения данной модели где мы говорим что дисперсия Сигма квадрат постоянная это приведёт к тому что для нас какое бы значение X ни было

Speaker A

Какое бы значение Т ни было у нас с вами всегда мы смотрим на абсолютное значение ошибки ино входным данным никак не привязано Хотя очевидно что там чем больше чем больше т и соответственно когда X такое что Т большое то понятное

Speaker A

дело что ошибки там будут больше дисперсия ошибок будет больше но это привело бы нас к более сложной модели А мы хотим модель простую и выясняется что эта логика она по-прежнему будет справляться и вручать вас почти во всех случаях

Speaker A

А теперь мы могли бы с вами задать вопрос ещё вот какой может быть нам не нужно Здесь нормальное распределение может быть распределение должно быть другим Так сейчас секундочку А Понятное дело что основание выбирать нормальное распределение У нас есть Потому что когда у нас с вами

Speaker A

ошибка или шум является следствием влияния большого количества факторов каждый из которых влияет незначительно то по известным теорема теории вероятности это будет нормальное распределение Поэтому с этой точки зрения всё довольно приемлемо Однако необходимо понимать что если вы знаете природу ошибок и она

Speaker A

ненормальная есть Нера Ира скорее всего обратить на это внимание и может быть использовать другую модель и она приведёт что интересно вас к другой целевой функции так хорошо Теперь давайте мы с вами в этот вопрос так Уважаемые студенты Поставьте

Speaker A

пожалуйста плюс снова если вам понятно плюс-минус Если не очень понятно и минус если совсем не понятно Так это таки так Спасибо за комплимент за лекции Это я очень ценю но мы пока без донатов Да А так лосы выводить

Speaker A

будем да будем Я вижу у вас определённое нетерпение Я попросил бы ну то есть Вы не переживайте Всё будет нормально хорошо Поехали дальше так возможно предсказать курс битка с несет с вероятностью больше 50% Смотрите тут дело в том что Смотря что

Speaker A

вы понимаете под вероятностью Если вы под вероятностью имеете в виду вероятность того что он пойдёт вверх или пойдёт вниз а то Да можно там проблема в том что он иногда пойдёт вверх на доллар вниз на 100 долларов и неже это использовать для

Speaker A

того чтобы например спекулировать биткоином в плюс вот поэтому с этой точки зрения необходимо скорее говорить Можно ли предсказать курс битка таким образом чтобы можно было выигрывать у рынка и я сомневаюсь что это возможно скажем так все те кто смогли

Speaker A

это сделать они об этом не расскажут ещё такой момент есть Теперь давайте мы с вами продвинется всем этим будет у нас стоять во-первых а допустим у вас есть какой-то X и у вас есть какие-то параметры W которые определяют Y

Speaker A

а возникает вопрос какое будет распределение у целевой переменной т ответ это будет нормальное распределение Да почему потому что это у нас детерминированное значение это Константа с точки зрения всего этого и вся Случайность у нас находится в си а

Speaker A

имеет нормальное распределение получается что Т будет иметь нормальное распределение мы пока не будем говорить Какое среднее но Сигма квадрат потому что это дисперсия нашей ошибки А теперь возникает вопрос А какое среднее ответ очень простой Да среднее на самом деле это наш

Speaker A

Y то есть понятное дело Да что если у вас есть ой-ой-ой Простите пожалуйста а если у вас есть нормальное распределение с нулевым средним СФ Сигма квадрат после этого вы добавляете к нему константу то то что происходит Да это то что ваше

Speaker A

распределение сдвигается и новое среднее - это ваш Y от xw получается что вот наше среднее хорошо Теперь давайте мы сделаем с вами Вот что вот наша Давайте предположим что мы с вами обучили модель мы обучили модель и у нас есть

Speaker A

вот эта функция y от xw да то есть для каких-то W она одним образом себя ведёт для каких-то W другим образом себя ведёт вот у нас есть какое-то W какая-то функция y от xw Хорошая эта модель плохая пока неважно мы это не

Speaker A

обсуждаем Теперь мы с вами а и вот у нас есть некоторый Вектор X и вот у нас есть предсказание модели Y от xw получается да исходя из этой логики у нас с вами наша целевая переменная Т будет иметь какое-то

Speaker A

подобное распределение Да нормальное распределение перь Сигма квадрат со средним Y от xw Теперь мы задаём с вами Следующий вопрос у нас же есть какое-то реальное значение Т В нашей обучающей выборке например и допустим это значение т у нас

Speaker A

вот здесь и мы можем задать теперь вопрос с точки зрения нашей модели Насколько вероятно что мы увидим это значение сразу пояснил что так у нас с вами здесь случайная величина непрерывная то понятное дело вероятность встретить любое конкретное значение Это это

Speaker A

вероятность ра но тем неменее мы наме можем ска ской вероятностью значение в диапазоне от п Давайте будет не Или давайте это будет нуво то есть оно с нашей ошибкой никак не связано Обратите внимание то есть вот у нас т вот у нас т

Speaker A

п Си Ну вот у нас Т ми си Ну и мы задаём вопрос Следующий а Насколько вероятно с точки зрения нашей модели попадание нашего а целевого значения в этот диапазон и как мы с вами видим маловероятно Да потому что у нас наша

Speaker A

функция плотности сконцентрирована здесь а шанс что а т будет где-то здесь он микроскопически мал Простите так вот если же у нас значение Т будет здесь да то мы говорим о то что мы видим такое т для нас не удивительно Да потому что

Speaker A

нас в этой точке функция плотности достаточно велика и мы знаем что в окрестности этой точки соответственно мы знаем что нередко у нас подобное значение Т будет получаться к чему я клоню я клоню к тому что мы теперь с вами можем на самом деле

Speaker A

оценивать качество нашей модели если мы видим с вами Вот здесь ой наша модель отработала так себе потому что то значение которое мы в реальности наблюдаем с точки зрения модели маловероятно ЕС мы видим такое-то Мы говорим что наша модель неплохая Да

Speaker A

потому что это Вполне вероятно значение с точки зрения нашей модели то есть смотрите здесь немного такая контри интуитивная логика мы говорим что если что мы говорим что наша модель хороша если та реальность которую мы наблюдаем является вполне вероятной с точки зрения

Speaker A

нашей модели другой пример мы берём с вами монетку и я например утверждаю монетка честная То есть это моя модель данной монетки есть что это монетка с вероятностью 50% падает орлом 50% падает решкой и потом мы с вами делаем миллион подбрасывании и

Speaker A

она весь миллион раз падает орлом возникает вопрос может ли честная монетка миллион раз подряд упасть орлом ответ да вероятность этого известна 2 в степени минус миллион то есть на самом деле это не сделает монетку нечестной такой результат эксперимента Однако если я вам

Speaker A

скажу видите Ну то есть Это честная монетка Ну да так получилось Она миллион раз подряд упала орлом Давайте теперь играть на деньги Каждый раз когда она падает а орлом вы мне доллар когда она падает решка я вам доллар и есть высокий

Speaker A

шанс что вы не согласитесь даже если у вас нет никаких предубеждений против подобного сорта азартных игр А на такое на такой спор потому что у вас будет серьёзное ощущение что монетка нечестная откуда оно будет браться ведь монетка она либо честная либо нечестная и

Speaker A

честная монетка тоже могла так упасть а будет браться она вот откуда вы будете считать что моя модель монетки не верна что она честная потому что та реальность которую вы наблюдаете миллион бросков орлом крайне маловероятна в предположении а истинности данной модели

Speaker A

Ну то есть с точки зрения данной модели и по тому же по той же самой логике мы с вами будем оценивать модели машинного обучения и то что я только что описал называется принципом правдоподобия или иначе говоря что это

Speaker A

означает что мы с вами будем такую модель для которой данные которые мы наблюдаем то есть правильный ответ в обучающей выборке правдоподобным с вами искать такое W при котором это правдоподобие будет максимальным и это W мы с вами будем в

Speaker A

итоге использовать и принцип такого обучения называется принципом максимального правдоподобия О'кей это важный момент и теперь мы с вами вооружившись этим принципом максимального правдоподобия будем продвигаться в сторону получения целевой функции для задачи регрессии О'кей во-первых я могу сказать что то или иное значение Т да то есть я

Speaker A

могу его правдоподобие Описать как значение функции плотности нормального распределения А в этой точке Так давайте сейчас мы на слайдах до этого дойдём Я чуть-чуть в объяснение забежал вперёд так хитро будет сегодня вот получается наша функция правдоподобия пока не обращайте внимания

Speaker A

на [музыка] м да не очень удачно Сейчас секунду останемся здесь я один чуть-чуть у меня перестроил с объяснение в этот раз непривычным путём оно пошло А да Хорошо давайте мы запишем с вами функцию плотности нормального распределения всегда боюсь ошибиться

Speaker A

здесь так здесь у нас будет T мину наша модель в квадрате дел на 2 сик Так давайте убедимся что я прав Да хорошо Так откуда у нас это берётся это у нас берётся А из следующего то есть вот наш случайная величина Да вот

Speaker A

наша Средняя вот наша дисперсия и получается что я мог бы сказать я мог бы сказать что я буду искать такую модель которая максимизирует это значение относительно параметров W в чём проблема Здесь проблема здесь в том что у меня ведь не один элемент в

Speaker A

обучающей выборке меня на самом деле N большое штук возникает вопрос как мне построить вот эту функцию правдоподобия которую буду максимизировать для всех N элементов и ответ будет следующий мы с вами говорили но возможно недостаточно настойчиво На прошлой лекции о том что я

Speaker A

предполагаю что все элементы в моей обучающей выборке вообще говоря независимы мы там гораздо больше настаивали на том чтобы у нас были независимые элементы между обучающей валидацию тесты выборкой и мы говорили что мы согласны поместить а связанные между собой элементы в

Speaker A

обучающую кадры одного видео Простите или фотографии одного товара или одного человека что угодно Да это по-прежнему С практической точки зрения правильное действие то есть Бог с ним что они у нас а не независимы больше данных хорошо но математика у нас будет следующая мы

Speaker A

будем предполагать что все наши элементы независимы и соответственно а мы когда будем моделировать с вами Вот это правдоподобие то есть смотрите для X1 Да вот это Т1 Т1 у нас такая ситуация для X2 например какая-то такая ситуация для X3 ещё какая-то

Speaker A

да И теперь я говорю что так как у меня мои записи это независимые события то в этом случае Когда я буду говорить про правдоподобие я смогу перемножить значение функции плотности То есть я получается буду строить лоно многомерного нормального

Speaker A

распределения Где мои случайные величины независимы и значение функции плотности в векторе т который будет ну в этой точке это получается я все целевые переменные с моей выборки собрал это будет произведение знание функции плотности в соответствующих точках то есть яде

Speaker A

произведение будет и от единицы до n большого по всей моей выборке здесь у меня будет X ИТ и здесь у меня будет т и вот так это будет в итоге работать сейчас мы с вами немного отвлечся от этой темы и зададимся

Speaker A

вопросом как будет выглядеть наш Y но принцип максимального правдоподобия для ситуации Где у вас задача регрессии и вы считаете что Ошибка имеет нормальное распределение с нулевым средним и фиксированной дисперсии Сигма квадрат принцип максимального правдоподобия описан здесь так Уважаемые студенты Очень бы

Speaker A

хотелось чтобы вы дали мне обратную связь Понятно непонятно Есть ли вопросы слушатели на Ютюбе пожалуйста тоже по поводу того что квантовые компьютеры похожи на нейросеть Я честно говоря у меня поверхностное представление о квантовых компьютерах может быть не поверхностное

Speaker A

о нейронных сетях Я пока не вижу особенной связи Вот но возможно в каком-то конкретном разрезе это будет так так хорошо я вижу что в целом понимание есть давайте мы продолжим Спасибо за обратную связь Итак давайте поговорим о том Какой вид

Speaker A

может иметь функция y Мы можем с вами взять и просто а просуммировать компоненты нашего вектора X Но предварительно домностроителей возьмём W нулевое прибавим W1 у X1 прибавим w2 у X2 прибавим w3 у X3 и так далее и так далее

Speaker A

и так далее получим вот такую формулу здесь уже сразу видно да что наша функция Линейная к чему это приведёт это приведёт к тому что мы сможем с вами строить Вот такие модели да то есть здесь синие точки - это точки

Speaker A

В нашей выборке А там есть пунктирная линия Я не знаю какого она цвета но такого А который описывает тот самый детерминированный Закон и красная линия - это наша модель который наилучший для для этих данных Вы можете видеть Да что это

Speaker A

далеко не [музыка] м наверняка не оптимальный способ Да слишком простой потому что в реальном мире не так много линейных закономерностей Да большинство закономерностей скажем так нелинейные и мы с самого начала получается сильно свои возможности вырезаем Но есть небольшой приём который мы сразу в

Speaker A

рамках данного метода можем применить и от этой линейности избавиться базисные функции идея в следующем что мы с вами возьмём наш Вектор X на основе него вычислим некоторую нелинейную Вектор функцию от x и дальше мы от x будем использовать в

Speaker A

качестве входа в наш алгоритм То есть получается что до этого мы с вами записали Y W как сумму значит W нулевое плюс сумма и от единицы до D w x то теперь мы скажем что у нас есть вот

Speaker A

такой шаг функция Вектор функция будет состоять из тех самых базисных функций и дальше Свами Y возьмём от от x w или иначе говоря Y будет иметь следующий вид некоторое ф нулевое от x плюс сумма и от единицы до уже потому что у вас размерность

Speaker A

вектора совсем необязательно связана с размерностью X у вас принадлежать может быть мерным вектором а от x может быть мерный Вектор функции соответственно здесь у меня будет W на ф и от x но так как ф может содержать нелинейные компоненты

Speaker A

то итоговая модель итоговая закономерность которую мы получим она будет нелинейной другое дело вот в этом шаге Да получени из X от там нет никакого машинного обучения это фиксированное преобразование там нет обучаемых параметров Именно поэтому Несмотря на то что мы это делаем модель

Speaker A

останется линейной по своей сути так вот получается мы с вами можем построить вот такую модель ТК в плане запи мы с вами Вот это ф Ну от x А я там Простите я вот здесь неправильно написал исправлюсь здесь не

Speaker A

фи нулевое это X должно быть здесь W нулевое конечно же вот так но а Представьте что я вме Вот в это от x и добавлю ещё один элемент То есть у меня до этого Вектор был вот такой ф пер от x ф второ от x и так

Speaker A

далее и так далее ф от x был вот такой Вектор но я немного в него вмешались и добавлю сюда единичку это будет моё фи нулевое зачем мне это нужно это нужно мне затем что я смогу тогда вот эту фор

Speaker A

переть ком я смогу записать следующим образом у меня будет сумма и от нуля уже не от единицы обратить внимание до А здесь будет W на ИТ от x но Эту запись я могу ещё упростить да Потому что это не что иное как скалярное

Speaker A

произведение двух векторов соответственно если у меня есть Вектор w и у меня есть Вектор функция от x то в этом случае это у меня не что иное как их скалярное произведение или говоря W Вектор транспонированной умножается на от

Speaker A

x что здесь А что здесь я хотел бы заметить Я хотел бы заметить что в рамках всех моих лекций я стараюсь сделать так чтобы векторы Матрица то есть чтобы они подчинялись одним и тем же законам и соответственно мы рассматриваем векторы

Speaker A

как матрицу у которой получается там строк и один столбец Да и соответственно дальше вам как только вы говорите что у вас Вектор столбец то дальше вам не нужно на самом деле задумываться о том это Вектор или Матрица у вас все формулы будут

Speaker A

нормально работать поэтому я хочу сказать что у меня все векторы - это Столбцы соответственно Если вдруг мне почему-то нужна строка то я буду её транспонировать поэтому здесь у нас тоже вот этот Вектор получается транспонированной становится строкой он умножается на Вектор столбец и у нас с

Speaker A

вами нормальное матричное умножение работает соответственно вот так будет записано любое скалярное оделение двух векторов в рамках любых моих лекций моих курсов так хорошо По поводу того Какие конкретно функции ф Вы можете использовать это там конкретно мне не очень интересно

Speaker A

да вы можете взять полином Вы можете взять например смотрите у вас есть Вектор X1 X2 и так далее и так далее XD и вы говорите хорошо значит моя функция А мой Вектор ф будет следующая единичка потом Давайте повторим все наши

Speaker A

X А теперь давайте все X возьмём А в степени 2 и Давайте возьмём ещё например все попарные произведения и если вы после этого примените алгоритм линейной регрессии да то вы получите регрессию полиномиальной То есть у вас произвольный полином

Speaker A

второй степени будет соответственно вы здесь Степе можете выбрать до необязательно ДХ и больше использовать не знаю например логарифмы или вы можете брать экспоненту в степени X1 у вас широкий набор опций что здесь важно заметить важно заметить то что если у вас достаточно много данных

Speaker A

то вы в каком-то плане не можете переборщить Вы можете про запас разных разных туда поместить и те функции которые действительно полезны решая задачу они будут использованы на алгоритм автоматически просто как бы математика поймёт что ей полезно А в

Speaker A

то же время если данных мало то в этом случае вам необходимо действовать аккуратно потому что вы можете легко попасть в ситуацию Когда ваша модель не будет хорошо обобщать Про что то что такое отин ифн то есть переобучение или

Speaker A

необ это мы с вами отдельно будем говорить либо сегодня успеем чтото я не уверен либо в следующий раз поговорим Вот но главное что нужно знать что выбранные вами базисные функции являются теми самыми гипер параметрами алгоритма Это означает что вы можете взять один

Speaker A

набор базисных функций обучить модель посмотреть точность на валидацию выборки взять другой набор базисных функций обучить модель посмотреть точность на валион выборки и потом выбрать лучшую модель на основе валион выборки эти базисные функции дальше использовать дальше напомню вы идёте на тестовую

Speaker A

выборку и там проверяете итоговую точность так вот получается Так выглядит наша модель это какие варианты Мы можем с вами взять Вот полиномиальная регрессия от одной переменно Я почему на слайд отдельно поместил потому что я буду для этого приводить примеры

Speaker A

А И теперь мы с вами должны рассмотреть такой инструмент такой математический объект как Матрица плана В чём идея идея просто в том что вы берёте свой датасет который вы перестроили да у вас до этого были векторы X теперь стали векторы ф и вы

Speaker A

записываете свой датасет свои входные переменные в матрицу Так что у вас первая строчка это все базисные функции для первого входного вектора вторая строчка все базисные функции для второго второго Простите для второго входного вектора третья строчка для третьего и так далее

Speaker A

В то же время иты и столбец - это значение всех их базисных функций для Всех элементов исходного датасета то есть смотрите у меня получается M столбцов Да и N большой строк и эту функцию я называю матрицей плана Итак теперь

Speaker A

Да Уважаемые студенты Уважаемые слушатели Поставьте пожалуйста плюс если вам всё понятно Если есть вопросы Пожалуйста задавайте Так возможно ли до начала обучения модели сказать сколько нужно выборок для её обучения чтобы получить модель с заданой точностью Если каждый выборка стоит денег Ну вы имеете видимо

Speaker A

не количество выборок да А количество элементов выборки Ну если строго отвечать на ваш вопрос ответ нет потому вс зави Каст данны может быть разным вот недавно кстати Вчера буквально появилось в общем на днях вчера появилось видео работа и там люди обучают

Speaker A

мке на датасета в 100 раз меньше чем конкуренты размер модели в 10 раз меньше и это сравнимое качество этого в том что очень качественные данные То есть если у вас качественные данные то данных нужно меньше а соответственно конечно

Speaker A

сложные задачи влияет качество данных влияет Поэтому заранее такой предсказывать смысла нет однако если у вас много опыта и вы похожи и задачи решали то тогда вы какие-то оценки можете делать но опять же вы говорите каждая выборка стоит денег тут можно

Speaker A

делать это итеративности увеличивать набор данных смотреть становится ли точность такой которая вас устраивает или вы можете например взять 10 элементов 100 элементов 1000 элементов Да посмотреть Как меняется точность и на основе этой кривой попытаться предсказать как эта точность будет

Speaker A

эволюционировать дальше привлечении выборки Так для чего Матрица нужна сейчас будет понятно не переживайте Сейчас мы разберём Итак матри будет нуж для того чтобы с ми формула получилась потом Итак Давайте с вами выведем целевую функцию для нашей задачи регрессии мы с вами рассмотрели функцию

Speaker A

правдоподобия Да И вот она перед вами В чём разница между тем что вы видите сейчас и тем что я до этого написал на слайде тем что здесь у нас с вами явным образом задан Y дасть смотрите вот Вот она Да и здесь у меня какой-то

Speaker A

произвольный Y потому что мы к этому моменту с вами ещё не сошлись на том как Y будет выглядеть но теперь мы с вами знаем что Y у нас это скалярное произведение вектора W на Вектор от x и поэтому я могу точно также

Speaker A

записать ментом обучающей выборки 1 / 2 пи Сима к экспонента в степени минус здесь Т ИТ минус W транспонированная на ф от x Итого в квадрате и делённое на 2 Сигма к О'кей Теперь мы хотим с вами как мы это уже

Speaker A

обсудили Это максимизировать причём относительно параметров W то есть мы хотим найти такие параметры W при которых вот эта величина максималь А мы это с вами будем делать в итоге Да мы возьмём с вами вектор градиента А и ровняем его к нулевому

Speaker A

вектору но Градиент Да это Вектор частных производных А от чего нам не удобно по традиции брать производные нам неудобно брать производные от больших произведений а это очень большое произведение у вас в вашей обучающей выборке может быть 10.000 элементов может быть миллион

Speaker A

элементов а соответственно это произведение из 10.000 или там миллиона множителей это для нас не очень удачно но что мы с вами можем сделать Мы можем с вами логарифмировать это значение почему это имеет смысл Давайте посмотрим Как ведёт себя логарифм

Speaker A

у которого основание больше единицы так получается когда X у меня равен едини у меня логарифм равен нулю ну и соответственно как-то Так эта функция у нас идт А что мы видим Мы видим что эта функция возрастает Что это значит Это означает

Speaker A

что если я хочу максимизировать FX и допустим у меня FX достигает максимума при X равном а то этот же это же значение X рано А доставляет максимум функции логарифм от FX то есть AR от FX это AR FX потому что функция монотонно

Speaker A

возрастает Так а ну я думаю что понятно Да почему так то есть так как у вас логарифм тем больше чем больше FX соответственно в какой-то точке где FX максимально логарифм будет больше а там рядом с этой точкой FX будет меньше поэтому логарифм

Speaker A

будет меньше и поэтому логарифм от FX тоже будет иметь локальный Максимум в той же точке где f от x будет иметь локальный максимум но в чём очарование логарифма Да в том что логарифм от а произведения А на B это гам а + Log B то есть мы переходим

Speaker A

с вами от произведения к сумме поэтому что если я возьму Вот это произведение и логарифми его Обратите внимание что вот это у меня правдоподобие получается когда я логарифми у меня будет логарифм правдоподобия давайте это сделаем сейчас я заберу эту формулу

Speaker A

подальше отсюда Итак логарифм от вот этого выражения это сумма Да и от единицы до n большого теперь здесь у меня будет логарифм от единиц раздели на 2пи Сигма ква дальше у меня будет а плюс логарифм от экспоненты в степени минус И

Speaker A

здесь получается Всё вот это понятное дело это всё под нашей суммой Теперь я могу эту сумму во-первых разделить и от единиц до n большого логарифм едини разделить на 2пи Сигма квадра плюс снова сумма и от единиц до n большого А теперь

Speaker A

смотрите у меня логарифм от экспоненты в какой-то степени да и логарифм от экспоненты - это натуральный логарифм То есть у него основание это экспонента соответственно натуральный логарифм от экспонента в какойто степени Это непосредственно сама эта степень Да поэтому здесь у меня будет

Speaker A

минус и наш показатель степени Окей что мы с вами сделаем 2пи ой 2К вынесем как множитель минус тоже вынесем за пределы суммы получим А здесь кстати тоже если что Обратите внимание что вот в этом логарифме У нас ничего не зависит

Speaker A

от И поэтому это на самом деле они все эти логарифмы там одинаковые это просто N умножить на этот логарифм поэтому это N на логарифм от единиц разделить на 2пи Сигма квадрат теперь минус Да вот этот здесь а 1 де на 2 даже похитрее

Speaker A

сделаю Сигма квадрат отдельно и 1/2 отдельно Это мне потом пригодится И от единицы до n А здесь что получается Т минус W транспонированная на фи от x Итого и всё это в квадрате теперь что мы хотим со всем этим

Speaker A

сделать Мы хотим со всем этим сделать максимизацию относить на W Хорошо теперь Обратите внимание что вот это компонента Отдал бы её не зависит вот этот множитель от W не зависит и это положительный множитель получается у меня есть вот эта часть 1/2

Speaker A

мне тут нужна она тоже от W не зависит Но сейчас поверьте а поймёте потом А вот эта часть у меня зависит от w и по большому счёту Да когда я буду максимизировать ВС это относительно W только значение вот этой части А она у

Speaker A

меня идёт с минусом Обратите внимание то есть получается что если я хочу вот это всё максимизировать то мне нужно вот эту часть минимизировать потому что она там с минусом задача превращается в следующее 1/2 Обратите внимание переписываю отсюда сумма и от едини до n

Speaker A

большого т и мину W транспонированная на ф от x Итого и я хочу это минимизировать в пространстве параметр W так вот моё обучение модели будет заключаться в минимизации этой функции это функция будет называться целевой функцией для задачи регрессии на английском это либо L либо

Speaker A

об либо tet и Обратите внимание что мы с вами минимизируем сумму квадратов разности между тем значением которое должно быть и тем значением которые мы предсказали то есть мы берём ошибку которую мы совершаем на каждом элементе возводим её в квадрат и

Speaker A

суммы квадратов этих ошибок мы минимизируем поэтому Surprise Surprise Но это называется метод наименьших квадратов которые каждый из вас мог изучать когда-то на какой-нибудь вычислительной математике или на на численных методах так вот мы с вами вывели целевую функцию для задачи

Speaker A

регрессии на основе принципа максимального правдоподобия Если вы хотите красивые формулы то скриншот можно сделать здесь и вот наша целевая функция Так у нас с вами Осталось 10 минут и Надо подумать что с этим делать надо подумать что с этим

Speaker A

делать Я думаю что мы с вами на этом остановимся Уважаемые студенты Уважаемые слушатели Поставьте пожалуйста плюс если вам понятен был материал этой лекции так Если у вас есть вопросы Пожалуйста задавайте их самое время сейчас и в Зуме Вы можете просто включать микрофон и

Speaker A

голосом сдавать Это я к студентам обращаюсь а да я могуть вопрос Дада конечно пожалуйста а Дада конечно пожалуйста да а это будет на экзамене я Поня понимаю Дада конечно пожалуйста так Я прошу прощения тут возник некоторый фидбек Да это будет на экзамене

Speaker A

конечно угу хорошо спасибо так Уважаемые студенты Уважаемые слушатели Есть ли ещё вопросы Пожалуйста задавайте Так ну я вижу Что Вопросов нет тогда Большое спасибо всем что присоединились Я желаю вам хорошего дня и до свидания до свидания до свидания

Speaker A

L

Topics:машинное обучениерегрессиялинейная регрессияобучение с учителемглубокое обучениетрансформерышум в данныхошибки моделиматематика машинного обученияпараметры модели

Frequently Asked Questions

Что такое задача регрессии в машинном обучении?

Задача регрессии заключается в предсказании вещественного значения целевой переменной на основе входных данных, обычно в виде векторов признаков.

Почему в модели регрессии учитывается шум?

Шум отражает случайные отклонения данных от идеальной модели, что позволяет учитывать ошибки измерений и неполноту модели, улучшая обобщающую способность.

В чем преимущество линейной регрессии как модели?

Линейная регрессия проста в реализации и интерпретации, имеет обучаемые параметры и служит базой для более сложных моделей, сохраняя при этом понятную структуру.

Get More with the Söz AI App

Transcribe recordings, audio files, and YouTube videos — with AI summaries, speaker detection, and unlimited transcriptions.

App Store Google Play

Or transcribe another YouTube video here →