Ричард Саттон (учёный)

Ричард С. Саттон

Научный деятель

Гражданство: Канада

Научная сфера: Искусственный интеллект Обучение с подкреплением

Место работы: Университет Альберты

Образование: Стэнфордский университет Массачусетский университет в Амхерсте

Научный руководитель: Эндрю Барто

Известен как

Разработчик метода временных различий и
алгоритмов машинного обучения Dyna, Options, GQ(λ);
специалист в области ИИ

Награды и премии: AAAI Fellow (2001)
Президентская премия (INNS) (2003)
Королевское общество Канады Fellow (2016)
Премия Тьюринга (2025)

Сайт: incompleteideas.net

учёный

Ричард С. Саттон (Шаблон:ДР по возрасту на дату^[1]^[2], Огайо^[3]) — канадский учёный, специалист в области информатики и ИИ, один из разработчиков современного метода обучения с подкреплением^[4]. Профессор Университета Альберты и штатный исследователь в компании Keen Technologies^[5]. В 2025 году вместе со своим научным руководителем Эндрю Барто был удостоен премии Тьюринга Ассоциации вычислительной техники «за разработку концептуальных и алгоритмических основ обучения с подкреплением»^[6]^[7]^[7].

Биография[править]

Родился в 1957 или 1958 году в Огайо.

В 1978 году окончил Стэнфордский университет со степенью бакалавра по специальности «Психология». Затем, заинтересовавшись математикой и информационными технологиями, поступил в Массачусетский университет, где в 1978 году получил степень магистра в информатике, а четыре года спустя защитил докторскую диссертацию под руководством Эндрю Барто. В этой работе (под заглавием «Временная задача присваивания коэффициентов доверия в обучении с подкреплением») Саттон представил архитектуры агент-критик и предложил решение проблемы временного присваивания коэффициентов доверия^[8]^[9].

На идеи Саттона повлияли работы Гарри Клопфа где утверждалось, что обучения с учителем недостаточно для создания ИИ или объяснения интеллектуального поведения человека, а потому необходим другой подход, тем или иным образом включающий в себе «гедонистические аспекты поведения». Именно эта концепция привлекла Саттона к изучению машинного обучения с помощью подкрепления^[10].

В 1984 году он проходил постдокторантуру в Массачусетском университете^[11]. С 1985 по 1994 занимал должность ведущего специалиста в лаборатории компьютерных и интеллектуальных систем корпорации GTE^[9], однако затем вернулся в университет Массачусетса, где проработал до 1998 года^[9]. С 1998 по 2002 года изучал искусственный интеллект в интересах AT&^[9]T.

В 2003 году Саттон был приглашён в канадский Университет Альберты, где занял пост профессора информатики. Он также возглавил лабораторию обучения с подкреплением и искусственного интеллекта, которой руководил до 2018 года^[12]^[9]. В июне 2017 года, сохранив профессуру, Саттон присоединился к команде Deepmind, став главой исследовательского подразделения компании в Эдмонтоне — он руководил им до прекращения финансирования проекта со стороны Google^[8]^[13]^[14].

В 2015 году Саттон вступил в канадское гражданство^[14].

Обучение с подкреплением[править]

Научным руководителем Саттона являлся другой известный учёный-информатик Эндрю Барто. В 1980-е годы они изучали подходы к созданию искусственного интеллекта. Им удалось существенно развить идеи теоретика в области искусственного интеллекта Гарри Клопфа и предложить свою математическую концепцию («обучение с подкреплением»), которая стал ключевым элементом для создания современных систем искусственного интеллекта.

Саттон и Барто модернизировали марковский процесс принятия решений для объяснения того, как агенты (алгоритмические сущности) принимают решения в стохастической среде таким образом, что и среда и награды могли бы оставаться неизвестными — такой метод позволил применить этот алгоритм к широкому кругу задач. Предложенный учёными подход совершенствовался и развивался, а первым крупным его применением стало создание программы AlphaGo, которая сумела обучиться игре в го и в 2016 году превзойти одного из сильнейших игроков мира.

Труды Саттона и Барто широко известны во всем мире, а сами учёные признаны основоположниками современного метода обучения с подкреплением, сделавшим возможным создание современных больших языковых моделей.

В 2019 году Ричард Саттон опубликовал эссе «Горький урок» (англ. Bitter Lesson), в котором жестко раскритиковал отрасль ИИ за чрезмерное увлечение попытками заставить машину думать по-человечески. По мнению ученого, ресурсы необходимо в первую очередь направлять на оптимизацию методов обработки и перебора большего объёма данных, а также обучения сетей, прекратив попытки смоделировать работу человеческого мозга: «Мы должны усвоить горький урок. Он заключается в том, что моделирование человеческого разума не работает в долгосрочной перспективе». Саттон утверждает, что в условиях постоянного роста вычислительных мощностей, именно общие методы (поиск и обучение) представляются бесконечно масштабируемыми, а содержание человеческого разума — «чрезвычайно и необратимо сложно». Именно этим Саттон объясняет успехи моделей, опирающихся на масштабные вычисления и самообучение, в сравнении с теми, которые пытались использовать уже имеющиеся в распоряжении человечества знания^[15]^[16]^[17].

В 2023 году Саттон и Джон Кармак объявили о партнёрстве для разработки общего искусственного интеллекта^[18].

Труды[править]

В соавторстве с Барто написал книгу «Обучение с подкреплением: Введение» (англ. Reinforcement Learning: The Introduction), впервые изданную в 1998 году. Также является автором книги «Управление нейронными сетями» (англ. Neural Networks for Control), изданной в 1991 году.

Награды и звания[править]

С 2001 года Саттон является членом Ассоциации содействия развитию искусственного интеллекта (AAAI)^[19].

В 2003 году был удостоен премии президента Международного общества нейронных сетей^[20], в 2013 году получил премию Массачусетского университета за выдающиеся достижения в исследованиях^[21].

В 2016 году был избран членом Королевского общества Канады^[22], в 2021 году — членом Лондонского королевского общества^[23].

В 2025 году Саттон и Барто удостоены премии Тьюринга «за разработку концептуальных и алгоритмических основ обучения с подкреплением»^[24]^[25].

Источники[править]

↑ Эндрю Барто и Ричард Саттон, пионеры в области обучения с подкреплением, получают премию Тьюринга, The Telegraph (5 марта 2025). «Исследования, начатые Барто, 76 лет, и Саттоном, 67 лет, в конце 1970-х годов, проложили путь для некоторых прорывов в области ИИ за последнее десятилетие.».
↑ Рич Саттон, лауреат премии Тьюринга: Понимание интеллекта. Amii (5 марта 2025). — «Мне 67 лет, но я всё ещё хочу попытаться сделать что-то удивительное.» Проверено 10 марта 2025.
↑ Хайдрих-Майснер, Верена. Интервью с Ричардом С. Саттоном, Künstliche intelligenz, Heft (2009 год).
↑ Эксклюзивное интервью с Ричем Саттоном, отцом обучения с подкреплением (11 января 2018). Архивировано из первоисточника 11 января 2018. Проверено 17 декабря 2018.
↑ John Carmack and Rich Sutton partner to accelerate development of Artificial General Intelligenceангл.. markets.businessinsider.com. Проверено 2 октября 2023.
↑ Лауреаты премии Тьюринга – Дирекция по компьютерным и информационным наукам и инженерии (CISE) | NSF – Национальный научный фондангл.. www.nsf.gov (5 марта 2025). Проверено 8 марта 2025.
↑ ^7,0 ^7,1 Мец, Кейд. Премия Тьюринга присуждена двум пионерам искусственного интеллектаen-US, The New York Times (5 марта 2025).
↑ ^8,0 ^8,1 Краткая биография Ричарда Саттона. incompleteideas.net. Проверено 17 декабря 2018.
↑ ^9,0 ^9,1 ^9,2 ^9,3 ^9,4 Пятецкий, Григорий Эксклюзивное интервью с Ричем Саттоном, отцом обучения с подкреплениемen-US. KDnuggets (5 декабря 2017). Проверено 10 февраля 2024.
↑ Саттон Ричард С., Барто Эндрю Обучение с подкреплением: введение. — Второе. — Кембридж, Массачусетс: MIT Press. — P. 22–23. — ISBN 978-0-262-03924-6.
↑ Доктор Ричард Саттонангл.. awards.acm.org. Проверено 7 марта 2025.
↑ Браун, Майкл Инноватор в области ИИ Ричард Саттон избран в Королевское обществоангл.. Alberta Machine Intelligence Institute (10 мая 2021). Проверено 10 февраля 2024.
↑ DeepMind расширяется в Канаде с новым исследовательским офисом в Эдмонтоне, Альберта. DeepMind. Проверено 17 декабря 2018.
↑ ^14,0 ^14,1 Эдмонтонский гуру ИИ Рич Саттон потерял DeepMind, но не свои амбиции. National Post (19 марта 2023). Проверено 2 июля 2023.
↑ Саттон, Рич Горький урок. www.incompleteideas.net (13 марта 2019). Проверено 22 сентября 2022.
↑ Тансталл Льюис, Верра Леандро фон Обработка естественного языка с использованием трансформеров. — "O'Reilly Media, Inc.". — ISBN 978-1-0981-0319-4.
↑ The Bitter Lesson. Rich Sutton. March 13, 2019.. Проверено 17 марта 2025.
↑ John Carmack and Rich Sutton partner to accelerate development of Artificial General Intelligenceангл.. markets.businessinsider.com. Проверено 2 октября 2023.
↑ Elected AAAI Fellows. www.aaai.org. Проверено 17 декабря 2018.
↑ INNS Award Recipients. www.inns.org. Проверено 17 декабря 2018.
↑ Outstanding Achievement and Advocacy Award Recipientsангл.. College of Information and Computer Sciences, University of Massachusetts Amherst (October 5, 2010). Проверено 17 декабря 2018.
↑ U of A Scholars Join Ranks of Royal Society. The Quad (September 19, 2016). Проверено 24 августа 2023.
↑ Royal Society elects outstanding new Fellows and Foreign Members. royalsociety.org. Проверено 8 июня 2021.
↑ Cade Metz: Turing Award Goes to 2 Pioneers of Artificial Intelligence. In: NYT March 4, 2025. Retrieved March 5, 2025
↑ Turing Awardees – Directorate for Computer and Information Science and Engineering (CISE) | NSF – National Science Foundationангл.. www.nsf.gov (March 5, 2025). Проверено 8 марта 2025.

Машинное обучение и data mining ↑ [+]
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение Перенос обучения Многоклассовая классификация
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамбли моделей Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Рувики» («ruwiki.ru») под названием «Саттон, Ричард (учёный)», расположенная по адресу:

—	https://ru.ruwiki.ru/wiki/Саттон,_Ричард_(учёный)

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.

Всем участникам Рувики предлагается прочитать материал «Почему Циклопедия?».

[1] Эндрю Барто и Ричард Саттон, пионеры в области обучения с подкреплением, получают премию Тьюринга, The Telegraph (5 марта 2025). «Исследования, начатые Барто, 76 лет, и Саттоном, 67 лет, в конце 1970-х годов, проложили путь для некоторых прорывов в области ИИ за последнее десятилетие.».

[2] Рич Саттон, лауреат премии Тьюринга: Понимание интеллекта. Amii (5 марта 2025). — «Мне 67 лет, но я всё ещё хочу попытаться сделать что-то удивительное.» Проверено 10 марта 2025.

[3] Хайдрих-Майснер, Верена. Интервью с Ричардом С. Саттоном, Künstliche intelligenz, Heft (2009 год).

[4] Эксклюзивное интервью с Ричем Саттоном, отцом обучения с подкреплением (11 января 2018). Архивировано из первоисточника 11 января 2018. Проверено 17 декабря 2018.

[5] John Carmack and Rich Sutton partner to accelerate development of Artificial General Intelligenceангл.. markets.businessinsider.com. Проверено 2 октября 2023.

[6] Лауреаты премии Тьюринга – Дирекция по компьютерным и информационным наукам и инженерии (CISE) | NSF – Национальный научный фондангл.. www.nsf.gov (5 марта 2025). Проверено 8 марта 2025.

[автоссылка1-7] 7,0 ^7,1 Мец, Кейд. Премия Тьюринга присуждена двум пионерам искусственного интеллектаen-US, The New York Times (5 марта 2025).

[incompleteideas.net-8] 8,0 ^8,1 Краткая биография Ричарда Саттона. incompleteideas.net. Проверено 17 декабря 2018.

[Piatetsky-2017-9] 9,0 ^9,1 ^9,2 ^9,3 ^9,4 Пятецкий, Григорий Эксклюзивное интервью с Ричем Саттоном, отцом обучения с подкреплениемen-US. KDnuggets (5 декабря 2017). Проверено 10 февраля 2024.

[10] Саттон Ричард С., Барто Эндрю Обучение с подкреплением: введение. — Второе. — Кембридж, Массачусетс: MIT Press. — P. 22–23. — ISBN 978-0-262-03924-6.

[11] Доктор Ричард Саттонангл.. awards.acm.org. Проверено 7 марта 2025.

[12] Браун, Майкл Инноватор в области ИИ Ричард Саттон избран в Королевское обществоангл.. Alberta Machine Intelligence Institute (10 мая 2021). Проверено 10 февраля 2024.

[13] DeepMind расширяется в Канаде с новым исследовательским офисом в Эдмонтоне, Альберта. DeepMind. Проверено 17 декабря 2018.

[National_Post-2023-14] 14,0 ^14,1 Эдмонтонский гуру ИИ Рич Саттон потерял DeepMind, но не свои амбиции. National Post (19 марта 2023). Проверено 2 июля 2023.

[15] Саттон, Рич Горький урок. www.incompleteideas.net (13 марта 2019). Проверено 22 сентября 2022.

[16] Тансталл Льюис, Верра Леандро фон Обработка естественного языка с использованием трансформеров. — "O'Reilly Media, Inc.". — ISBN 978-1-0981-0319-4.

[17] The Bitter Lesson. Rich Sutton. March 13, 2019.. Проверено 17 марта 2025.

[auto2-18] John Carmack and Rich Sutton partner to accelerate development of Artificial General Intelligenceангл.. markets.businessinsider.com. Проверено 2 октября 2023.

[www.aaai.org-19] Elected AAAI Fellows. www.aaai.org. Проверено 17 декабря 2018.

[20] INNS Award Recipients. www.inns.org. Проверено 17 декабря 2018.

[21] Outstanding Achievement and Advocacy Award Recipientsангл.. College of Information and Computer Sciences, University of Massachusetts Amherst (October 5, 2010). Проверено 17 декабря 2018.

[22] U of A Scholars Join Ranks of Royal Society. The Quad (September 19, 2016). Проверено 24 августа 2023.

[23] Royal Society elects outstanding new Fellows and Foreign Members. royalsociety.org. Проверено 8 июня 2021.

[24] Cade Metz: Turing Award Goes to 2 Pioneers of Artificial Intelligence. In: NYT March 4, 2025. Retrieved March 5, 2025

[25] Turing Awardees – Directorate for Computer and Information Science and Engineering (CISE) | NSF – National Science Foundationангл.. www.nsf.gov (March 5, 2025). Проверено 8 марта 2025.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

Ричард Саттон (учёный)

Содержание

Биография[править]

Обучение с подкреплением[править]

Труды[править]

Награды и звания[править]

Источники[править]

Навигация

Ричард Саттон (учёный)

Биография[править]

Обучение с подкреплением[править]

Труды[править]

Награды и звания[править]

Источники[править]

Навигация

Поиск