Ричард Саттон (учёный)

Материал из Циклопедии
Перейти к навигации Перейти к поиску

Ричард С. Саттон

Научный деятель
Richard-sutton.jpg




Гражданство
Канада



Научная сфера
Искусственный интеллект Обучение с подкреплением
Место работы
Университет Альберты


Образование
Стэнфордский университет Массачусетский университет в Амхерсте
Научный руководитель
Эндрю Барто
Известен как
* Разработчик метода временных различий и
  • алгоритмов машинного обучения Dyna, Options, GQ(λ);
  • специалист в области ИИ
Награды и премии
AAAI Fellow (2001)
Президентская премия (INNS) (2003)
Королевское общество Канады Fellow (2016)
Премия Тьюринга (2025)
Сайт
incompleteideas.net


Ричард С. Саттон (Шаблон:ДР по возрасту на дату[1][2], Огайо[3]) — канадский учёный, специалист в области информатики и ИИ, один из разработчиков современного метода обучения с подкреплением[4]. Профессор Университета Альберты и штатный исследователь в компании Keen Technologies[5]. В 2025 году вместе со своим научным руководителем Эндрю Барто был удостоен премии Тьюринга Ассоциации вычислительной техники «за разработку концептуальных и алгоритмических основ обучения с подкреплением»[6][7][7].

Биография[править]

Родился в 1957 или 1958 году в Огайо.

В 1978 году окончил Стэнфордский университет со степенью бакалавра по специальности «Психология». Затем, заинтересовавшись математикой и информационными технологиями, поступил в Массачусетский университет, где в 1978 году получил степень магистра в информатике, а четыре года спустя защитил докторскую диссертацию под руководством Эндрю Барто. В этой работе (под заглавием «Временная задача присваивания коэффициентов доверия в обучении с подкреплением») Саттон представил архитектуры агент-критик и предложил решение проблемы временного присваивания коэффициентов доверия[8][9].

На идеи Саттона повлияли работы Гарри Клопфа где утверждалось, что обучения с учителем недостаточно для создания ИИ или объяснения интеллектуального поведения человека, а потому необходим другой подход, тем или иным образом включающий в себе «гедонистические аспекты поведения». Именно эта концепция привлекла Саттона к изучению машинного обучения с помощью подкрепления[10].

В 1984 году он проходил постдокторантуру в Массачусетском университете[11]. С 1985 по 1994 занимал должность ведущего специалиста в лаборатории компьютерных и интеллектуальных систем корпорации GTE[9], однако затем вернулся в университет Массачусетса, где проработал до 1998 года[9]. С 1998 по 2002 года изучал искусственный интеллект в интересах AT&[9]T.

В 2003 году Саттон был приглашён в канадский Университет Альберты, где занял пост профессора информатики. Он также возглавил лабораторию обучения с подкреплением и искусственного интеллекта, которой руководил до 2018 года[12][9]. В июне 2017 года, сохранив профессуру, Саттон присоединился к команде Deepmind, став главой исследовательского подразделения компании в Эдмонтоне — он руководил им до прекращения финансирования проекта со стороны Google[8][13][14].

В 2015 году Саттон вступил в канадское гражданство[14].

Обучение с подкреплением[править]

Научным руководителем Саттона являлся другой известный учёный-информатик Эндрю Барто. В 1980-е годы они изучали подходы к созданию искусственного интеллекта. Им удалось существенно развить идеи теоретика в области искусственного интеллекта Гарри Клопфа и предложить свою математическую концепцию («обучение с подкреплением»), которая стал ключевым элементом для создания современных систем искусственного интеллекта.

Саттон и Барто модернизировали марковский процесс принятия решений для объяснения того, как агенты (алгоритмические сущности) принимают решения в стохастической среде таким образом, что и среда и награды могли бы оставаться неизвестными — такой метод позволил применить этот алгоритм к широкому кругу задач. Предложенный учёными подход совершенствовался и развивался, а первым крупным его применением стало создание программы AlphaGo, которая сумела обучиться игре в го и в 2016 году превзойти одного из сильнейших игроков мира.

Труды Саттона и Барто широко известны во всем мире, а сами учёные признаны основоположниками современного метода обучения с подкреплением, сделавшим возможным создание современных больших языковых моделей.

В 2019 году Ричард Саттон опубликовал эссе «Горький урок» (англ. Bitter Lesson), в котором жестко раскритиковал отрасль ИИ за чрезмерное увлечение попытками заставить машину думать по-человечески. По мнению ученого, ресурсы необходимо в первую очередь направлять на оптимизацию методов обработки и перебора большего объёма данных, а также обучения сетей, прекратив попытки смоделировать работу человеческого мозга: «Мы должны усвоить горький урок. Он заключается в том, что моделирование человеческого разума не работает в долгосрочной перспективе». Саттон утверждает, что в условиях постоянного роста вычислительных мощностей, именно общие методы (поиск и обучение) представляются бесконечно масштабируемыми, а содержание человеческого разума — «чрезвычайно и необратимо сложно». Именно этим Саттон объясняет успехи моделей, опирающихся на масштабные вычисления и самообучение, в сравнении с теми, которые пытались использовать уже имеющиеся в распоряжении человечества знания[15][16][17].

В 2023 году Саттон и Джон Кармак объявили о партнёрстве для разработки общего искусственного интеллекта[18].

Труды[править]

В соавторстве с Барто написал книгу «Обучение с подкреплением: Введение» (англ. Reinforcement Learning: The Introduction), впервые изданную в 1998 году. Также является автором книги «Управление нейронными сетями» (англ. Neural Networks for Control), изданной в 1991 году.

Награды и звания[править]

С 2001 года Саттон является членом Ассоциации содействия развитию искусственного интеллекта (AAAI)[19].

В 2003 году был удостоен премии президента Международного общества нейронных сетей[20], в 2013 году получил премию Массачусетского университета за выдающиеся достижения в исследованиях[21].

В 2016 году был избран членом Королевского общества Канады[22], в 2021 году — членом Лондонского королевского общества[23].

В 2025 году Саттон и Барто удостоены премии Тьюринга «за разработку концептуальных и алгоритмических основ обучения с подкреплением»[24][25].

Источники[править]

  1. Эндрю Барто и Ричард Саттон, пионеры в области обучения с подкреплением, получают премию Тьюринга, The Telegraph (5 марта 2025). «Исследования, начатые Барто, 76 лет, и Саттоном, 67 лет, в конце 1970-х годов, проложили путь для некоторых прорывов в области ИИ за последнее десятилетие.».
  2. Рич Саттон, лауреат премии Тьюринга: Понимание интеллекта. Amii (5 марта 2025). — «Мне 67 лет, но я всё ещё хочу попытаться сделать что-то удивительное.»  Проверено 10 марта 2025.
  3. Хайдрих-Майснер, Верена. Интервью с Ричардом С. Саттоном, Künstliche intelligenz, Heft (июнь 2009 года).
  4. Эксклюзивное интервью с Ричем Саттоном, отцом обучения с подкреплением (11 января 2018). Архивировано из первоисточника 11 января 2018. Проверено 17 декабря 2018.
  5. John Carmack and Rich Sutton partner to accelerate development of Artificial General Intelligence англ.. markets.businessinsider.com. Проверено 2 октября 2023.
  6. Лауреаты премии Тьюринга – Дирекция по компьютерным и информационным наукам и инженерии (CISE) | NSF – Национальный научный фонд англ.. www.nsf.gov (5 марта 2025). Проверено 8 марта 2025.
  7. 7,0 7,1 Мец, Кейд. Премия Тьюринга присуждена двум пионерам искусственного интеллекта (en-US), The New York Times (5 марта 2025).
  8. 8,0 8,1 Краткая биография Ричарда Саттона. incompleteideas.net. Проверено 17 декабря 2018.
  9. 9,0 9,1 9,2 9,3 9,4 Пятецкий, Григорий Эксклюзивное интервью с Ричем Саттоном, отцом обучения с подкреплением (en-US). KDnuggets (5 декабря 2017). Проверено 10 февраля 2024.
  10. Саттон Ричард С., Барто Эндрю Обучение с подкреплением: введение. — Второе. — Кембридж, Массачусетс: MIT Press. — P. 22–23. — ISBN 978-0-262-03924-6.
  11. Доктор Ричард Саттон англ.. awards.acm.org. Проверено 7 марта 2025.
  12. Браун, Майкл Инноватор в области ИИ Ричард Саттон избран в Королевское общество англ.. Alberta Machine Intelligence Institute (10 мая 2021). Проверено 10 февраля 2024.
  13. DeepMind расширяется в Канаде с новым исследовательским офисом в Эдмонтоне, Альберта. DeepMind. Проверено 17 декабря 2018.
  14. 14,0 14,1 Эдмонтонский гуру ИИ Рич Саттон потерял DeepMind, но не свои амбиции. National Post (19 марта 2023). Проверено 2 июля 2023.
  15. Саттон, Рич Горький урок. www.incompleteideas.net (13 марта 2019). Проверено 22 сентября 2022.
  16. Тансталл Льюис, Верра Леандро фон Обработка естественного языка с использованием трансформеров. — "O'Reilly Media, Inc.". — ISBN 978-1-0981-0319-4.
  17. The Bitter Lesson. Rich Sutton. March 13, 2019.. Проверено 17 марта 2025.
  18. John Carmack and Rich Sutton partner to accelerate development of Artificial General Intelligence англ.. markets.businessinsider.com. Проверено 2 октября 2023.
  19. Elected AAAI Fellows. www.aaai.org. Проверено 17 декабря 2018.
  20. INNS Award Recipients. www.inns.org. Проверено 17 декабря 2018.
  21. Outstanding Achievement and Advocacy Award Recipients англ.. College of Information and Computer Sciences, University of Massachusetts Amherst (October 5, 2010). Проверено 17 декабря 2018.
  22. U of A Scholars Join Ranks of Royal Society. The Quad (September 19, 2016). Проверено 24 августа 2023.
  23. Royal Society elects outstanding new Fellows and Foreign Members. royalsociety.org. Проверено 8 июня 2021.
  24. Cade Metz: Turing Award Goes to 2 Pioneers of Artificial Intelligence. In: NYT March 4, 2025. Retrieved March 5, 2025
  25. Turing Awardees – Directorate for Computer and Information Science and Engineering (CISE) | NSF – National Science Foundation англ.. www.nsf.gov (March 5, 2025). Проверено 8 марта 2025.
 
Задачи
Обучение с учителем
Кластерный анализ
Снижение размерности
Структурное прогнозирование
Выявление аномалий
Графовые вероятностные модели
Нейронные сети
Обучение с подкреплением
Теория
Журналы и конференции
Рувики

Одним из источников, использованных при создании данной статьи, является статья из википроекта «Рувики» («ruwiki.ru») под названием «Саттон, Ричард (учёный)», расположенная по адресу:

Материал указанной статьи полностью или частично использован в Циклопедии по лицензии CC-BY-SA 4.0 и более поздних версий.

Всем участникам Рувики предлагается прочитать материал «Почему Циклопедия?».