Эндрю Герет Барто (род. 1948[1]) — американский учёный-информатик, почётный профессор информатики Массачусетского университета в Амхерсте[англ.]. Барто наиболее известен своим основополагающим вкладом в области современного вычислительного обучения с подкреплением[4]. В 2025 году вместе с Ричардом Саттоном был удостоен премии Тьюринга.
Биография
Эндрю Барто родился в 1948 или 1949 году[5]. В 1970 году получил степень бакалавра с отличием по математике в Мичиганском университете, где первоначально специализировался на военно-морской архитектуре и инженерном деле. После прочтения работ Майкла Арбиба, Уоррена Стерджиса Маккаллоха и Уолтера Питтса заинтересовался использованием компьютеров и математики для моделирования работы мозга и через пять лет получил докторскую степень по информатике за диссертацию о клеточных автоматах[6].
В 1977 году Барто поступил на работу в Колледж информационных и компьютерных наук Массачусетского университета в Амхерсте в качестве постдокторского научного сотрудника, в 1982 году был повышен до доцента, а в 1991 году — до полного профессора. С 2007 по 2011 год был заведующим кафедрой и одним из основных преподавателей программы «Нейронаука и поведение»[7].
Во время работы в университете Барто был одним из руководителей Лаборатории автономного обучения, которая породила несколько ключевых идей в области обучения с подкреплением[7]. Ричард Саттон, с которым он стал соавтором влиятельной книги Reinforcement Learning: An Introduction[7], был его аспирантом.
Обучение с подкреплением
Когда Барто начал работать в Массачусетском университете, он присоединился к группе исследователей, пытавшихся изучить поведение нейронов в человеческом мозге как основу человеческого интеллекта — концепцию, выдвинутую информатиком А. Гарри Клопфом. Вместе с Барто его докторант Саттон использовал математику для развития этой концепции и использования её в качестве основы для создания искусственного интеллекта. Эта концепция стала известна как обучение с подкреплением и стала ключевой частью методов создания искусственного интеллекта[8].
Барто и Саттон использовали марковские процессы принятия решений в качестве математической основы для объяснения того, как агенты (алгоритмические сущности) принимают решения, находясь в стохастической или случайной среде, получая вознаграждение по окончании каждого действия. Традиционная теория MDP предполагала, что агенты знают всю информацию о MDP, пытаясь максимизировать свое кумулятивное вознаграждение. Методы обучения с подкреплением Барто и Саттона допускали, что и среда, и вознаграждение неизвестны, что позволило применять алгоритмы этой категории для решения широкого круга задач[9].
Барто создал лабораторию для развития идей обучения с подкреплением, а Саттон вернулся в Канаду. Тема обучения с подкреплением продолжала развиваться в академических кругах, пока в одном из первых крупных реальных применений программа AlphaGo компании Google, построенная на этой концепции, не победила доминировавшего в то время чемпиона-человека[8]. Барто и Саттон широко известны как пионеры современного обучения с подкреплением, а сама техника стала основой для современного бума ИИ[10].
Барто опубликовал более ста статей или глав в журналах, книгах, материалах конференций и семинаров. В соавторстве с Ричардом Саттоном он написал книгу Reinforcement Learning: An Introduction, и книгу Handbook of Learning and Approximate Dynamic Programming[11].
Награды
Барто является членом Американской ассоциации содействия развитию науки[12], а также членом Американской ассоциации искусственного интеллекта и Общества нейронаук[13].
Барто был удостоен премии UMass Neurosciences Lifetime Achievement Award в 2019 году, премии IEEE Neural Network Society Pioneer Award в 2004 году[14].
В 2025 году получил премию Тьюринга от Ассоциации вычислительной техники вместе со своим бывшим докторантом Ричардом С. Саттоном за их работу по обучению с подкреплением; формулировка на вручении премии гласила: «За разработку концептуальных и алгоритмических основ обучения с подкреплением»[8][15][8].
Примечания
- ↑ 1 2 Agence bibliographique de l'enseignement supérieur (France) Système universitaire de documentation (фр.) — Montpellier: ABES, 2001.
- ↑ 1 2 3 Barto, Andrew G. // Чешская национальная авторитетная база данных
- ↑ Mathematics Genealogy Project (англ.) — 1997.
- ↑ IJCAI 2017 Awards (19 августа 2017). Дата обращения: 6 сентября 2022.
- ↑ Andrew Barto and Richard Sutton, pioneers in field of reinforcement learning, win AM Turing Award. The Telegraph. 2025-03-05. Дата обращения: 2025-03-10.
Research that Barto, 76, and Sutton, 67, began in the late 1970s paved the way for some of the past decade's AI breakthroughs.
- ↑ Virtual History Interview . International Neural Network Society (7 января 2022). Дата обращения: 6 сентября 2022.
- ↑ 1 2 3 Andrew G. Barto . University of Massachusetts Amherst (17 февраля 2008). Дата обращения: 18 октября 2020. Архивировано из оригинала 28 ноября 2020 года.
- ↑ 1 2 3 4 Metz, Cade (2025-03-05). Turing Award Goes to 2 Pioneers of Artificial Intelligence. The New York Times (англ.). ISSN 0362-4331. Дата обращения: 2025-03-08.
- ↑ A.M. Turing Award . amturing.acm.org. Дата обращения: 8 марта 2025.
- ↑ AI pioneers Andrew Barto and Richard Sutton win 2025 Turing Award for groundbreaking contributions to reinforcement learning | NSF – National Science Foundation (англ.). www.nsf.gov (5 марта 2025). Дата обращения: 8 марта 2025.
- ↑ UMass Amherst: Department of Computer Science . www.cs.umass.edu. Дата обращения: 15 марта 2025.
- ↑ Barto elected IEEE fellow . University of Massachusetts Amherst (22 ноября 2005). Дата обращения: 3 декабря 2019. Архивировано из оригинала 3 декабря 2019 года.
- ↑ CMU CS – AI Seminar . www.cs.cmu.edu. Дата обращения: 7 марта 2025.
- ↑ "IEEE Computational Intelligence Society Past Recipients" (6 сентября 2022). Дата обращения: 6 сентября 2022.
- ↑ Turing Awardees – Directorate for Computer and Information Science and Engineering (CISE) | NSF – National Science Foundation (англ.). www.nsf.gov (5 марта 2025). Дата обращения: 8 марта 2025.
You must be logged in to post a comment.