Система справилась с головоломкой за 44 часа без вмешательства человека.
Ученые разрабатывают подобные системы для достижения в дальнейшем возможности создавать самообучающиеся человекоподобные системы, а затем применять эти знания для реальных приложений.
Ранее искусственный интеллект (ИИ), занимающийся сборкой, не сразу мог определить, было ли движение удачным, и система не могла быть вознаграждена, обучение по усилению не работало. Для этого группой ученых из Калифорнийского университета в Ирвине, во главе с Стивеном Макалером, Лесом Агостинелли и Александром Шмаковым был разработан новый метод, - Autodidactic Iteration.
При совершении хода DeepCube автоматически просчитывает его результат, «прыгая» к состоянию уже решенной головоломки, и возвращаясь к совершенному движению. При этом DeepCube создает свою внутреннюю систему вознаграждений: определяет среднюю длину решения, и успешность хода. При получении достаточного объема данных, она использует метод дерева решений, проверяя каждое возможное движение для определения лучшего.
«Мы вводим Autodidactic Iteration: новый алгоритм обучения с подкреплением, который способен научить себя, как решить кубик Рубика без какой-либо помощи. Наш алгоритм способен решать 100% случайных смешанных кубов при достижении медианной длины решения 30 ходов - меньше или равно сборщикам головоломки, которые используют знания в области человеческого знания.» - указывают исследователи в статье. Это исследование может быть использовано для решения реальных проблем, таких как прогнозирование трехмерной формы белков.