Учим компьютеры думать как ученые

Обучение компьютеров думать как ученые

Представьте, что вы только что создали компьютерную программу или робота, которая может отличить собак от волков на фотографиях с помощью машинного обучения. Программа выглядит так, как будто работает отлично, правильно собаку как собаку, а волка для волка.

Но когда вы тестируете код снова и снова, вы понимаете, что на всех фотографиях волка есть снег. Вы проверяете код еще раз, с фотографией собаки, играющей на снегу, и теперь ваш код терпит неудачу, принимая эту собаку за волка. Поздравляем, вы только что испытали распространенную ловушку слепого использования компьютерного кода.

Машинное обучение

Машинное обучение, отрасль искусственного интеллекта, которая позволяет компьютерам разрабатывать свои собственные решения для решения проблем, позволило таким компаниям, как Google, разработать программное обеспечение, которое может научиться не только замечать собаку на фотографии, но и предсказывать такие вещи, как модели трафика и потребитель покупательские привычки.

Машинное обучение также давно заинтриговало ученых, надеющихся ускорить темпы исследований с использованием вычислительной мощности. В конце 2017 года доктор медицинских наук Кангвей Чуанг начал свою постдокторскую работу в лаборатории доктора медицинских наук Майкла Кейзера, сотрудника Института нейродегенеративных заболеваний UCSF, с совместным назначением на кафедре фармацевтической химии с целью улучшения обнаружение наркотиков путем объединения его знаний в области химии с опытом Кейзера в области машинного обучения.

Поэтому, когда Чуанг узнал о раннем выпуске в Интернете статьи из лаборатории Принстонского университета, в которой предполагалось предсказать результаты тысяч химических реакций с использованием машинного обучения, он начал внимательно это изучать.

Авторы из Принстона разработали алгоритм, который мог бы предсказать результат объединения любого из нескольких тысяч химических веществ, и они утверждали, что алгоритм работает на основе специфических особенностей этих химических веществ, таких как закономерности того, как их атомы вибрируют или как они поглощают излучение, однако через несколько дней Чуан обнаружил недостатки в ключевых графиках и таблицах статьи.

Чуанг и Кейзер связались с группой Принстона и помогли им исправить незначительные ошибки в их коде. Первоначальная статья была обновлена и опубликована, но, учитывая их интерес, Чуанг и Кейзер продолжали размышлять над последствиями полученных результатов. «Главный вопрос, на который мы все пытаемся ответить, - «Как вы можете заставить компьютер думать о каждой молекуле?», - спросил Чжуан.

Чжуан решил провести так называемый «контрольный» эксперимент с алгоритмом машинного обучения. Во многих науках, даже когда эксперимент работает, ученые проводят второй эксперимент, в котором ключевой компонент был исключен.

Если эксперимент все еще работает без жизненно важного компонента, ученые возвращаются к чертежной доске, чтобы выяснить, почему. Используя эту линию рассуждений, Чуанг заменил базу данных химических характеристик в Принстонской группе случайными числами и снова поставил задачу алгоритму машинного обучения с предсказанием результатов реакции. Если алгоритм фактически делает прогнозы, основанные на этих химических особенностях, результаты должны измениться.

Но это не то, что случилось. Удивительно, но алгоритм все еще делал почти такие же прогнозы. Как алгоритм «собака / волк» научил себя получать в основном правильные ответы, основанные исключительно на наличии снега на изображении, химический алгоритм использовал невидимый ярлык для получения, казалось бы, правильных ответов, без учета химических особенностей.

И Кайзер, и Чуанг с осторожностью отмечают, что, хотя этот контрольный эксперимент выявил серьезный недостаток в статье о машинном обучении в Принстоне, их собственные выводы все еще имеют ограничения. «Это не означает, что химические свойства не влияют на результат», объяснил Кайзер. «Это просто означает, что это исследование машинного обучения не смогло доказать это».

Заключение

В конце 2018 года Чуан и Кейзер опубликовали свои работы в двух своих собственных статьях, в которых показано, как машинное обучение может сбить ученых с пути, и как ученые в будущем могут избежать некоторых проблем, связанных с обучением компьютеров.

Используя лабораторные научные средства управления в качестве вдохновения, Кейзер и Чуанг описали три простых контрольных эксперимента в статье для химической биологии ACS, которые ученые могли бы использовать, чтобы убедиться, что их алгоритмы машинного обучения, метафорически, не принимают собак за волков. В конце концов, Кейзер и Чуанг хотят, чтобы исследователи данных были их «самыми суровыми критиками».

В настоящее время они разрабатывают вычислительные инструменты, которые позволят любому легко применять элементы управления для обеспечения правильной работы алгоритмов машинного обучения. «Весь этот процесс был действительно полезен с точки зрения укрепления нашего собственного подхода к науке», - сказал Чжуан. «Мы надеемся подавать пример людям в наших будущих исследованиях».

Автор статьи: Виктор Булавин