Маленький мозг? Большие данные

Когда мы думаем о больших данных, мы обычно представляем себе Интернет: миллиарды пользователей социальных сетей, сенсоры миллионов мобильных телефонов, тысячи статей, написанных для Википедии и т.д. Благодаря последним инновациям, данные подобного масштаба теперь могут быть получены от камер, направленных на маленький, но крайне сложный объект: мозг. Прогресс в области распределенных вычислений изменяет методы, используемые нейробиологами для работы с результатами исследований, и в процессе может изменить наше представление о реализации самих вычислений.

Как мозг генерирует большие данные?

Мозг состоит из множества нейронов: из сотен тысяч – у мухи или у личинки рыбки данио, из миллионов – у мыши, из миллиардов – у человека. Его деятельность зависит от активности нейронов и от того, как они взаимодействуют друг с другом. В течение длительного времени существовала возможность записи одновременной активности всего лишь нескольких нейронов, однако некоторые недавние достижения позволяют наблюдать за деятельностью тысяч нейронов, а иногда (например, в случае личинки данио) и всего мозга.

Многие из этих методов являются оптическими: животные генетически модифицируются таким образом, что их нейроны, в буквальном смысле, светятся, когда активны, а специальные микроскопы записывают изображения со структурой нейронной активности, в то время как животное осуществляет разнообразную деятельность. Получаемые большие данные, поступающие в объеме нескольких терабайт в час, представляют собой сложную задачу для анализа и понимания. Для этого требуется как низкоуровневая обработка («munging» – «очистка»), так и аналитика высокого уровня. Поэтому мы должны анализировать каждый набор больших данных различными способами: сопоставлять реакции нейронов с аспектами поведения животного или с экспериментальным протоколом, а также искать закономерности во взаимосвязанной активности крупных скоплений нейронов. Мы никогда не знаем ответ заранее, – иногда мы даже не знаем, с чего начать.

Инструменты для анализа 

В нашей области деятельности требуются инструменты для интерактивного изучения больших данных, обеспечивающие гибкость в разработке новых методов анализа. До недавнего времени решения на основе одной рабочей станции, например, использование Matlab на одном мощном компьютере, были нормой в сфере нейробиологии, но такие решения слабо масштабируются. Среди альтернативных вариантов на основе распределенных вычислений мы обнаружили, что платформа Apache Spark обеспечивает существенные преимущества. Во-первых, возможность кэширования данных в оперативной памяти позволяет выполнять многочисленные запросы к большим наборам данных в течение секунд или минут, ускоряя и облегчая изучение данных. Во-вторых, Spark предоставляет мощные, гибкие и интуитивные прикладные интерфейсы (API) для таких языков программирования, как Scala, Java и Python. Python API особенно привлекателен, потому что позволяет комбинировать Spark с большим набором уже существующих разнообразных Python-инструментов, разработанных для научных вычислений (NumPy, Scipy, scikit-learn) и визуализации (matplotlib, seaborn, mpld3).

Используя Spark в качестве платформы для крупномасштабных вычислений, мы разрабатываем библиотеку с открытым исходным кодом под названием Thunder, которая объединяет распространенные технологии анализа пространственно-временных данных в модульном, дружественном для пользователя пакете, полностью написанном на Python.

Большие данные в нейробиологии

Необходимо использовать различные методы анализа, чтобы найти закономерности в нейронных данных, которые обычно состоят из временных рядов активности каждого из множества нейронов.

Карты мозга

В результате наших исследований создаются статистические «карты» мозга, устанавливающие соответствие между реакциями мозга и свойствами внешнего мира. Например, если рыбка данио двигается в разных направлениях, мы можем создать карту, которая показывает, каким образом реакции каждого нейрона связаны с различными направлениями. Это очень похоже на карту предпочтений избирателей: люди голосуют за кандидатов, а нейроны голосуют за направления. В другом примере мы сравнивали реакции нейронов во время плавания животного и обнаружили, что основная часть мозга проявляет наибольшую активность, когда животное плывет, но другая группа нейронов активна, когда животное не двигается, – назначение этих нейронов остается загадкой.

Большие данные нейронные сети

Верхнее изображение. Карта селективности направлений для всего мозга. Каждая нейронная реакция окрашена определенным цветом на основе направления подвижного визуального стимула, для которого реакция была наибольшей. Нижнее изображение. Отображение динамики всего мозга с пониженной размерностью. Каждая кривая показывает, как распространяется активность мозга после возникновения отдельного стимула. В левой части нижнего изображения цвет характеризует направление стимула, в правой части – ход времени.

Такие карты статичны, но наши данные, по существу, динамические, потому что нейронная активность изменяется с течением времени. Семейство методов, основанных на понижении размерности, преобразует временные ряды больших данных, содержащие многие параметры, в представления с малым количеством параметров, которые демонстрируют ключевые динамические свойства в упрощенном виде. Такие исследования, в рамках которых анализируется сразу весь набор данных, особенно нуждаются в распределенных вычислениях.

Нейронный сети

Наша долгосрочная цель – с помощью этих технологий выяснить принцип нейронного кодирования. Большинство нейробиологов сходятся во мнении, что мозг – это вычислительный центр, причем необыкновенно эффективный: потребляя меньше энергии, чем ноутбук, мозг способен распознавать объекты за миллисекунды, ориентироваться в пространстве, полном препятствий, и координировать сложные движения. Согласно давней идее, понимание этих способностей, в свою очередь, стимулирует прогресс в области искусственного интеллекта.

Действительно, так называемые нейронные сети, включающие глубокие сети доверия (deep belief network), имитируют архитектуру мозга: они построены из множества подобных нейронам узлов, которые обмениваются сигналами. Некоторые из этих сетей решают задачи распознавания объектов и голоса впечатляюще хорошо.

Однако по-прежнему остается огромное расстояние между этими сетями и настоящим мозгом. В большинстве искусственных сетей все узлы, по сути, выполняют одинаковые действия, тогда как в мозге, куда бы мы ни посмотрели, мы видим многообразие. Существуют сотни или тысячи различных видов нейронов с разнообразной морфологией, различными функциями, структурой связей и формами взаимодействия. Возможно, живые организмы не решают одну конкретную задачу с четкой целью (например, распознавание лица); они гибко ориентируются и взаимодействуют с динамичным, непрерывно изменяющимся окружающим миром. Роль такого разнообразия нейронов и фундаментальные принципы биологических вычислений остаются тайной, но масштабные усилия, направленные на анализ деятельности всей нервной системы, а также на систематическое описание морфологии нейронов и анатомии их связей, помогут найти путь.

В краткосрочной перспективе есть еще один вариант, в рамках которого исследования в сфере нейробиологии могут оказать влияние на компьютерные вычисления, интеллектуальный анализ данных и искусственный интеллект. Данные, собираемые сейчас нейробиологами, будут соперничать с другими источниками крупномасштабных данных, не только по размеру, но и по сложности. Таким образом, нейробиология будет извлекать из них все больше полезной информации и все больше содействовать развитию широких областей знаний, таких как даталогия (англ. data science) и машинное обучение.

Например, наши исследования графических представлений подобны попыткам обнаружить закономерности в изображениях, полученных с помощью спутниковой съемки, или в географической статистике. И поскольку наши данные представляют собой большие наборы временных рядов, они могут иметь сходство с изменяющимися во времени статистическими данными о пользователях веб-сайта или с сигналами сенсоров, все чаще появляющихся на нашем теле или в нашем доме. Независимо от источника данных, ученые сталкиваются с аналогичными задачами на каждом уровне: предварительная обработка, распределенные вычисления, алгоритмы поиска закономерностей, визуализация. И я все больше уверен, что ученые из разных областей могут и должны решать эти задачи вместе.

Автор: Джереми Фримен

Перевод Станислава Петренко

По материалам: O’Reilly Radar

1 комментарий

  1. Энштейн:

    Весьма интересно. Вообще практичекое применение современных технологий анализа данных ограничено только фантазией и наличием самих данных. Дальше будет больше…

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =