Как очистить большие данные, стандартизировать их и добиться максимальной масштабируемости для эффективного анализа и широкого применения?
Планируя программу конференции Strata, которая пройдет 19-21 ноября в Барселоне (Испания), коллектив O’Reilly потратил много времени на размышления о важных тенденциях в области данных и о том, что специалисты и руководители должны знать, чтобы оставаться на передовом рубеже.
Демократизация данных
Организации, внедрившие технологии data science, опережают своих конкурентов. Спрос, в сочетании с нехваткой специалистов в области анализа данных (англ. data scientists), привел к росту количества инструментов, позволяющих неспециалистам использовать потенциал передовой аналитики.
Эти решения сочетают в себе сложные алгоритмы, насыщенные наборы данных и интуитивные интерфейсы. Три названных элемента, наряду с распространением распределенных вычислительных систем, открывают доступ к технологиям, которые раньше могли использовать только опытные data scientists.
Проблемы. С ростом доступа к данным и аналитическим технологиям, возрастает и вероятность возникновения ошибок, противоречивых результатов и когнитивных искажений, не говоря уже о том, что слишком большой объем информации может быть трудно систематизировать. Несмотря на то, что выполнять рутинные запросы стало намного легче, обработка данных все еще является сложной задачей для большинства организаций.
Получение, очистка и структурирование данных для анализа по-прежнему составляют значительную часть работы. Кроме того, чтобы получать максимум от аналитики, необходимо понимать природу данных и учитывать неизбежные случайности, противоречия и ошибки.
Для создания целостной команды data scientists и культуры, питающей ее, необходимо привлечение редких талантов в сфере данных, хорошее понимание рабочего процесса data science (многие организации обнаруживают, что длинные конвейеры обработки данных требуют широкого разнообразия навыков и инструментов) и сбалансированное применение аналитических средств специального и общего назначения.
Для создания культуры управления на основе данных, также необходимо, чтобы сотрудники компании, не являющиеся специалистами, приобрели базовое понимание передовых методик анализа данных. Поскольку, все больше неспециалистов работает с данными, возрастает вероятность неправильного понимания результатов. (Подсказка: корреляция – это не причинно-следственная связь.) Все большее значение приобретает документирование происхождения источников данных. Сотрудничество и воспроизводимость методов, в качестве культурных норм, могут помочь неспециалистам избежать ошибок и получить ценные образовательные возможности.
Интернет вещей (IoT)
Дешевые сети и датчики предвещают совсем не похожее на сегодняшний день будущее, где подключение к Интернету будет постоянным и непрерывным. По прогнозам аналитической компания IDC, в 2020 году количество подключенных к сети «вещей», каждая из которых будет генерировать данные, превысит 30 млрд.
Проблемы. На текущий момент не существует общепринятых открытых стандартов в сфере Интернета вещей, а это означает, что устройства «не понимают» друг друга, и потоки данных могут быть несовместимыми.
«Умные» вещи будут параллельно генерировать миллиарды записей, не имеющих общей структуры, в том числе геопространственные данные, слабоструктурированные данные датчиков, а иногда и двоичные данные. Извлечение понятных и содержательных идей из результирующего потока может быть сложной задачей.
Вопросы безопасности охватывают не только одну программу, но и всю сеть программ и устройств. Общество, постоянно находящееся онлайн, порождает потребителей, желающих получать информацию мгновенно, 24 часа в сутки, 7 дней в неделю, а для этого необходим анализ фактически в режиме реального времени.
Прогресс в области алгоритмов
Эта сфера не слишком знакома широкой общественности, однако прогресс в области алгоритмов оказал сильное воздействие на нашу жизнь и на способы использования данных. Глубокие нейронные сети (глубокое обучение) хорошо справляются с задачами восприятия и нашли применение в таких потребительских продуктах, как Facebook и Google Brain.
Активное обучение применяет алгоритмы для решения «легких» или рутинных задач, оставляя сложные задачи для человека. Этот подход используется для таких целей, как извлечение неструктурированных данных из веб-страниц или для преобразования аудиоматериалов в текст с помощью специального ПО.
Проблемы. Сейчас алгоритмам уже недостаточно быть точными. Во многих случаях они также должны быть масштабируемыми, быстрыми и интерпретируемыми. Не говоря уже о защищенности, ведь алгоритмы могут использоваться как для хороших, так и для плохих целей.
Враждебные алгоритмы могут быть разработаны для того, чтобы атаковать интеллектуальные системы. Безопасное машинное обучение (системы, устойчивые по отношению к вредоносным действиям) и другие меры, обеспечивающие безопасность и конфиденциальность, будут приобретать все большее значение.
А какие тенденции и проблемы интересуют вас в связи с распространением больших данных?
Автор: Роджер Магулас
Перевод Станислава Петренко
По материалам: NextTrends