Дайджест интересных статей (март 2015)

Rewriting the Rules of Turing’s Imitation Game (EN)

1Со времен Алана Тьюринга и его «игры в имитацию», исследователи в области искусственного интеллекта пытались сделать машины умнее. В некоторых сферах успех превзошел все ожидания: компьютер смог обыграть человека в шахматы и аркады; машины делают сложные математические расчеты за считанные секунды. Тем не менее, все эти системы очень специализированы. Когда Тьюринг обратился к проблеме определения искусственного интеллекта, он сказал: «Компьютер должен быть в состоянии убедить людей, что он тоже человек».

PredictionIO (Open Source Version) vs Microsoft Azure Machine Learning (EN)

2Microsoft Azure ML и PredictionIO – современные инструменты для машинного обучения, имеющие много общего. Они значительно облегчают работу data scientist’ов, перед которыми стоит задача построить прогнозные модели на основе имеющихся данных. Тем не менее, между этими инструментами существуют принципиальные отличия. Каждый из фреймворков имеет свои достоинства и недостатки.

Визуализируй это (RU)

3Соединяя хорошо подобранные данные, технологии и дизайн можно сделать много интересных визуализаций. «Бытовая картография» не такая уж сложная и запутанная штука, если ей немного увлечься.

How to share data with a statistician (EN)

большие данныеЧасто при обмене данными возникает много типовых проблем. Передавая данные для статистического анализа, вы должны «привести их в порядок». Эта статья – краткое руководство, как, не споткнувшись, пройти путь от сбора до анализа данных.

Let’s build open source tensor libraries for data science (EN)

5Зачастую data scientist’ы работают с высокоразмерными признаковыми пространствами. Например, text mining имеет дело со словарями, которые включают 10 000+ слов. Многие аналитические проблемы решаются при помощи линейной алгебры, в частности, 2D-методов факторизации матрицы. Тот, кто работает над реализацией алгоритмов машинного обучения, как правило, нуждается в хорошей библиотеке для матричного анализа.

5 Reasons to turn to Spark for big data analytics (EN)

большие данные SparkЗа последние пару лет, когда Hadoop завоевал абсолютное лидерство в области больших данных, стало ясно, что:

— HDFS – подходящая платформа для хранения больших объемов информации;

— YARN – удобная технология для управления данными;

— до сих пор нет единой системы для обработки, которая будет решать все проблемы.

Хотя MapReduce – прекрасная технология, она не является панацеей.

Добавить комментарий

Ваш e-mail не будет опубликован.

закрыть

Поделиться

Отправить на почту
закрыть

Вход

закрыть

Регистрация

+ =