На «ты» с терабайтами

11:44 2016-04-07 18 анализ быстрый данные данный массив

Рейтинг 4/5, всего 1 голосов

Представьте, что вы министр здравоохранения, который желает детально исследовать загруженность и эффективность больниц. Или же владелец огромной сети магазинов бытовой техники, который хочет знать больше о спрос на различные виды товаров в стране. Или, может, вы в команде стартапа, пытается оценить реакцию потенциальных покупателей на продукт, который выпускает? Раньше пришлось бы полагаться исключительно на отчеты подчиненных и социологические исследования. Однако первые нужно долго обрабатывать, а вторые все же лучше работают в меньших масштабах. А если массив еще и постоянно обновляется, и его объемы растут… Что делать?

Четвертая промышленная революция обеспечила появление нового инструмента — метода анализа больших данных. Принцип заключается в том, чтобы одновременно работать с большим массивом данных, как структурированных, так и хаотических, который постоянно меняется и дополняется в зависимости от внешних факторов. Скажем, если транспортный департамент города отслеживает ситуацию с трафиком на дорогах, постоянно надо делать поправку на аварию или дорожные работы, дифференцировать часы пик и выходные.

Сама идея обработки большого массива данных не нова: первые попытки предпринимались уже после Второй мировой войны. Они были логическим следствием появления электронных вычислительных машин. Кстати, первая такая ЭВМ, созданная на континентальной Европе, появилась в Киеве в 1951-м под руководством академика Сергея Лебедева. Но сначала она была слишком дорогой и громоздкой, чтобы иметь хоть какой-то шанс на массовое применение. До 1980-х годов анализ большого массива данных был прерогативой научно-исследовательских институтов и организаций типа NASA. Кроме того, они все же были статичными, поэтому таким образом можно исследовать данные, к примеру, естественных наук, что является более постоянными. В остальных же случаях данных было просто слишком много и поступали они слишком быстро, чтобы качественно их собрать и обработать.

Читайте также: Движение по течению. Потенциал новых отраслей приортетних

Итак, ранее исследователи сталкивались сразу с несколькими существенными проблемами. Сначала данные надо было корректно собрать из источников, географически удаленных друг от друга. Затем быстро обработать их и где-то надежно хранить, чтобы защитить от несанкционированного доступа и при необходимости быстро самим доставать к ним доступ. И главное — проанализировать и сделать выводы.

Технологический прогресс, что характеризует Четвертую промышленную революцию, дал инструменты для решения всех этих задач. Теперь человечество имеет портативные и быстрые компьютеры, которые, по закону Мура, удваивают свою мощность каждые 18 месяцев. Разработанные для них приложения могут быстро и надежно справиться с уже имеющимися данными и потоком новых. Производство постепенно переходит на киберфизични системы, которые являются миксом физических технологий и компьютерного кода и способны создавать четкие данные о своей деятельности.

Новые технологии дали возможность следить за каждым из нас тысячей способов: через камеры наблюдения на улицах, смартфоны в карманах, заметки в социальных сетях или поисковые запросы в Google

В конце концов, человечество теперь имеет интернет, который окончательно обеспечил существование метода анализа больших массивов данных. Он дает возможность быстро передавать данные с различных источников в один массив. А также открывает двусторонний глобальный доступ. Скажем, производители узнают мнение миллионов потребителей, а те, в свою очередь, имеют тысячи предложений на выбор.

Большие данные меняют принцип многих социальных взаимодействий в общественной сфере. Например, Администрация социального обеспечения США (SSA), что отвечает за регуляцию пенсионных планов и выдаче социальной помощи, активно использует большие данные. Теперь Администрация может значительно быстрее и эффективнее проверять медицинские данные и диагнозы, что помогает четко определять мошеннические запросы. А Министерство национальной безопасности США получает немалую выгоду от функциональной совместимости и интеграции данных из различных органов безопасности: полиции, ФБР, АНБ и тому подобное.

Технологический прогресс, который сделал возможным анализ больших данных, также постепенно меняет природу власти. Именно из-за него возникли наибольшие дебаты в западном мире: насколько далеко власть может идти в слежке за гражданами. Ранее государственные органы безопасности могли следить только за подозрительными лицами, вероятными преступниками, важными для государства лицами. Возможно, еще за мигрантами из нестабильных стран. То же касалось и разведки.

Читайте также: НЭП без угара

Однако новые технологии дали возможность следить за каждым из нас тысячей способов: через камеры наблюдения на улицах, смартфоны в карманах, заметки в социальных сетях или поисковые запросы в Google. Если раньше прослушивались конкретные телефонные линии, то теперь алгоритм позволяет анализировать все разговоры вообще, выделяя важные на основе определенных ключевых слов. Некоторое время, пока общество не слишком задумывалось над новой реальностью, власть спокойно использовала такую возможность. Слив данных, который инициировал бывший сотрудник ЦРУ и АНБ Эдвард Сновден, показал все масштабы шпионажа правительств за частной жизнью и коммуникациями граждан многих стран и заставил мировое общество переоценить приоритеты в парадигме свобода — безопасность.

Но большие данные работают и в обратном направлении. Данные Сновдена — это тысячи файлов, которые невозможно было бы обработать без применения метода анализа больших данных. Что уж говорить о сенсации 3 апреля — «панамские бумаги». Самый большой слив в истории журналистики — 11,5 млн файлов суммарным объемом 2,6 терабайта, над которым в течение года работала комиссия с 400 журналистов со всего мира. Без современных методов группировки и индексирования анализ этих материалов продлился бы гораздо дольше.

Кроме того, большие данные позволяют медиа, негосударственным организациям и аналитическим центрам отслеживать эффективность деятельности власти и делать прогнозы относительно будущих направлений развития социальных программ. Например, недавно издание VoxUkraine опубликовало материал, в котором прогнозировался состав новой коалиции в Верховной Раде на базе взаимодействия депутатов из разных фракций во время всех важных голосований парламента VIII созыва.

Читайте также: Алексей Скрипник: «Все украинские ИТ-компании понимают, что аутсорсинг – это не панацея»

Некоторые международные организации могут работать почти исключительно благодаря использованию больших данных. Они являются незаменимыми во время исследования миграции, именно поэтому Управление Верховного комиссара ООН по делам беженцев и Международная организация по миграции возлагаются на этот метод во время исследования миграционных потоков и обеспечения как можно лучших условий для беженцев, в том числе и работая с внутренне перемещенными лицами в Украине.

Не забываем про коммерческое применение. Большие данные создали несколько новых отраслей, среди которых мониторинг и менеджмент web-страниц и социальных сетей. Здесь очень весомый вклад сделала компания Google, которая разработала не только сверхпопулярный поисковик, но и отличный инструмент для мониторинга посещаемости сайтов GoogleAnalytics. Кроме того, популяризировала контекстную рекламу в интернете, выдача которой подстраивается под каждого отдельного пользователя.

Пространство для применения метода анализа больших данных безграничен: мир на самом деле пока только стоит у его истоков. Что больше Четвертая промышленная революция набирать силу, объединяя мир в единую социально-экономическую систему, то шире и репрезентативниши массивы данных будут получать исследователи.