Новостная лента

Прогнозирование на основе биг-дата лишено теории

10.05.2016

Конец теории – заявляют протагонисты биг-дата. Это опасное утверждение. Без разработки теории уфондованих моделей, что могут выдержать дальнейшее исчерпывающее тестирование, мы не узнаем ничего о том, как мир действительно работает.

 

 

Известная статья Криса Андерсона, которая вышла в Wired в 2008 году, имела название: “Лавина данных делает научный метод устаревшим”. Базовый аргумент статьи заключается в том, что многие исследователи клюют на приманку большого массива данных в сочетании с методами прикладной математики, и это фактически замещает весь другой инструментарий, который может пригодиться для обоснованного прогнозирования в науке. С такими последними трендами результаты теорий человеческого поведения явно стареют, не смотря на то, эти теории основываются на психологии, социологии или экономике. Понимать движущие силы того, почему люди делают то, что они делают, с Андерсенової перспективы рассматривается просто как неинтересное. Зато, часто (но неправильно) предполагают, что достаточно наблюдать за человеческим поведением — также и потому, что можно легко отследить и измерить такое поведение и записать данные о ней. Тогда, имея мириады “надежных” данных, числа должны сами говорить за себя.

 

Наоборот, подход со времен “до-биг-дата» концентрировался на разработке тестабельних гипотез, происходящих из определенным образом хорошо обоснованной теории. Впоследствии, основанные на этих гипотезах модели эмпирически тестируются, и эти испытания подтверждают или опровергают предназначены объяснить функционирование модели мира. С массивом данных, мощными компьютерами и алгоритмами извлечения данных теперь является бизнес-эксперты, и даже экономисты, которые верят что подход “гіпотезуй, моделируй и в конце тестируй” относительно прогнозов быстро становится устаревшим. Например, Эрик Бринольфсон (Erik Brynjolfsson) и Лин Ву (Lynn Wu) отметили силе биг-дата: данные поисковых систем, говорят они, обеспечивают простой, но точный способ предсказать будущую деловую активность. Применив эти данные для предсказания трендов рынка жилья, они пришли к выводу, что их индекс поиска жилья в значительной мере предполагает будущую продажу и цены на рынке жилья. Они заключают, что “наноекономічні” данные транформують прогнозирования и будут иметь очень большое влияние на бизнес-стратегии и принятия решений потребителями.

 

Принимая во внимание эти разработки, чего ждать в будущем? Мы уже можем найти в экономических журналах многочисленные статьи, что больше не опираются ни на теорию, ни на тестабельні гипотезы, а лишь позволяют компьютерам найти корреляции в некотором заранее определенном направлении. Такие статьи называются, к примеру, “хиральность и прибыли” или “красивые родители имеют больше дочерей”, и эти статьи демонстрируют некоторое интуитивно “интересный” (однако не обязательно “интересный” с научной точки зрения) эффект и таким образом попадают в газетные заголовки.

 

В блестящем исследовании астрологических знаков и здоровье, Питер Остин и другие (2006) иллюстрируют, как многочисленные тестирования “гипотез” (или — в мире добывания данных проверок корреляций) может использоваться, чтобы создавать связи без никакой теоретической (здесь, никакой клинической) правдоподобия. В их исследовании, они используют автоматизированные методы добычи данных, чтобы выявить очевидно значимые связи в большом наборе данных. Они обнаружили, что люди, рожденные под знаком Льва имеют значительно более высокую вероятность желудочно-кишечных кровотечений, в то время как Стрельцы имели значительно более высокую вероятность переломов плечевой кости в сравнении со всеми другими вместе взятыми знаками.

 

В чем заключается специфический риск для экономики таких подходов добывания данных? Давайте предположим, что мы можем придумать 1000 “гипотез” (или, скорее, предполагаемых корреляций), из которых a priori, только 100 будем считать правдивыми. Вероятность ложно положительных и ложно отрицательных результатов будет 10% и 20%. Поэтому даже исчерпывающий анализ приведет к коэффициенту ошибки — отношение подтвержденных весомых результатов, которые оказались фальшивыми — что составит (1 – 80/170) = 53 %. Таким образом, что более мощные компьютеры мы имеем и чем больше данных мы получаем, тем больше “гипотез”/ “корреляций” можно протестировать: Рассмотрим тестирования 100 000 “гипотез” или проверку 100 000 корреляций, предполагая постоянную (на самом деле, очень высокую) априорную вероятность правдивости в 1%. Используя выше приведенные предположения, мы получим коэффициент ошибки 1 – (800/10700) = 92.5 %!

 

Подытоживая: без разработки основанных на теории моделей, которые могут выдержать дальнейшее тщательное тестирование, мы не узнаем ничего о том, как устроен мир.

 

Однако, единственное, что мы будем знать наверняка: коэффициент ошибки в добывании данных является a priori исключительно высоким.

 

Ссылка:

 

Austin PC, Mamdani MM, Juurlink DN, Hux JE. Testing multiple statistical hypo — theses resulted in spurious associations: a study of astrological signs and health. J Clin Epidemiol. 2006 Sep;59(9):964-9. Epub 2006 Jul 11.

 

Lynn Wu, Erik Brynjolfsson. The Future of Prediction: How Google Searches Fore — shadow Housing Prices and Sales. Chapter in NBER book Economic Analysis of the Digital Economy (2015), Avi Goldfarb, Shane Greenstein, and Catherine Tucker, editors (p. 89-118).

 

 

Thomas Ehrmann
Big Data Predictions Devoid of Theory
Economic Ideas You Should Forget [Экономические идеи, что их должны забыть] (март 2017)
Зреферувала Кристина Семанюк

 

 

You Might Also Like

Loading...

Нет комментариев

Комментировать

Яндекс.Метрика