Как предсказывать исход событий с помощью интернета или кто победит в финале Лиги Чемпионов

Какой самый успешных инструмент предсказаний и оценки будущих событий вы знаете? Кофейная гуща? Подбрасывание монетки? Или соц.опрос? В данной статье рассказывается о новом способе оценки будущих событий, который, возможно, в недалеком будущем станет одним из самых надежных инструментов предсказаний.



Вы узнаете о возможностях исследования мнений в социальных медиа, так называемых «рынках предсказаний», а также – кто победит в финале Лиги Чемпионов 28 мая на стадионе «Уэмбли»




[b]От теоремы Кондорсе до рынка предсказаний[/b]


Правда ли, что большинство не ошибается? И что глас народа всегда верен?

На этот спорный вопрос более 200 лет назад дал ответ французский ученый и политический деятель маркиз де Кондорсе в своей теореме о жюри присяжных: если вероятность предсказания каждого независимого индивидуума больше 50%, то вероятность того, что большинство даст верное предсказание стремится к 100% по мере увеличения числа предсказывающих индивидуумов.



С расцветом социальных медиа и возможности каждого (или каждого второго) выразить свое мнение онлайн, интернет становится такой же репрезентативной площадкой для сбора статистики, как и опросы общественного мнения. Но намного более простой, динамичный и относительно недорогой в получении результатов и их анализе.

А иногда узкий срез людей легче найти именно на тематических площадках в сети, чем отыскать в безграничном пространстве офлайна.



Грех было не воспользоваться таким кладезем информации и мнений, и на основе теоремы Кондорсе был создан новый класс приложений – рынки предсказаний (РП). На данный момент их насчитывается уже несколько сотен. По своей сути, такие приложения представляют собой спекулятивный рынок типа фондовой биржи, участники которого имеют цель заработать на предсказаниях. Чем выше ваша ставка на тот или иной вариант развития событий, тем выше оценивается ваш голос. Приведем только один яркий факт, доказывающий право таких приложений на существование:

«В США предсказания РП оказались на последних президентских выборах в США точнее любых опросов общественного мнения и любых прогнозов экспертов. Ошибка РП «MAPE of IEE» составила всего 1,5%, против ошибки Gallup Poll в 2,4% (Gallup Poll всегда славился самыми точными оценками)».




[b]Успех онлайн предсказаний близок[/b]


Одними из первых оценить и проверить на деле глас блогосферы не через искусственно созданные биржи, а посредством стороннего наблюдения и сбора информации попробовала американская компания “General Sentiment”.



Весной прошлого года она провела мониторинг социальных и новостных медиа с целью определения финалиста популярного американского шоу American Idol (прародитель «Фабрики звезд»). Вы можете прочитать полное исследование по этой ссылке (там можно скачать PDF исследования), мы изложим только основные моменты.



В своих исследованиях они оперируют тремя показателями: Media Value, Sentiment и Volume.

Показатель Media Value конвертирует все упоминания персоны в реальную стоимость (доллары), соответствующие сумме, которую бы данной персоне или бренду пришлось бы потратить на традиционные медиаканалы (на PR-акции, мероприятия, проплаченные статьи и отзывы и др.) для порождения подобной волны обсуждений. Цифры получались действительно нешуточные

Sentiment – это тональность обсуждений, которая рассчитывается по определенному авторскому Sentiment Index.

Volume – это общее количество упоминаний бренда



Американцы выложили свое исследование аккурат перед финалом телешоу, в который вышли два претендента – Кристалл Боуэрсокс и Ли ДиУайз. Однако Media Value было высчитано для 7 участников, и мы можем видеть, что с самого начала публика уделяла всем другим участникам намного меньше внимания, чем финалистам Кристал и Ли (даты – с апреля по май 2010 года)




Рассчитав для двух финалистов также и показатели Sentiment и Volume, ребята из “General Sentiment” поставили на успех Кристал Боуэрсокс… Но победил в итоге Ли ДиУайз.

Конечно, кейс был бы более изящный, если бы предсказание сбылось, но этот и ряд последующих исследований “General Sentiment” всё быстрее приближают эру, когда исход массовых событий можно будет предсказывать по анализу мнений в онлайн-среде.



Но всё это – западные исследования, мы же взяли на вооружение похожую механику и решили создать нечто подобное для русскоязычной аудитории интернета. И, конечно же, не смогли отказаться от соблазна заглянуть в будущее и узнать, кто победит в самом зрелищном футбольном турнире Европы – Лиге Чемпионов.

Мы провели анализ обсуждений финала Лиги Чемпионов с целью выяснить, на чью победу ставит большинство пользователей, и на основе него сделали прогноз.




[b]Как это работает?[/b]


Сбор данных проводился по различным видам онлайн-медиа, начиная с форумов и заканчивая онлайн-сми.



В процессе исследования само собой определились основные источники, где велось больше всего разговоров об исходе матча – это футбольные сообщества и порталы, где в комментариях разворачивались обширные дискуссии: http://www.eurosport.ru, http://news.sportbox.ru, http://www.championat.ru, http://football.ua и ряд других



Поиск проводился по ключевым словам: “Манчестер", «МЮ», «Манкунианцы» и т.п. в контексте таких слов, как «Барселона», «Барса», «барсуки»



Самым сложным этапом было, конечно же, анализ тональности прогноза – то есть определение, на кого ставит автор конкретного комментария.

Для этого был составлен большой словарь, который постоянно пополнялся (за это время мы существенно пополнили личный лексикон!), например: «победит», «уделает», «обыграет», «сольёт», «продует»… и множество других аналогов. Однако задание в данном случае было действительно не из легких, так как «живой великорусский» язык на наших форумах трудно интерпретировать в автоматическом режиме (например, в отдельных случаях это бы просто счет в пользу той или иной команды), поэтому существенная доля упоминаний была обработана и оценена вручную.



Самые популярные источники комментариев с соотношением тональности прогноза:

image



Интегрально было собрано и обработано более полутора тысяч комментариев, в которых обсуждался финал футбольного турнира, причем менее четверти из них содержали явное указание на победителя. В итоге примерно 60% (204) голосов было отдано за победу МЮ, и только оставшиеся 40% (145) — за Барселону.



image



Конечно же, мы столкнулись со многими трудностями

В первую очередь, это технический сбор информации и обработка. Русский язык настолько богат, что все варианты упоминаний просчитать сложно (хотя мы старались), и определенные упоминания могли от нас ускользнуть.



Во-вторых, если вы перечитаете теорему Кондорсе, то там ключевым показателем правильного исхода предсказания служит вероятность верного предсказания каждого больше, чем 50%. Полагаем, что нам удалось выдержать данное условие, т.к. упоминания были собраны с профильных футбольных площадок, где люди дают свои прогнозы не на пустом месте: то есть следят за футбольными турнирами и знают силу команд.



В-третьих, определенную погрешность могла принести и психология: «Барселона» последнее время сминала всех на своем пути и выиграла уже достаточно много турниров, так что многие просто устали от нее и будут болеть за «Манчестер Юнайтед» и делать ставку на них.



В общем, методология еще требует шлифовки и совершенствования, но мы уже сбегали в ближайшую букмекерскую контору smile.gif


Хотели бы узнать мнение о вероятности удачи прогноза — и спросить, как вы считаете, какие недостатки есть у такого рода исследования? Будем благодарны за любые конструктивные отзывы!



И для поднятия настроения – немного примеров комментариев из блогосферы:

  • Коля, может и не со счетом 3:1, но МЮ возьмет вверх в этом финале smile.gif Ферги хоть и стар, очень хитрый лис. Барса безусловно хороша, и в этом году, и в предыдущем, но в характере, им до МЮ далековато. В общем, посмотрим, а ты готовь бутылочку вина, благо сейчас даже не далеко за ней ехать ) (ссылка)
  • БАРСА утрет шнобель МЮ, так же как и кислой команде маула!!! Барса истинный чемпион!!! (ссылка)
  • МЮ победит.Инфа 100%тная =) (ссылка)
  • йоу!!! я забил с мексом на работе на 20 баксов что барса выйграет манчестера… ждемссс финал 28 числа… (ссылка)
  • я думаю очень интересная игра будет, но приемущество на стороне барсы будет это 100 проц, что-бы барсе противостоять нужно в контроатаке играть а не сидеть у своих ворот как обычно это делает МЮ. (ссылка)


Original source: habrahabr.ru (comments).