Dubrowsky
Хроники одного дупла
Блогово  →  Флудыбр  → 

Про отсутствие Навального в топе Яндекс.Новостей

30 Марта 2017 года

Я вот позавчера ночью на фейсбуке обозвал всех мудаками и ушел спать.

Ну ок, я погорячился. Давайте теперь расшифрую. Много букв, готовьтесь.

0. А ты сам ваще кто, либераст или ватник?

Если кратко: Навальный мне не нравится, но движуха нужна. Пока Навальный делает движуху, но не имеет реальных шансов на трон - я за Навального. Потом поглядим.

1. Что вообще случилось

26 марта была большая буча, во многих городах России прошли митинги в честь фильма Навального о коррупции Медведева. Многим это событие показалось достаточно важным, чтобы попасть в топ Яндекс.Новостей (5 штук на морде) и провисеть там какое-то длительное время. Однако сюжет попал в топ слишком поздно и пробыл там не слишком долго.

Навальный в твиттере совершил наброс на вентилятор. Хомячки атаковали сотрудников Льва Толстого, 16. Я в это время что-то программировал.

Спустя два дня мне в телеграм прилетела телега от Саши Амзина, я посмотрел, какой мрак у него в комментах (а его обычно умные люди комментят). Потом зачем-то почитал комменты к официальной отмазе в блоге Яндекса - там сотни разгневанных пользователей специально зарегались, чтобы написать, что они навсегда уходят в гугл (сотни!!! это вообще-то много!). Почитал комменты еще в паре-тройке разных мест. Ну и психанул, назвал всех мудаками и лег спать =)

2. Что меня так выбесило

Тупость и неграмотность, помноженные на агрессивность и невероятное чувство собственной значимости ораторов. Я привык считать, что обсуждать технологическую компанию следует в терминах технологий и бизнеса. Ну или хотя бы примерно понимая, как работают технологии и в чем состоит бизнес. Но там мрак.

И дикое жлобство, причем кажется неосознанное. Они серьезно пишут, мол Яндекс исказил мою информационную картину дня! Пусть отправит в помойку все их алгоритмы вместе с программистами. Но блин, в вашей личной информационной картине митинги и так заняли почетное место. А те, кто лишился удовольствия о них узнать, зайдя на морду Яндекса, так и остались в счастливом неведении.

То есть Яндекс, грубо говоря, не пропиарил нечто, что они считают прекрасным. Узнаете? Ага, это же древний плач сеошников "как Яндекс бесплатного трафика недодал"  (и будет за это гореть в аду). Но у сеошников хотя бы есть аргумент, что Яндекс кормится их контентом, и, если не будет паинькой, "мы все однажды как закроем наши сайты в роботсе, и тогда-то он заплачет"!

И вот этот нелепый выбор крайнего. Кто крайний? Ну, давайте издалека.

  • мы просрали телек (точнее некоторые из вас просрали, я тогда еще маленьким был), и теперь все может происходить только в интернете
  • мы проголосовали за Собянина в 2013
  • мы забили на выборы депутатов осенью
  • депутаты придумали закон о новостных агрегаторах
  • список источников сократился до ИА и сидящих на их ленте зарегистрированных СМИ
  • информагентства задвинули тему
  • зарегистрированные СМИ поленились / побоялись ставить тему не из ленты ИА
  • зарегистрированные СМИ управ, кормящиеся с Собянина (п.2) зафорсили "весну"
  • телек (п.1) целый день показывал что он там показывает обычно
  • неверные менты целый день убивали насиловали и съедали школьниц в километре от кремля а власти скрывали
  • криворукие программисты Яндекса под руководством куратора из ГБ написали кривой код, который не умеет нормально объединять события из разных городов, произошедшие в разное время, в один сюжет...

Во, вот он крайний! Давайте обсудим!

Серьезно?!!! Ну я надеюсь что это совсем от отчаяния и бессилия. Типа Яндекс, в отличие от всей предыдущей цепочки, можно потыкать палочкой, и он что-нибудь ответит (официально на компани и через публичных спикеров в фб), а уж мы в комментах оторвемся и выскажем все что накипело.

А, ну и отдельным пунктом меня печалит, что вот эта вся злобная тупость - это типа как альтернатива нынешней власти, и если мы все как следует напряжемся и случится пара чудес, то ура, через сколько-то лет эти люди перестанут быть маргиналами и станут насаждать разумное доброе вечное от имени и во благо народа. Бля, это вот прямо пиздец как расстраивает, пишу и плачу (((

3. А чо там с бизнесом?

С бизнесом довольно просто, кажется. Сами новости вряд ли много денег дают - директ там скромняшка и таргетируется только поведенческим. Новости вряд ли дают много закладочного трафика, они живут трафиком с морды (типа 50% по данным хз какой давности, пруфлинк потерял) и с колдунщиков по новостным запросам.

Но сам блок новостей приносит сколько-то трафика морде. Люди заходят на морду, чтобы позырить 5 ссылок про самоубийство в семье Пугачевой и актуальную повестку хохлосрача (трампосрача, туркосрача etc.). Эти люди отсматривают банер на морде, и с некоторой вероятностью вбивают какой-нибудь запрос и потом кликают по директу уже на выдаче.

Короче, бизнесовый смысл всей этой конструкции - давать закладочный трафик морде, наравне с виджетами погоды и пробок. Хорошо ли решают Яндекс.Новости эту задачу на сегодняшний день? Я думаю, неплохо.

Многие ли пользователи морды 26 марта заметили, что с топом новостей что-то не так, и решили в следующий раз открыть морду гугла потому что там новости лучше начать серфинг с другой точки? Думаю, не очень. Подозреваю, что без подсказки Навального таковые исчислялись бы десятками.

Часто ли случаются такие вещи, когда эта бага проявляется? Хм, пока не часто.

Есть ли что-то более насущное, что можно докрутить в алгоритме, чтобы он доставлял больше счастья 42 млн пользователей морды? О, да!

Короче, это бага для дальнего конца списка. Понятная причина о ней подумать - репутационные риски. Ну и совесть какая-то (с уходом Ильи ее стало меньше, да). Но первым можно управлять, а второе - не про бизнес.

Есть ли риск огрести материальных пиздюлей из администрации президента, если пойти на принцип и как-то эту багу к следующему разу пофиксить? Я не знаю. Но в картине мира людей, сражающихся с кровавой гебней на просторах интернета, наверное такой риск должен существовать. Ну а раз так, наверное стоит вспомнить, что Яндекс - это не Московская Хельсинская Группа, он типа как должен деньги зарабатывать и не должен ими зазря рисковать. (к.о.)

И к слову о рисках, закон об агрегаторах предписывает "не допускать использование агрегатора в целях совершения уголовно наказуемых деяний". Вот вам картина: на морде Яндекса красуется желанный заголовок "В Москве проходит митинг против коррупции". Власти считают митинг незаконным и экстремистским. Яндекс попал.

4. А чо с технологиями?

Какова механика процесса? Почему оно так произошло? Строго говоря, снаружи понять нельзя. Потому что у нас нету 1) данных, 2) формулы. В теории, можно собрать данные и по ним очень приблизительно зареверсинженирить (восстановить) формулу (оба пункта сильно проще в исполнении, чем, например, для большого поиска) и веса источников (или хотя бы понять, что они есть / нет / как расставляются). После этого можно будет предметно обсуждать одну из следующих гипотез:

а) злые модераторы по звонку из АП вручную забанили сюжет

Если существующие алгоритмы должны были на целый день гвоздями прибить сабж к первому месту, то да, это палится. Если сабж балансировал на грани, это не палится без доступа к реальным данным и реальной формуле, остается только верить Яндексу. Пока на моей памяти Яндекс на ручном вмешательстве в собственное ранжирование не палился, так что я лично верю.

б) злые яндексоиды специально написали такой алгоритм или расставили такие коэффициенты СМИ, чтобы сабж не всплыл

Имхо, расковырять нереально. Не исключаю, что какая-то защита вот именно от попадания инфы что есть маза поучаствовать погромах и мародерстве о мирных собраниях таки может быть вшита в алго. Ну потому что когда будет долгожданная "понеслась", даже теоретическая возможность пропихнуть на морду сниппет с призывом к булыжнику может сделать Яндекс крайним уже вполне реально. Я бы перестраховался. Но как проверить - хз.

в) ленивые яндексоиды не предусмотрели такую ситуацию

Это вот про их отмазку о временном и региональном распределении новостей, в результате чего новости не склеились в один сильный сюжет-победитель. Ну звучит более чем разумно. Найдите в прошлом пару событий, где у них была возможность заметить эту багу и потренироваться? Я не соображу. 

г) яндексоиды молодцы а журналисты продажные мрази и подстилки - проблема в данных

В смысле, Яндекс все отранжировал как надо, но ему было нечего ранжировать, потому что было мало текстов, потому что журналисты... Если не полениться и сравнить с разными другими расположениями звезд, этот вариант можно сравнительно легко проверить даже на данных самого Яндекса - тупо поиском, и дальше на глаз. В посте Яндекса есть список тем, побывавших в топе - можно сравнивать.

Мне лично кажется, что тут сработали последние два пункта: алгоритм объединения сюжетов не заточен под инфоповоды, размазанные по времени и территории, поэтому тема распалась на несколько более мелких сюжетов, при этом данных по каждому из них было мало, и это вопрос к СМИ.

5. Что с этим может сделать Яндекс?

а) забить и ничего не делать

Ну и это в общем нормальный вариант.

б) попытаться улучшить алгоритм, добавить фильтры для "управ"

Я думаю, они попробуют. Потому что, во-первых, они исторически ненавидят манипуляции со стороны всяких "вирусов" (с). Во-вторых, сейчас спамят управы, а там глядишь подтянутся какие-нибудь сателлиты Открытой России, и Яндексу придется ссориться уже не с хомяками Навального, а с каким-нибудь НОДом, а я хз что хуже.

в) сделать топ новостей персонализированным

Я считаю, что это очень плохой вариант, потому что вместо хоть какой-то объективной картинки мы получаем очередной "пузырь фильтров". Но этот вариант может решить часть проблем Яндекса: поклонники Навального будут видеть нужные заголовки, и вообще нельзя будет сказать "такой-то новости не было в топе", потому что топ будет у всех разным. 

Кстати, технически это вполне реализуемо: данных Метрики должно быть достаточно, чтобы разметить юзера по политическим предпочтениям. И в направлении персонализации новостей Яндекс уже делал некоторые шаги: во-первых, есть выбор главного источника в сюжете, во-вторых давно уже запускали "Мои новости", которые умеют собирать любимые RSS и новости из социалок. Правда, "Мои новости" доживают последние дни - потому что RSS мертв, богомерзкий Фейсбук закрыл доступ к пользовательской ленте через API, а выискивать новости среди котиков и прочего говна типичной ленты ВК можно разве что на суперкомпьютерах NASA, и то не факт.

г) убрать новости с морды, а спустя пару лет провести эвтаназию

И это вполне реалистичный вариант, и в комментах у себя они даже прямо это подтверждают:

Олег, юзер: Яндекс, а вы не думали о том, что если  из-за состояния существующего законодательства и несовершенства алгоритмов Яндекс.Новости не способны формировать адекватную новостную картину, то может быть их просто нужно убрать с главной страницы? И так будет честно? Чтобы не вводить людей в заблуждение.

Света Чистякова, сотрудник Яндекса: Олег, здравствуйте. Думали, конечно. И ещё раз подумаем.

И еще: это уже было. Давайте вспомним поиск по блогам (ЯППБ). Там тоже был топ записей, была серия скандалов с непопаданием какой-то политоты в топ, обвинения в продажности, потом Яндекс специально созывал к себе в офис блоггеров, и там Кукуц с Волнухиным подробно объясняли, как оно работает, но всем было плевать, топ попробовали сныкать подальше, а спустя пол года закрыли. Вот пара цитат из поста на Хабре, посвященных похоронам рейтинга:

Мы увидели, что сервис, который изначально создавался как зеркало, отражение блогосферы, стал усилителем, медиа-инструментом.

... инструментом стали пользоваться все, кому не лень – от распространителей ссылок «помогите собрать деньги» до радикалов всех мастей. В результате радикалы одних мастей стали обвинять Яндекс в пособничестве радикалам других мастей, и наоборот.

Потом ППБ еще несколько раз урезали и прятали, и сейчас он доступен только в виде голого поиска и только по прямой ссылке.

Короче, оказавшись в ситуации, когда "быть зеркалом" уже технически невозможно, Яндекс предпочитает сделать харакири. Правда, в случае с блогами цена вопроса была поменьше: блогосфера изначально была заселена фриками, а к тому моменту уже постепенно загибалась в связи с миграцией фриков в социалки. ППБ действительно не был массовым сервисом (что, кстати, для самих блогеров стало очень обидным открытием).

Новости - сервис массовый, его жальче. И лично мне тоже будет очень жалко, если он сдохнет - потому что в текущем виде это гораздо лучше, чем фейсбучный пузырь.

6. Что можем сделать мы сами

а) Добиваться лучшего освещения в СМИ.

Я вот пока не слышал ни одной истории о том, что какое-то издание написало о митингах и как-то пострадало за это. По ощущениям они все сначала просто слегка пересрали. Потом да, появились более удобные инфоповоды типа цифр с количеством задержанных, но и стало понятно, что ничего страшного не происходит, а тема горячая. Вон на второй день даже МК подтянулся.

Поймите, блин, что пиарить всякую активность - задача не Яндекса, а активистов. Когда активисты уговорят журналистов прийти и написать, Яндексу придется как-то с этими новостями жить. И даже если он сольется, новости вообще-то не для Яндекса пишут (хотя да, ЯН - один из важнейших трафикогенераторов для СМИ, я об этом писал).

б) Разобраться, как оно работает

Мне очень нравится эта идея - замутить такой независимый агрегатор для аналитических целей. Не на вечер задачка, конечно, но и не так страшно, как может показаться:

  • список источников открыт
  • их не очень много - меньше 7к, отбросить рубрики типа "Авто" и "Спорт" - останется половина
  • полный обход раз в 10 минут - это всего 10 запросов в секунду, ВПСка справится
  • инфа о количестве и объеме записей - есть (вот на 2011, но с кучей вкусных подробностей, а вот на 2013)
  • 100k сообщений по 200 слов - это ~100 мб текста в сутки
  • за год - 35 гб и 36 млн записей - для БД ерунда, для сфинкса - не пробовал, но должен сожрать
  • и да, есть Томита-парсер, он конечно чудовище, но какие-то простейшие вещи можно сделать.

Очевидная проблема - непонятно, как получить доступ к расширенному RSS с полным текстом. Но если полетит - можно договориться, а на старте ограничиться заголовками будет даже проще.

Короче, задача интересная. Свои ЯН с блэкджеком и шлюхами сделать, конечно, не получится, но это как минимум возможность разобраться в устройстве медиасферы узнать много нового =)

в) вылезти из пузыря

Давайте (хотя бы в качестве дикой фантастической гипотезы иногда) допускать, что нечто, интересное нам и нашим друзьям не всегда интересно остальному населению России.

г) быть добрее и конструктивнее

Ну это как бы с чего я начал. Яндекс (хотя он и не торт) - не худшее, что у нас есть. Давайте пинать что-нибудь другое.

Написать коммент: памятка постеру

 

Крутые посты wtf??? →

02.10.2012 · 90 камментов · рейтинг 7.83
28.06.2007 · 20 камментов · рейтинг 6.32
11.07.2011 · 8 камментов · рейтинг 5.19
01.04.2012 · 7 камментов · рейтинг 5.19
12.12.2007 · 73 каммента · рейтинг 4.94

Последне камменты

21.05.2017  Vadim GukОбработка кликов и цели в Яндекс.Метрике, улучшенный вариант: Большое спасибо за решение задачи.
20.05.2017  ДмитрийТестовое задание для PHP-программиста (Junior): А джуны ещё нужны у вас в компании?
18.04.2017  ДубрОбработка кликов и цели в Яндекс.Метрике, улучшенный вариант: Вячеслав, блин, я там скобку потерял =) Обновил, ...
17.04.2017  Вячеславтам же: вот http://www.totalat.ru/service/remont-akpp-bmw/
17.04.2017  Вячеславтам же: Вашу версию вставил. Даже alert проверочный вывод...

Статсы