Поделиться

воскресенье, 13 ноября 2011 г.

Редакторские будни: графическое представление статистических данных

Тема схем, иллюстраций и прочего подобного мною уже поднималась. Лично я вставляю "картинку" тогда, когда понимаю, что сам в голове представляю что-то схематически, а не в виде текста. В этом случае есть надежда на то, что и читателю будет проще понять изображение, чем текст. Формат издания, конечно, тоже может накладывать определенные ограничения. Схематическому изображению может быть подвергнут процесс, ситуация, классификация или что-то еще. Общим между всеми такими иллюстрациями является то, что цифры на них, даже если они имеются, вторичны. То есть схема или иллюстрация к изложению, какой бы она ни была, - это, в первую очередь, дело вкуса, произведение искусства, стиля, здравого смысла и лишь во вторую очередь - научной мысли. Так это видится мне.

Куда веселее обстоит дело с графиками и диаграммами, где цифры имеют первостепенное значение. Смысл таких композиций именно в отражении цифр, зависимостей между этими цифрами, тенденций, сходства и различий между числовыми рядами и т. д.

Этот текст, как и вообще мое видение на данный предмет, во многом основан на работах Эдварда Тафти (Edward R. Tafte), который посвятил много лет и четыре книги разъяснениям относительно правильных и неправильных решений в области статистической графики. Книги называются (по порядку издания и последовательности изложения): "The Visual Display of Quantitative Information", "Envisioning Information", "Visual Explanations", "Beautiful Evidence", все они изданы "Graphics Press LLC". У нас их можно купить в магазине Артемия Лебедева за солидные, но, как показывает дальнейшее изучение приобретенного, вполне разумные деньги. Тафти называют "Леонардо да Винчи в отношении данных" - я с полной готовностью соглашаюсь. Книги буквально открыли мне глаза на предмет: несмотря на математическое образование и любовь к схемам и графикам я вообще не думал, что сей предмет существует. А уж во время изучения указанных трудов много раз мои очи буквально вылезали из орбит, а из груди вырывалось: "Вау"! Поверьте, учитывая мой врожденно-приобретенный цинизм, такое случается крайне редко (примерно раз в 5 лет по какому-нибудь одному поводу).

Однако же вернемся к предмету статьи. Главный вопрос Тафти, который проходит через все его книги и на который, по его мнению, каждой диаграммой с цифрами должен даваться ответ, - это: "В сравнении с чем"? Если график не отвечает на этот вопрос, значит это плохой график. Плохим он может быть и по другим причинам.

Предлагаю рассмотреть несколько примеров. Чрезвычайно часто приходится видеть столбчатые диаграммы, наподобие следующей:

Ими отчитываются, их предлагают оценивать, ими предлагают восхищаться, наиболее часто они встречаются в презентациях PowerPoint. Конечно, это крайний случай, любому видно, что диаграмма плохая - мало данных. Вообще, если ряд чисел, который нужно представить, включает менее 10 элементов, нет смысла что-то рисовать - таблица вполне справится с задачей. Более того, таблица в таком случае предпочтительнее, поскольку она позволяет наблюдателю сконцентрироваться именно на цифрах, а не на окружающих редкие цифры декорациях.

Информативность диаграммы выше не просто низкая - она близка к нулю. В этом можно убедиться, если из площади диаграммы в пикселях вычесть площадь, занимаемую белым фоном и заливкой столбцов, а потом поделить оставшуюся полезную, несущую информацию площадь на исходную. Такой показатель (частное от деления полезной площади графика на общую площадь) - это уже не домысел и не фантазия, это хороший количественный критерий информативности. Графическое представление лучше всего подходит для отображения данных , содержащих сотни, тысячи или миллионы позиций, множество рядов, которые нужно сравнивать между собой, а не для демонстрации трех целых чисел, как в примере выше.

Вот пример позаковыристее:

Встречать подобное приходится реже, зато претензий к нему намного больше, чем к предыдущему.

Помимо того, что данных очень много, и сравнивать их практически невозможно (одни пики закрывают другие), тут есть еще парочка интересных эффектов.

Во-первых, это эффект муара - часто расположенные линии делений по вертикали сливаются в муаровый узор, который притягивает взгляд, создает иллюзию движения (глаз скачет туда-сюда по фону) и отвлекает от собственно данных.

Во-вторых, это иллюзия Неккера - стык левой и задней ограничивающих плоскостей то уходит на задний план, то выскакивает на передний, приходится себя одергивать, что тоже отвлекает от цифр.

И заметьте, опять-таки речь идет не о сугубых предпочтениях того или иного автора или наблюдателя, а о физиологических особенностях восприятия видимой картинки "человеком разумным". Самым интересным на графике с цифрами должны быть цифры, о чем часто забывают.

Иногда же об этом помнят, но намеренно вводят наблюдателя в заблуждение. Некоторые типы диаграмм просто-таки предназначены для отвлечения внимания от реального положения дел. Вот последний на сегодня пример:

Предположим, что некой компании необходимо было за год выполнить все намеченные в плане мероприятия по пяти направлениям - A, B, C, D, E. Только вчера (12 ноября 2011 года) смотрел по телевизору конференцию, посвященную 170-летию "Сбербанка", там все пестрело такими штуками.

И вот компания отчитывается... При взгляде на такую диаграмму возникает ощущение (может быть только у меня), что все совсем неплохо - площадь, занимаемая, вроде как, выполненной частью обязательств кажется большой. От взгляда, тем не менее, как-то автоматически ускользает, что:

  1. Если бы ожидаемый результат был достигнут, то вся координатная сеть была бы серой - именно так.
  2. Совсем хорошим следовало бы считать результат, когда мероприятия по всем направлениям выполнены на 100% или чуть не дотягивают до 100%.
  3. Конкретная приведенная выше картина отражает численные показатели, которые на самом деле говорят, что лишь по одному направлению были выполнены все мероприятия, а по остальным направлениям процент выполнения мероприятий не превосходит 50.

Иными словами, несмотря на симпатичную сетку, перед нами чертовски паршивый результат работы компании. Я подозреваю, что диаграммы такого типа были придуманы менеджерами или специалистами по PR, или бизнес-консультантами, а не математиками, причем придуманы были с совершенно конкретной целью - уйти от ответственности.

Вот такая графика, и такова ее сила, обращенная во зло. В одном посте, конечно, всего, что пришло на ум, не опишешь - это так, верхушка айсберга. Я думаю, что к этой теме еще придется возвращаться. 

7 комментариев:

  1. "Редакторские будки" - сильно сказано

    ОтветитьУдалить
  2. Валерий Викторович, что касается графиков, то я хорошо помню одно аспиранта, который на защите выставлял трёхмерную диаграмму с кучей разноцветных столбиков в три ряда глубиной - где абсолютно нихрена нельзя было понять.
    А совет сидел и млел от такой диаграммы. Мне, кстати, после защита сделали замечание, что у меня была "сухая" презентация - имелось в виду, что она была выполнена в исключительно чёрным цветом на белом фоне, всяких рюшичек и уж тем более бесполезных и непонятных трёхмерных диаграмм. Были стандартные блок-схемы алгоритмов (а не UML-диаграммы), обычные плоские гистограммы столбиками с разной штриховкой, ну и текст, куда без него.

    ОтветитьУдалить
  3. Исправить то, Вы исправили. А вот поисковики Вам всё припомнят: http://www.google.ru/search?sclient=psy-ab&hl=ru&newwindow=1&site=&source=hp&q=%D1%80%D0%B5%D0%B4%D0%B0%D0%BA%D1%82%D0%BE%D1%80%D1%81%D0%BA%D0%B8%D0%B5+%D0%B1%D1%83%D0%B4%D0%BA%D0%B8&btnG=%D0%9F%D0%BE%D0%B8%D1%81%D0%BA
    :-)

    ОтветитьУдалить
  4. Ну что мне сказать про такой совет? Наука, Россия, XXI век - я тоже вижу много людей, которые не своим делом занимаются. :) Или делают вид, что занимаются. У нас в НИИ, на самом деле, все сложнее в этом плане - вот уж действительно, где люди и за тематикой следят, и за тем, что на экране отображается вместо того, что должно отображаться. Проблема в том, что везде по-разному, и возникает вопрос: "А мне нужно защищать докторскую в НИИ четко по тематике ГО и ЧС, жестко по секретке, трепать себе нервы? Или мне проще в родном МЭСИ защититься, который даже ближе территориально"? :)

    По поводу поисковиков: ну а я-то что могу сделать? Пусть помнят опус, если им так хочется. :)

    ОтветитьУдалить
  5. докторская это хорошо
    но мне уже хочется уйти в свободное плавание на коммерческой основе, чем всю эту чернуху терпеть

    с каждым новым годом всё мерзостнее становится и тяжелее в моральном плане

    ОтветитьУдалить
  6. Ой ли - можно подумать, что в коммерции меньше чернухи. :) Как человек прошедший и государственное, и около-государственное и коммерческое, могу сказать, что не меньше. Конечно, у каждого своя жизнь, свой опыт. Может быть, вам повезет больше. :)

    ОтветитьУдалить