e-mail: dvkazakov @ gmail.com |
|
|
|
|
Учебный проект
Кластеризация стран по нескольким признакам
Навыки:
[1] Peter J. Rousseeuw (1987). “Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis”. Computational and Applied Mathematics 20: 53-65.
Ноутбуки проекта:
Исходные данные взяты из предыдущего проекта по сравнению религиозности населения с другими параметрами: ожидаемая продолжительность жизни, уровень коррупции, индекс демократии, уровень свободы (Freedoms in the world), ВВП на душу населения, индекс человеческого развития, количество убийств на душу населения, доля религиозных людей и численность населения.
Все данные были собраны из Википедии в общий файл (Raw_data.xlsx), а затем подготовлены и сохранены в отдельных файлах в формате csv (папка raw_data).
Для этого проекта были удалены или переименованы некоторые колонки (папка prepared_csvs).
Рассмотрены два варианта: с учетом и без учета численности населения, т.к. она не является параметром, определяющим качество жизни напрямую.
Анализ главных компонент
С учетом численности населения
Видно наличие выраженной главной компоненты.
Тот же график без информации по странам для большей ясности:
Видно, сразу несколько признаков лежат почти на главной оси: индекс человеческого развиития, ВВП, коррупция (большие значения индекса соответствуют меньшей коррупции!), продолжительность жизни и (с обратным знаком) религиозность.
Количество убийств на душу населения и численность насления ориентированы близко ко второй главной компоненте.
Последний график для варианта без учета численности населения:
Кластеризация
Результаты (средний силуэт) при использовании главных компонент и данных без учета численности населения лучше, поэтому здесь привожу только их (только для числа кластеров 2, 3, 4).
Наилучший результат получен при числе кластеров, равном двум. При этом видно, что раздел идет по значениям 1-й главной компоненты.
Вывод: если исходить только из этих признаков, современный мир представляет собой континуум без четко разделенных групп.