Не получается оформить ОСАГО — ОСАГО онлайн не работает, что делать в случае ошибок
Оформить полис ОСАГО онлайн проще и быстрее, чем в представительстве страховой компании. Вам не потребуется никуда ходить, оплата также производится через интернет с карты. Дополнительно у вас будет возможность сравнить условия у нескольких страховщиков и выбрать наиболее подходящие. Обычно полис е-ОСАГО можно получить без проблем, но бывает, что оформить документ онлайн не получается. Почему это происходит и что нужно делать, чтобы устранить проблему, читайте ниже.
Содержание
Скрыть- Почему может не получаться оформить полис онлайн
- Технические проблемы
- Проблемы на стороне страхователя
- Пути решения
- В каких случаях купить ОСАГО онлайн не получится
- Как оформить ОСАГО онлайн
- Ответы на вопросы
- Подведем итоги
Почему может не получаться оформить полис онлайн
На сайтах многих страховых компаний клиентам предлагают услугу оформления электронного полиса ОСАГО.
Документ является аналогом полиса, оформленного в офисе страховой компании, имеет ту же юридическую силу.
Причинами того, что не получается оформить электронный полис ОСАГО могут быть:
- Технические проблемы на сайте страховой компании или РСА;
- У страховщика возникли вопросы к страхователю.
Если раньше страховщик мог отказать клиенту в оформлении документа, когда считал сделку не рентабельной, сегодня это не допустимо. Любая страховая компания, которая имеет лицензию на осуществление своей деятельности, должна исполнять требования Федерального закона № 40 «Об ОСАГО», в числе которых оформление полисов обязательного страхования гражданской ответственности.
Технические проблемы
Технические сбои на сайтах крупных страховых компаний происходят очень редко и кратковременно.
В некрупных страховых компаниях технические сбои могут происходить из-за наплыва клиентов, например, в конце года, когда у водителей срок действия полиса заканчивается и все начинают оформлять его по новой.
Согласно указаний ЦБ РФ №4191-У от 14 ноября 2016 г страховые компании обязаны иметь резервные технологические средства, чтобы не допускать длительность перерывов в работе сайтов более 30 минут в сутки. Причем на сайте должно быть размещено соответствующее объявление.
Проблемой может стать сбои в работе сайта РСА. Страховщик запрашивает данные из базы союза автолюбителей, если там возникли технические проблемы, с оформлением полиса придется немного подождать. Обычно это решается в течение одного часа.
Проблемы на стороне страхователя
Причиной отказа системы в оформлении полиса может быть несоответствия или ошибки в заявлении. Заявка подается онлайн, контролирует правильность ее составления сам страхователь. При обнаружении ошибок и неточностей транспортное средство не проходит проверку в РСА, и заявка просто отклоняется.
Еще причиной, зависящей от клиента, является отсутствие интернета во время подачи заявки.
Пути решения
Если не получается оформить ОСАГО из-за технических сбоев на сайте страховщика или РСА, вы можете повторить попытку через некоторое время. Можно попробовать просто перезагрузить страницу. Если проблема не устранена, обратитесь в службу поддержки страховой компании.
Если проблема на стороне страхователя – сначала проверьте скорость интернет–соединения, затем качество заполнения вами заявки. Если обнаружены ошибки, система, как правило, не предлагает их исправить, а просто снимает заявление с рассмотрения.
Внимательно читайте порядок оформления полиса страхования на сайте страховщика. Точно следуйте предлагаемой инструкции и проверяйте вводимую информацию.
В случае, когда не оформляется ОСАГО онлайн в одной страховой компании, вы всегда можете обратиться к другому страховщику.
Можно сначала ознакомиться с отзывами пользователей на официальных форумах автомобилистов об оформлении е-ОСАГО на сайтах страховщиков. Затем выбирать компанию, у который не бывает проблем с зависанием сайтов и техническими ошибками.
В каких случаях купить ОСАГО онлайн не получится
Есть несколько причин, когда невозможно оформить ОСАГО онлайн:
- Сведений о прохождении техосмотра нет в базе ЕАИСТО;
- Расхождение в данных клиента в паспорте и водительском удостоверении, например, при смене фамилии;
- У клиента отсутствует банковская карта для оплаты полиса;
- В случае, когда до окончания срока действия предыдущего договора страхования еще более месяца.
Страховая предпримет все меры, чтобы не оформлять полис пользователю, который находится в «черном списке» недобросовестных клиентов. Хотя по закону она не может отказать в заключении договора обязательного страхования.
Как оформить ОСАГО онлайн
На нашем сайте вы сможете оформить ОСАГО онлайн быстро, без отказа, выбрав лучшие условия.
Пошаговая инструкция как купить полис:
- Откройте сайт сравни.ру и перейдите в раздел «Страхование», выберите «ОСАГО»;
- На калькуляторе укажите оформляете вы новый полис или продляете, введите гос. номер транспортного средства;
- Укажите данные о водителях;
- Мы подберем для вас предложения страховых компаний, сравните условия и выберите лучшее;
- Оплатите страховку;
- Получите документ на электронную почту.
Данные полиса сразу попадают в базы РСА и ГИБДД.
Ответы на вопросы
Что делать, если не получается оформить ОСАГО онлайн на сайте страховщика? |
Попробуйте немного подождать или оформить электронный полис в другой страховой компании. |
Куда обращаться, если страховая компания не ответила по заявке на оформление полиса? |
Напишите жалобу в союз автостраховщиков (РСА), можете обращаться в суд или написать заявление в прокуратуру. |
Почему при попытке оформить полис система выдает ошибку: «К сожалению оформление электронного полиса ОСАГО невозможно». |
Это может быть связано с тем, что вы не точно заполнили заявку, ввели не все необходимые сведения или допустили ошибки. |
Подведем итоги
Если у вас не получается оформить е-ОСАГО, в первую очередь убедитесь в правильности введения данных в заявление. Проверьте, все ли необходимые документы вы приложили, качество интернет–соединения, срок истекания действующего полиса, нет ли на сайте объявления о проведении технических работ.
Если все в порядке, перезагрузите сайт и повторите попытку.
Обычно этого достаточно, чтобы система не давала сбой.
В крайнем случае обратитесь в другую компанию.
Новая версия АИС ОСАГО собрала рекордное количество жалоб
В августе Банк России зафиксировал существенный рост жалоб на действия страховых компаний. Одной из главных причин этого стало внедрение новой версии автоматизированной информационной системы (АИС) ОСАГО, сообщил заместитель руководителя службы по защите прав потребителей Банка России Иван Козлов на конференции «Урегулирование убытков в страховании». Это перечеркнуло устойчивую тенденцию к снижению жалоб, которую фиксировал регулятор в течение последних месяцев. «Еще в июле рынок получал от регулятора похвалу, поскольку количество жалоб снижалось. Вместе с тем тенденция, которую мы наблюдаем на конец августа – начало сентября 2020 г., такова, что Банк России фиксирует существенный рост жалоб на страховые организации. Количество жалоб превосходит как показатели первого полугодия 2020 г., так и показатели аналогичного периода прошлого года», – заявил Козлов.
По словам представителя ЦБ, потребители жалуются не на подорожание страховых полисов. Большинство жалоб связано с отсутствием возможности приобретения электронного полиса, навязыванием дополнительных услуг страховщиками и отказами в заключении договора без приобретения дополнительных услуг, а также некорректным определением коэффициента бонус-малус. «То есть, с одной стороны, для страховых компаний создаются все условия, чтобы бизнес развивался и был активен, а с другой – мы видим злоупотребления, которые вызывают очень серьезную озабоченность регулятора», – подчеркнул Козлов.
Одной из главных причин роста жалоб представитель регулятора назвал внедрение Российским союзом автостраховщиков (РСА) с 28 июня новой версии АИС ОСАГО. «Да, действительно, обновленная система включает большое количество полезных новшеств, но появились и существенные сбои в работе, которые влекут рост жалоб потребителей. Все мы понимаем: это большая система, затрагивающая интересы всего рынка, все компании к ней подключаются, возможны сбои. Люди понимают, когда эти сбои длятся неделю: идет подкрутка. Но эти сбои продолжаются до сих пор, поэтому количество жалоб потребителей не снижается», – отметил Козлов. Назвав РСА «лицом рынка», представитель регулятора напомнил о задаче страховых компаний обеспечить слаженную работу АИС ОСАГО. «Банк России будет за этим пристально следить и соответствующим образом реагировать», – пообещал спикер.
В самом РСА уточняют, что количество жалоб регулятору на ОСАГО в августе и сентябре 2020 г. выросло по сравнению с аналогичным прошлогодним периодом с 2000 до 2200. «Вряд ли такой рост можно назвать существенным, – отмечают страховщики. – При этом АИС ОСАГО 2.0 – беспрецедентно масштабный и сложный проект, впервые запущенный на страховом рынке». В РСА уверяют, что, несмотря на то что сразу после запуска новой системы отмечались проблемы с ее отказоустойчивостью, «существенной проблемой для автовладельцев это не стало и к заметному росту жалоб не привело», а все проблемы, отмечавшиеся в работе АИС ОСАГО 2. 0, оперативно решались.
В РСА отметили также, что АИС ОСАГО 2.0 содержит большое количество дополнительных проверок, которые препятствуют некорректному вводу данных при оформлении полисов. «Это привело к резкому росту жалоб в соцсетях со стороны страховых посредников, работавших на момент запуска АИС ОСАГО 2.0 полулегально, когда такая деятельность была запрещена законом, – объясняют в РСА. – В том числе жалобы фиксировались и со стороны недобросовестных посредников, которые предлагали своим клиентам услугу по приобретению дешевого и заведомо недействительного полиса ОСАГО, при оформлении которого указывались заведомо неверные данные с целью снизить стоимость полиса».
Между тем статистика обращений к финансовому уполномоченному в сфере страхования также свидетельствует о том, что жалобы на ОСАГО составляют подавляющее большинство (91%) в общей структуре обращений. «Еще 8% занимают жалобы на иные виды страхования и 1% – на деятельность микрофинансовых организаций», – уточнил финансовый уполномоченный в сфере страхования Виктор Климов.
Для потребителя между тем важна именно скорость оформления покупки, а также простота использования сервисов. «Если раньше ожидания некоего усредненного страхователя в автомоторном страховании сводились к тому, чтобы получить адекватные выплаты, которых бы хватило или почти хватило на ремонт, то сейчас речь идет о скорости и отсутствии каких-то странных и ненужных бюрократических процедур, – говорит координатор движения «Синие ведерки» Петр Шкуматов. – Например, я сам в этом году изменил своему страховщику, с которым был много лет, и ушел в другую страховую, потому что она предложила механизм полностью дистанционного урегулирования убытков, если они возникают, а кроме того, урегулирование убытков в течение часа. Кроме мобильного приложения, для этого ничего не нужно. Я думаю, что рано или поздно страховые компании, которые предлагают моментальное возмещение по стандартным страховым продуктам, будут выигрывать в борьбе за клиента».
РСА запустит механизм перестрахования в «автогражданке» — Российская газета
Сделать полисы ОСАГО доступными для таких высокоубыточных автовладельцев, как собственники такси и автобусы, решил Российский союз автостраховщиков. Это не означает, что полисы для них станут дешевле. Просто убытки будет нести не одна страховая компания, а все, участвующие в рынке ОСАГО. РСА запускает механизм перестрахования в автогражданке.
Сейчас некоторые страховые компании всеми правдами и неправдами стараются не продавать полисы ОСАГО на автобусы и такси. Хотя по закону прямо отказать в таком страховании они не имеют права. Между тем волокитой и всякими уловками, затягивающими заключение договора, страховщики в некоторых регионах ставят под угрозу существование общественного транспорта. Без ОСАГО ни один автобус на линию не выйдет. Но связанно это не с тем, что страховщики такие плохие, а с огромной убыточностью страхования такого транспорта. Причем с каждым годом проблема только усугубляется.
Так, по данным ГИБДД, количество смертей в результате аварий с участием машин такси в России в 2020 году увеличилось на 20% по сравнению с 2019 годом — при том, что количество аварий в целом по стране осталось на прежнем уровне. По данным РСА, частота ДТП с такси составляет 32,19%, тогда как средняя по стране — 5%. Аналогичная проблема наблюдается с автобусами: частота ДТП с ними составляет 11,91%, что более чем в два раза превышает среднюю по РФ. Кроме того, существенно более высокую убыточность и частоту ДТП по сравнению с общероссийской демонстрирует и ряд регионов.
Решать эту проблему необходимо комплексно, считают в РСА. Необходимы более гибкие подходы к тарификации, в том числе за счет расширения «тарифного коридора». А также требуется добиваться снижения аварийности там, где она зашкаливает. Так, аварийность у разных таксопарков отличается в разы. Там, где система допуска и контроля водителей построена хорошо, частота ДТП находится практически на уровне среднероссийской, в районе 5%. Там же, где эта система не построена, аварийность может легко составлять 100%. Аналогичная разница заметна между регионами, власти которых ведут комплексную работу по снижению аварийности на дорогах и теми, где эта работа не входит в число приоритетных.
РСА создает механизм, который позволит сделать ОСАГО доступнее для высокоубыточных категорий транспортных средств. Риски по таким сегментам будут распределяться на все компании пропорционально их доле рынка в рамках перестраховочного пула.
— Это позволит гарантировать потерпевшим в ДТП от автовладельцев, относящихся к категориям высокого риска, получение денежных компенсаций за причинение вреда их имуществу, а также жизни и здоровью. В то же время мы считаем, что такое решение может быть лишь временным: ведь транспорт, который генерирует повышенное количество ДТП, не только является убыточным по ОСАГО для страховщиков, но и более опасным для других участников дорожного движения, — сказал исполнительный директор РСА Евгений Уфимцев.
Но вот прям завтра перестраховочный механизм не заработает. Не все страховые компании, имеющие лицензии на ОСАГО, имеют также лицензию на перестраховочную деятельность. Сейчас идут переговоры с Центробанком, а также готовятся поправки в законодательство, которые позволят всем страховщикам, входящим в РСА, заниматься перестрахованием по ОСАГО.
Таким образом, финансовая нагрузка от убыточных такси и автобусов перераспределится на всех участников рынка. И отказ в продаже полисов потеряет смысл.
Как исправить ошибку при генерации RSA ключа для ЕГАИС?
При генерации RSA ключа (транспортного ключа) в личном кабинете ЕГАИС алкоголь могут возникать ошибки. Разобраться в этих ошибках непросто специалисту, не говоря уже о рядовом пользователе.
Попробуем разобрать типовые ошибки, которые возникают при генерации транспортных RSA ключей ЕГАИС.
Почему возникает ошибка при генерации ключа ЕГАИС?
Ошибка при генерации транспортного ключа для ЕГАИС иногда возникает из-за неполадок на сайте ЕГАИС. Но это происходит крайне редко.
В основном ошибки при генерации связаны с некорректными настройками компьютера.
Общие рекомендации для успешной генерации транспортного RSA ключа ЕГАИС
Для успешной генерации транспортных ключей на сайте ЕГАИС необходимо соблюсти некоторые требования и рекомендации:
- Операционная система должна быть MS Windows и свежее чем XP (подойдет Vista/7/8/8/1/10, серверные ОС тоже поддерживаются, начиная с 2008).
Крайне желательно наличие установленных актуальных обновлений.
- Браузер Internet Explorer версии не ниже, чем 9. Но мы рекомендуем использовать актуальную версию — 11. Установить или обновить можно из этого источника.
- Установлена актуальная версия крипто плагина ФСРАР Крипто (версия не ниже чем 2.00).
- Установлены и настроены драйвера для защищенного носителя для ЕГАИС.
- Во время работы в личном кабинете ЕГАИС и при работе УТМ ЕГАИС должен быть вставлен только один ключик для ЕГАИС.
Для настройки рабочего места для доступа личный кабинет ЕГАИС Вы можете воспользоваться нашей статьей.
Ошибка при генерации RSA ключа «Выберете устройство чтения смарт карт…»
Если при генерации ключа ЕГАИС вместо окна запроса пин-кода Вы увидели окно «Выберете устройство чтения смарт карт» или «Обнаружена смарт-карта, но она не может использоваться для текущей операции…» или «Смарт-карта не может выполнить запрошенную операцию либо операция требует другой смарт-карты», значит нужно скорректировать настройки компьютера.
Такая ошибка возникает из-за того, что настройки вашего компьютера не позволяют сформировать ключи, необходимые для работы УТМ ЕГАИС.
Если Вы используете носитель Рутокен ЭЦП, то вам необходимо сделать следующее:
Откройте Панель управления Рутокен (запускается ярлыком на рабочем столе или через меню Пуск — Программы (или Все программы) — Рутокен — Панель управления Рутокен), перейдите на вкладку «Настройки» и нажмите на кнопку «Настройка» в разделе «Настройки криптопровайдера«. Установите напротив строки Рутокен ЭЦП значение Microsoft Base Smart Card Crypto Provider.
Пробуйте сгенерировать транспортный ключ ЕГАИС еще раз.
Если не получилось — сделайте перенастройку еще раз. Выберете другой криптопровайдер, нажмите ОК, и снова выберете Microsoft Base Smart Card Crypto Provider.
Если опять не получилось — обновите драйвер для Рутокен ЭЦП. Скачать драйвер можно с сайта разработчика. После обновления проверьте настройки криптопровайдера и пробуйте еще раз.
В крайне редких случаях, если генерация ключа не проходит, помогает утилита восстановления работоспособности Рутокен (позволяет правильно определить драйвера носителя в системе).
Все должно получиться!
Если Вы самостоятельно не можете справится с генерацией транспортного ключа ЕГАИС — обратитесь к нашим специалистам. Обычно мы справляемся с этой задачей за 5-15 минут.
Ошибка в методе createCertificateRequest Error: CKR_PNI_INCORRECT
В этой ошибке прямым текстом, правда по иностранному, написано, что неверно введен пин-код.
Проверьте правильность ввода пин-кодов. Если на вашем носителе установлен пин-код по умолчанию. и Вы его не помните, то напоминаем:
- для JaCrata пин RSA — 11111111, пин ГОСТ — 0987654321
- для Рутокен пин RSA — 12345678, пин ГОСТ — 12345678
Если не подходят стандартные пин-коды и пин-код, который установили Вы, то скорее всего носитель заблокировался. Для разблокировки носителя обратитесь к тому, у кого получали ключи, должны помочь.
Если Вы самостоятельно не можете справится с пин-кодом для ключа ЕГАИС — обратитесь к нашим специалистам (достаточно просто написать в чат на сайте). Обычно мы справляемся с этой задачей за 5-15 минут.
Ошибка в методе createCertificateRequest Error: CKR_ATTRIBUTE_TYPE_INVALID
Такая ошибка была нами зафиксирована при использовании ключа JaCarta SE.
Для исправления ошибки необходимо инициализировать раздел PKI на носителе. Для этого откройте Единый клиент JaCarta желательно включить интерфейс Администратора (снизу слева кнопка «Переключиться в режим администрирования»). Перейдите вверху во вкладку PKI и нажмите «Инициализировать». При запросе пин-кода введите пин-код Администратора 00000000, пин-код Пользователя 11111111.
После успешной инициализации попробуйте снова сгенерировать транспортный ключ.
Также не забывайте о том, что для нормальной работы вашего защищенного носителя для ЕГАИС должен быть установлен свежий драйвер ключа!
Если Вы самостоятельно не можете справится с генерацией транспортного ключа ЕГАИС —
обратитесь к нашим специалистам (достаточно просто написать в чат на сайте). Обычно мы справляемся с этой задачей за 5-15 минут.
Решения самых популярных проблем с ЕГАИС Вы можете найти в нашем
Telegram канале «ЕГАИС простыми словами» (@egais_is_easy).
Если помогла статья — можете сказать Спасибо автору:
Личный кабинет РСА – как зарегистрироваться и войти
Увеличение транспортного потока, количества ДТП, а также запрос российского общества на наведение порядка на дорогах, привели к необходимости упорядочить систему автострахования. В этой области возникло много проблем, связанных с появлением фирм – однодневок, которые торгуют бланками документации по обязательной гражданской ответственности водителя.
Проблемы появились не только с подбором страховой компании, но и с выплатами, которые она обязана производить автовладельцам. Также с автосервисами, которые недобросовестно относятся к своим обязанностям. Все эти задачи с 2003 года решает российский союз автостраховщиков –РСА, который вплотную занимается ОСАГО, «Личный кабинет» может создать любой желающий.
Сотрудники объединения помогают с прохождением техосмотра, обеспечивая информационное и юридическое взаимодействие клиентов и фирм. На ресурсе размещается актуальная информация, новости, законодательные изменения, вступившие в силу.
Вопреки устоявшемуся мнению, продажа страховых полисов на сайте не ведется. Интернет платформа может только лишь перенаправить пользователя к страховой, а оформлять документы он будет сам.
При вступлении в силу в 2017 году норм об оформлении документации на автомобиль в электронном виде, ресурс приобрел еще большую популярность. Автовладельцам упростили механизм получения документов, а официальный сайт обеспечивает им всестороннюю поддержку, служит гарантом безопасного приобретения страховки для ТС.
Регистрация в кабинете РСА
РСА предлагает оформить ОСАГО в «Личном кабинете». Для этого нужно пройти стандартную процедуру на портале. Сначала система устроит небольшую проверку, необходимо ввести капчу и согласиться со стандартными условиями договора. Затем ввести регистрационные данные: реквизиты ПТС и адрес проживания, чтобы получить доступ к данным.
Пользователь становится полноправным членом союза страховщиков и может приступить к выбору надежной компании. Фирмы, ссылки на которые размещены на ресурсе, проверены, мошенников сервис не пропускает. Во время процедуры страхования пользователю обеспечивается информационная поддержка, поэтому процесс формирования и покупки полиса проходит гораздо быстрее.
Вход в кабинет РСА
Пройдя единовременную регистрацию, пользователи начинают активно использовать информационное пространство экспертного союза. РСА с «Личным кабинетом», вход в который осуществляется в несколько кликов, несет и другие функции. Здесь можно осуществить проверку достоверности страховки, рассчитать стоимость ее оформления страховки. Найти любой интересующий водителя правовой документ по теме автострахования гражданской ответственности.
Попасть на портал можно при помощи ввода в электронную форму адреса почты, пароля, который был придуман при регистрации, и сведений об автомашине. Далее нажимают кнопку «Войти».
Как восстановить пароль
Нередко возникает ситуация на ресурсе РСА, когда регистрация «Личного кабинета» для ОСАГО прошла успешно, а пароль для входа забыт или утерян. Для его восстановления предлагается удобный механизм, на странице автостраховщика предусмотрено электронное поле для восстановления данных онлайн.
В эту форму вводят адрес почтового ящика, сведения о транспортном средстве. Сведения передаются в аналитический центр, оттуда сразу же приходит ссылка, пройдя по ней, можно сменить пароль. Данные рекомендуется записать, чтобы не повторять в дальнейшем процедуру их восстановления.
Вход через Госуслуги
Портал РСА с «Личным кабинетом» для оформления е-ОСАГО – не единственный вариант приобретения страховой документации. «Госуслуги» также предоставляют возможность выбрать надежную страховую и купить страховку.
Механизм предоставления услуги также прост. Посетитель регистрируется или авторизуется на «Госуслугах», затем заходит во вкладку «Транспорт» и дальше в «Электронное страхование». Здесь перед ним появится список страховщиков, из которых он может выбрать компанию. Обычно выбор автовладельца основан на хороших отзывах и выгодных тарифах.
В расчет принимаются различные коэффициенты, к примеру, КБМ коэффициент бонус-малус для расчета размера премии, которую страхователь платит компании. Этот коэффициент, а также другие показатели, можно рассчитать при помощи онлайн калькулятора на портале союза или страховой.
Сервис Е-гарант
Известно, что виртуальное пространство не всегда бывает стабильным. Нередки случаи, когда автовладелец желает купить полис, но не может осуществить это действие по ряду причин. Чаще всего возникают неполадки с серверами страховых, из-за временных технических работ ресурсы оказываются недоступны. Часто бывает, что страховые считают клиента убыточным и отказывают ему в услуге. К таким клиентам относят молодых водителей, которые ездят иногда неаккуратно, часто попадая в дорожные происшествия. Однако законодательство обязывает страховые объединения оформлять страховку всем без исключения.
Для таких случаев и разработана система Е-гарант. Если сайт страховой недоступен или фирма отказала клиенту, электронный инструмент предлагает ему несколько других вариантов. Таким образом без потери времени удается получить услугу на другом сайте.
Сервисы без регистрации
Почти за 20 лет своего существования сервис предлагает населению множество дополнительных услуг, которые можно получить без регистрации:
- справочная информация о нововведениях в сфере автострахования, новости, аналитические материалы по теме;
- статистика, касающаяся показателей средних выплат по ОСАГО, комментарии представителей автостраховщиков и финансовых объединений, в том числе Центрального Банка;
- адреса пунктов техобслуживания и автомастерских с отзывами клиентов и общим рейтингом;
- нововведения по «Зеленой карте»: международному полису.
Кроме этого, водителям предоставляется возможность узнать полную информацию по полису. Проверить его легальность, рассчитать сумму по договору, рассчитать коэффициенты.
Заключение
По замыслу властей и желанию владельцев ТС сферу гражданского страхования удается постепенно упорядочивать, исключив незаконные схемы и обман участников дорожного движения. Простой вход в «Личный кабинет» РСА для оформления е-ОСАГО и совершения других действия способен обезопасить водителя от негативных факторов, которые связаны с процессом автострахования в России.
Эксперты настоятельно советуют использовать электронный сервис РСА для решения всех вопросов, связанных со страховкой автомашины. Сервис создан специально для решения подобного рода задач и за последние годы получил развитие, доказав свою эффективность.
Доля е-ОСАГО достигла 50% | Новости
Доля е-ОСАГО достигла 50%
По итогам 2020 года в России было продано 17,8 миллиона полисов электронного ОСАГО, что соответствует уровню предыдущего года. При этом доля е-ОСАГО составила около 50% от общего объема реализации «автогражданки», следует из данных Российского союза автостраховщиков (РСА).
В топ-15 регионов по продажам полисов е-ОСАГО вошли Москва (1,6 млн полисов; 9,1% от всех продаж е-ОСАГО в России), Московская область (950 тысяч; 5,3%), Свердловская область (721 тысяча; 4,1%), Санкт-Петербург (520 тысяч; 2,9%), Самарская область (510 тысяч; 2,9%), Новосибирская область (486 тысяч; 2,7%), Краснодарский край (481 тысяча; 2,7%), Воронежская область (466 тысяч; 2,6%), Красноярский край (421 тысяча; 2,4%), Кемеровская область (414 тысяч; 2,3%), Приморский край (412 тысяч; 2,3%), Татарстан (346 тысяч; 1,9%), Дагестан (338 тысяч; 1,9%), а также Иркутская (329 тысяч; 1,9%) и Белгородская области (326 тысяч; 1,8%).
«Год, ознаменовавшийся пандемией и ограничениями на свободное перемещение людей, показал, что е-ОСАГО – удобный и востребованный автовладельцами продукт. Неслучайно мы видим среди регионов-лидеров по продажам ОСАГО и те, в которых ситуация с коронавирусом стала особенно острой. Важно, что развитие электронных продаж ОСАГО позволило кому-то лишний раз не подвергать риску свое здоровье и здоровье своих близких. Отмечу также, что при большом количестве продаваемых полисов е-ОСАГО число жалоб на проблемы с их покупкой минимально. Сейчас мы выходим на следующий уровень – в следующем году планируется переход на онлайн урегулирование убытков. Мы видим, что запрос на различные онлайн-сервисы растет: например, благодаря приложению “ДТП. Европротокол”, в начале 2020 года у нас была 1 тысяча электронных фотофиксаций ДТП в месяц, а в конце 2020 года – уже 3,5 тысячи», – отметил президент РСА Игорь Юргенс.
Возникают проблемы по запуску интегрированных систем РСА и ГИБДД по проверке полисов ОСАГО
По поручению правительства РФ Российский союз автостраховщиков (РСА) и ГИБДД пытаются ускорить и наладить процесс запуска системы базы данных страховщиков для проверки полисов ОСАГО с помощью камер наблюдения. Информационная база АИС ОСАГО сейчас проходит проверку и исправляются ошибки по её некорректной работе.
Эксперимент по проверке ОСАГО планируется запустить пока только в Москве. В конце 2018 года вопрос поднимался на заседании правительственной комиссии по БДД, вице-премьер Максим Акимов дал Министерству Внутренних Дел и Российскому Союзу Автостраховщиков поручение разобраться с этой проблемой. В столице каждый комплекс фотофиксации регистрирует до 40 тыс. проездов машин в сутки, если делать столько же запросов в базу данных АИС ОСАГО и ГИБДД, системы не справятся с таким количеством запросов. Придумали многоступенчатую схему: РСА передает ГИБДД список действующих полисов, ГИБДД ”прикрепляет” их к номерам машин и передает далее сформированный реестр в столичный ЦОДД (центр организации дорожного движения), затем готовится постановление об административном правонарушении, в итоге «письмо счастья».
Но есть проблемы по данным полисов в самой базе, например, когда в страховом полисе не указан государственный номер автомашины. Все мы знаем, что полис выдается до регистрации авто в ГИБДД, соответственно номеров еще нет. Потом конечно, собственник должен обратиться в страховую компанию, что бы номер внесли в документ. Однако, не предусмотрено никакого наказания за неисполнение этой нормы. .
Стоит отметить, что у РСА уже есть специальный сервис, через который ГИБДД может перепроверить нужную информацию.
Но пока ни ЦОДД ни ГИБДД не начали активные действиям по внедрению баз данных. Напомним, согласно поручению вице-премьера Максима Акимова, объединить сервисы нужно было еще до 1 февраля текущего года, но поручение не выполнено.
Источник: Коммерсантъ
Риски и меры предосторожности при применении PCA для задач контролируемого обучения | Сурадип Чакраборти
Соавторы: Амлан Джиоти Дас, Сай Ясвант
СсылкаПространство высоких измерений и его проклятие
Проклятие размерности — очень важная проблема при работе с реальными наборами данных, которые, как правило, многомерны. данные. По мере увеличения размерности пространства признаков количество конфигураций может расти экспоненциально, и, таким образом, количество конфигураций, охватываемых наблюдением, уменьшается.
В таком сценарии анализ главных компонентов играет важную роль в эффективном уменьшении размерности данных, сохраняя при этом как можно больше вариаций, присутствующих в наборе данных.
Давайте дадим очень краткое введение в анализ главных компонентов, прежде чем углубляться в реальную проблему.
Определение основных компонентов
Основная идея P rincipal Component Analysis (PCA) состоит в том, чтобы уменьшить размерность набора данных, состоящего из большого количества коррелированных переменных, при сохранении максимально возможных вариаций, присутствующих в набор данных.
Давайте определим симметричную матрицу A,
, где X — это матрица независимых переменных размера m × n, где m — количество столбцов, а n — количество точек данных. Матрица A может быть разложена в виде
, где D — диагональная матрица, а E — матрица собственных векторов A, расположенных в виде столбцов.
Главные компоненты (PC) X являются собственными векторами XX ᵀ , что указывает на тот факт, что направление собственных векторов / главных компонентов зависит от вариации независимой переменной (X).
Почему применение PCA вслепую — это проклятие в контролируемых задачах ????
Использование анализа главных компонент в регрессии привлекло много внимания в литературе и широко использовалось как метод обработки мультиколлинеарности.
Но наряду с использованием регрессии главных компонентов было много неправильных представлений относительно объяснимости переменной ответа главными компонентами и их соответствующего порядка важности.
Распространенное заблуждение, которое было сделано несколько раз даже в различных статьях и книгах, что в рамках контролируемой регрессии главных компонентов главные компоненты независимой переменной, имеющие низкие собственные значения, не будут играть никакой роли в объяснении переменной отклика, которая приводит нас к Сама цель этого блога — продемонстрировать, что компоненты с низкими собственными значениями могут быть такими же важными или даже намного более важными, чем основные компоненты с большими собственными значениями, при объяснении переменной отклика.
Ниже перечислены некоторые из таких примеров, указанных в
[1]. Mansfield et al. (1977, стр. 38) предполагают, что если исключены только компоненты с небольшой дисперсией, то в регрессии будет очень небольшая потеря предсказуемости.
[2]. В книге Gunst and Mason (1980) 12 страниц посвящены регрессии главных компонентов, и большая часть обсуждения предполагает, что удаление главных компонентов основано исключительно на их дисперсии.(стр.327–328).
[3]. Мостеллер и Тьюки (1977, стр. 397–398) аналогичным образом утверждают, что компоненты с малой дисперсией вряд ли будут важны в регрессии, по-видимому, на том основании, что природа «хитрая», но не «откровенно скупая».
[4]. Hocking (1976, стр. 31) еще более твердо определяет правило сохранения главных компонентов в регрессии, основанной на дисперсии.
Теоретическое объяснение и понимание
Во-первых, позвольте нам дать вам правильное математическое обоснование вышеприведенной гипотезы, а затем мы сможем объяснить интуицию, используя геометрическую визуализацию и моделирование.
Допустим,
Y — Переменная ответа
X — Матрица проекта — Матрица пространства признаков
Z — Стандартизированная версия X
Пусть 𝜆₁≥𝜆₂>…. ≥ 𝜆p — собственные значения Z ᵀ Z (корреляционная матрица), а V — соответствующие собственные векторы, тогда в W = ZV столбцы в W будут представлять главные компоненты Z. Стандартный метод, который выполняется в основном Компонентная регрессия предназначена для регрессии первых m ПК на Y, и проблема может быть видна через приведенную ниже теорему и ее объяснение [2].
Теорема:
Пусть W = (W₁,…, Wp) будет PC X. Теперь рассмотрим модель регрессии
Если истинный вектор коэффициентов регрессии 𝛽 находится в направлении j ᵗʰ собственный вектор Z ᵀ Z, тогда, когда Y регрессирует на W, только j ᵗʰ PC Wⱼ будет вносить все в соответствие, в то время как остальные ПК не будут вносить никакого вклада.
Доказательство: Пусть V = (V₁,…, Vp) — матрица, содержащая собственные векторы Z ᵀ Z.Тогда
Если 𝛽 находится в направлении j ᵗʰ собственного вектора Vⱼ, то Vⱼ = a𝛽 , где a — ненулевой скаляр. Следовательно, 𝜃j = Vⱼᵀ𝛽 = a𝛽ᵀ𝛽 и 𝜃ᴋ = Vᴋᵀ𝛽 = 0 , если k ≠ j . Следовательно, коэффициент регрессии , соответствующий Wᴋ , равен нулю, для k ≠ j, , следовательно,
Потому что переменная Wᴋ не приводит к уменьшению суммы квадратов, если ее коэффициент регрессии равен ноль, тогда только Wj внесет все необходимое, в то время как остальные ПК ничего не внесут.
Геометрическая значимость и моделирование
Давайте теперь проведем моделирование и получим геометрическое понимание математической интуиции. Объяснение было проиллюстрировано с использованием моделирования для двумерного пространства признаков (X) и одной переменной отклика, так что гипотезу легко понять визуально.
На первом этапе моделирования пространство конструктивных особенностей моделировалось из многомерного нормального распределения с очень высокой корреляцией между переменными и реализован PCA.
Рисунок 2: Тепловая карта корреляции для ПК1 и ПК2Из графика очень ясно, что нет абсолютно никакой корреляции между ПК. Второй шаг — смоделировать значения переменной отклика y таким образом, чтобы направление коэффициента Y на ПК было в направлении второго главного компонента.
После моделирования переменной отклика корреляционная матрица выглядит примерно так.
Рисунок 3: Тепловая карта корреляции для моделируемой переменной Y и PC1 и PC2Из графика очень ясно, что существует высокая корреляция между y и PC2, а не PC1, что демонстрирует нашу гипотезу.
Рисунок 4: Дисперсия в пространстве признаков, объясненная ПК1 и ПК2 Поскольку на рисунке указано, что ПК1 объясняет 95% дисперсии в X, поэтому, если мы будем следовать приведенной выше логике, мы должны полностью игнорировать ПК2 при выполнении регрессии.
Давайте проследим за этим и посмотрим, что произойдет !!!
Рисунок 5: Сводка регрессии с Y и PC1Таким образом, R², равный 0, указывает на то, что даже несмотря на то, что PC1 объясняет 95% вариации X, все же не может объяснить переменную ответа.
Теперь давайте попробуем то же самое с PC2, который объясняет только 5% вариации X, и посмотрим, что произойдет !!!!
Рисунок 6: Сводная таблица регрессии с Y и PC2Whooo !!!! Вы, должно быть, думаете, что только что произошло. Главный компонент, который объясняет около 5% дисперсии X, объяснил 72% дисперсии Y.
Есть несколько реальных сценариев для проверки гипотезы, как указано в
[1] . Смит и Кэмпбелл (1980) привели пример из химической инженерии, где было девять регрессионных переменных и когда изменчивость восьмого главного компонента составляет 0,06% от общей вариации, которая была бы удалена на основе критерия низкой вариации.
[2] . Второй пример предоставлен Кунг и Шариф (1980) .В исследовании прогноза даты начала муссонов на основе десяти метеорологических переменных значимые основные компоненты были восьмым, вторым и десятым в этом порядке. Он показывает, что даже главный компонент с наименьшим собственным значением является третьим по значимости с точки зрения объяснения изменчивости переменной отклика.
Заключение : Приведенные выше примеры показывают, что не рекомендуется удалять основные компоненты с низкими собственными значениями, поскольку это указывает только на объяснимость в пространстве признаков, а не в переменной ответа.Следовательно, мы должны сохранить все компоненты и проводить контролируемое обучение, иначе мы должны использовать методы уменьшения контролируемой размерности, такие как частичная регрессия наименьших квадратов, наименьшая угловая регрессия , которые мы будем объяснять в следующих блогах.
Ссылки:
[1] Джоллифф, Ян Т. «Примечание об использовании основных компонентов в регрессии». Журнал Королевского статистического общества. Серия C (Прикладная статистика), т. 31, вып. 3, 1982, с. 300–303. JSTOR, www.jstor.org/stable/2348005.
[2] Хади, Али С. и Роберт Ф. Линг. «Некоторые предостережения по использованию регрессии основных компонентов». Американский статистик, т. 52, нет. 1. 1998. С. 15–19. JSTOR, www.jstor.org/stable/2685559.
[3] ХОКИНС, Д. М. (1973). Об исследовании альтернативных регрессий методом главных компонент. Прил. Statist., 22, 275–286
[4] МАНСФИЛД, Э. Р., УЕБСТЕР, Дж. Т. и ГАНСТ, Р. Ф. (1977). Метод аналитического выбора переменных для регрессии главных компонент.Прил. Статист., 26, 34–40.
[5] МОСТЕЛЛЕР Ф. и ТЮКИ Дж. У. (1977). Анализ данных и регрессия: второй курс статистики. Ридинг, Массачусетс: Addison-Wesley
[6] ГАНСТ Р. Ф. и МЕЙСОН Р. Л. (1980). Регрессионный анализ и его применение: подход, ориентированный на данные. Нью-Йорк: Марсель Деккер.
[7] ДЖЕФФЕРС, Дж. Н. Р. (1967). Два тематических исследования по применению анализа главных компонентов. Прил. Statist., 16, 225 — 236. (1981). Исследование альтернативных регрессий: некоторые практические примеры.Статистик, 30, 79–88.
[8] КЕНДАЛЛ М.Г. (1957). Курс многомерного анализа. Лондон: Гриффин.
Если у вас есть какие-либо мысли, комментарии или вопросы, оставьте комментарий ниже или свяжитесь с нами в LinkedIn
Следите за обновлениями. Приятного чтения !!! 🙂
Пошаговое объяснение анализа главных компонентов (PCA)
Цель этого поста — предоставить полное и упрощенное объяснение анализа главных компонентов (PCA). Мы расскажем, как это работает, шаг за шагом, чтобы каждый мог понять и использовать это, даже те, у кого нет сильной математической подготовки.
PCA — метод, широко освещаемый в сети, и о нем есть несколько отличных статей, но многие тратят слишком много времени на изучение этой темы, тогда как большинство из нас просто хотят знать, как он работает в упрощенном виде.
Анализ главных компонентов можно разбить на пять этапов. Я пройду через каждый шаг, давая логические объяснения того, что делает PCA, и упрощая математические концепции, такие как стандартизация, ковариация, собственные векторы и собственные значения, не уделяя внимания тому, как их вычислять.
Как сделать PCA?
- Стандартизировать диапазон непрерывных исходных переменных
- Вычислить ковариационную матрицу для определения корреляций
- Вычислить собственные векторы и собственные значения ковариационной матрицы для определения главных компонентов
- Создайте вектор признаков, чтобы решить, какие главные компоненты оставить
- Пересчитайте данные по осям главных компонентов
Во-первых, для контекста необходима некоторая базовая (и краткая) предыстория.
Наем сейчасПросмотреть все вакансии в области Data Science
Что такое анализ основных компонентов?
Анализ главных компонентов или PCA — это метод уменьшения размерности, который часто используется для уменьшения размерности больших наборов данных путем преобразования большого набора переменных в меньший, который по-прежнему содержит большую часть информации в большом наборе.
Уменьшение числа переменных в наборе данных, естественно, происходит за счет точности, но хитрость в уменьшении размерности состоит в том, чтобы жертвовать небольшой точностью ради простоты.Поскольку меньшие наборы данных легче исследовать и визуализировать, а анализ данных становится намного проще и быстрее для алгоритмов машинного обучения без обработки посторонних переменных.
Подводя итог, можно сказать, что идея PCA проста — уменьшить количество переменных в наборе данных, сохранив при этом как можно больше информации.
Пошаговое объяснение PCA
Шаг 1. Стандартизация
Цель этого шага — стандартизировать диапазон непрерывных исходных переменных, чтобы каждая из них в равной степени способствовала анализу.
Более конкретно, причина того, почему так важно выполнить стандартизацию перед PCA, заключается в том, что последний очень чувствителен к дисперсиям исходных переменных. То есть, если есть большие различия между диапазонами исходных переменных, те переменные с большими диапазонами будут преобладать над переменными с небольшими диапазонами (например, переменная, которая находится в диапазоне от 0 до 100, будет преобладать над переменной, которая находится в диапазоне от 0 до 1. ), что приведет к необъективным результатам.Таким образом, преобразование данных в сопоставимые масштабы может предотвратить эту проблему.
Математически это можно сделать путем вычитания среднего и деления на стандартное отклонение для каждого значения каждой переменной.
После завершения стандартизации все переменные будут преобразованы в один и тот же масштаб.
Шаг 2: Расчет ковариационной матрицы
Цель этого шага — понять, как переменные набора входных данных отличаются от среднего по отношению друг к другу, или, другими словами, увидеть, есть ли между ними какая-либо связь.Потому что иногда переменные сильно коррелированы и содержат избыточную информацию. Итак, чтобы идентифицировать эти корреляции, мы вычисляем ковариационную матрицу.
Ковариационная матрица — это симметричная матрица p × p (где p — количество измерений), в которой в качестве записей указаны ковариации, связанные со всеми возможными парами исходных переменных. Например, для 3-мерного набора данных с 3 переменными x , y и z ковариационная матрица представляет собой матрицу 3×3 из:
Поскольку ковариация переменной с самой собой — это ее дисперсия (Cov (a, a) = Var (a)), на главной диагонали (сверху слева направо снизу) мы фактически имеем дисперсии каждая исходная переменная.А поскольку ковариация коммутативна (Cov (a, b) = Cov (b, a)), элементы ковариационной матрицы симметричны относительно главной диагонали, что означает, что верхняя и нижняя треугольные части равны.
Что ковариации, которые мы имеем в качестве элементов матрицы, говорят нам о корреляциях между переменными?
На самом деле имеет значение знак ковариации:
- если положительный, то две переменные увеличиваются или уменьшаются вместе (коррелировано)
- , если отрицательный, то: один увеличивается, когда другой уменьшается (обратно коррелирован)
Теперь, когда мы знаем, что ковариационная матрица — это не более чем таблица, которая суммирует корреляции между всеми возможными парами переменных, давайте перейдем к следующему шагу.
Шаг 3. Вычислить собственные векторы и собственные значения ковариационной матрицы для определения главных компонентов
Собственные векторы и собственные значения — это концепции линейной алгебры, которые нам необходимо вычислить из ковариационной матрицы, чтобы определить главных компонентов данных. Прежде чем перейти к объяснению этих концепций, давайте сначала поймем, что мы подразумеваем под основными компонентами.
Основные компоненты — это новые переменные, которые построены как линейные комбинации или смеси исходных переменных.Эти комбинации выполняются таким образом, чтобы новые переменные (то есть главные компоненты) не коррелировали, и большая часть информации в исходных переменных сжималась или сжималась в первых компонентах. Итак, идея состоит в том, что 10-мерные данные дают вам 10 основных компонентов, но PCA пытается поместить максимум возможной информации в первый компонент, затем максимум оставшейся информации во второй и так далее, пока не появится что-то вроде того, что показано на графике осыпи ниже.
. Такая организация информации в основных компонентах позволит вам уменьшить размерность без потери большого количества информации, и это за счет отбрасывания компонентов с низкой информацией и рассмотрения оставшихся компонентов как ваших новых переменных.
Здесь важно понимать, что главные компоненты менее интерпретируемы и не имеют никакого реального значения, поскольку они построены как линейные комбинации исходных переменных.
С геометрической точки зрения, главные компоненты представляют направления данных, которые объясняют максимальную величину отклонения , то есть линии, которые захватывают большую часть информации данных. Связь между дисперсией и информацией здесь заключается в том, что чем больше дисперсия, переносимая линией, тем больше дисперсия точек данных вдоль нее, и чем больше дисперсия вдоль линии, тем больше информации она содержит.Проще говоря, просто думайте о главных компонентах как о новых осях, которые обеспечивают лучший угол для просмотра и оценки данных, чтобы различия между наблюдениями были лучше видны.
Наем сейчас Просмотреть все вакансии в области удаленного анализа данных
Как PCA конструирует основные компонентыПоскольку количество главных компонентов равно количеству переменных в данных, главные компоненты строятся таким образом, что первый главный компонент учитывает наибольшую возможную дисперсию в наборе данных.Например, предположим, что диаграмма рассеяния нашего набора данных выглядит так, как показано ниже. Можем ли мы угадать первый главный компонент? Да, это примерно линия, которая соответствует фиолетовым отметкам, потому что она проходит через начало координат, и это линия, на которой проекции точек (красные точки) наиболее распространены. Или, говоря математически, это линия, которая максимизирует дисперсию (среднее квадратов расстояний от проецируемых точек (красные точки) до начала координат).
Второй главный компонент рассчитывается таким же образом с условием, что он не коррелирован с (т. е., перпендикулярно первому главному компоненту и что он составляет следующую по величине дисперсию.
Это продолжается до тех пор, пока не будет вычислено общее количество p главных компонентов, равное исходному количеству переменных.
Теперь, когда мы поняли, что мы подразумеваем под главными компонентами, давайте вернемся к собственным векторам и собственным значениям. В первую очередь вам нужно знать о них, так это то, что они всегда входят парами, так что каждый собственный вектор имеет собственное значение. И их количество равно количеству измерений данных.Например, для трехмерного набора данных есть 3 переменных, следовательно, есть 3 собственных вектора с 3 соответствующими собственными значениями.
Без лишних слов, за всей магией, описанной выше, стоят собственные векторы и собственные значения, потому что собственные векторы матрицы ковариации на самом деле направления осей, где наибольшая дисперсия (большая часть информации ) и то, что мы называем основными компонентами. А собственные значения — это просто коэффициенты, прикрепленные к собственным векторам, которые дают величину отклонения , содержащуюся в каждом основном компоненте .
Ранжируя собственные векторы в порядке их собственных значений, от наибольшего к наименьшему, вы получаете главные компоненты в порядке значимости.
Пример:
Предположим, что наш набор данных двумерен с 2 переменными x, y , а собственные векторы и собственные значения ковариационной матрицы следующие:
Если мы ранжируем собственные значения в порядке убывания, мы получим λ1> λ2, что означает, что собственный вектор, который соответствует первому главному компоненту (PC1), равен v1 , а тот, который соответствует второму компоненту (PC2), равен v2. .
После определения главных компонентов для вычисления процента дисперсии (информации), приходящейся на каждый компонент, мы делим собственное значение каждого компонента на сумму собственных значений. Если мы применим это к приведенному выше примеру, мы обнаружим, что ПК1 и ПК2 несут соответственно 96% и 4% дисперсии данных.
Шаг 4. Вектор признаков
Как мы видели на предыдущем шаге, вычисление собственных векторов и их упорядочение по их собственным значениям в порядке убывания позволяет нам найти главные компоненты в порядке значимости.На этом этапе мы выбираем, оставить ли все эти компоненты или отбросить те, которые имеют меньшее значение (с низкими собственными значениями), и сформировать с оставшимися матрицу векторов, которую мы называем вектором признаков .
Итак, вектор признаков — это просто матрица, в столбцах которой есть собственные векторы компонентов, которые мы решили оставить. Это делает его первым шагом к уменьшению размерности, потому что, если мы решим оставить только p собственных векторов (компонентов) из n , окончательный набор данных будет иметь только p измерений.
Пример :
Продолжая пример из предыдущего шага, мы можем сформировать вектор признаков с обоими собственными векторами v 1 и v 2:
Или отбросьте собственный вектор v 2, который имеет меньшее значение, и сформируйте вектор признаков только с v 1:
Отказ от собственного вектора v2 уменьшит размерность на 1 и, следовательно, вызовет потерю информации в окончательном наборе данных.Но учитывая, что v 2 несло только 4% информации, потеря, следовательно, не будет существенной, и мы все равно будем иметь 96% информации, которая переносится v 1.
Итак, как мы видели в примере, вам решать, сохранять ли все компоненты или отбрасывать менее важные, в зависимости от того, что вы ищете. Потому что, если вы просто хотите описать свои данные в терминах новых переменных (основных компонентов), которые не коррелированы, не стремясь уменьшить размерность, не нужно исключать менее значимые компоненты.
Последний шаг: повторное преобразование данных по осям основных компонентов
На предыдущих шагах, помимо стандартизации, вы не вносили никаких изменений в данные, вы просто выбираете главные компоненты и формируете вектор признаков, но набор входных данных всегда остается в терминах исходных осей (т. Е. В терминах исходных переменных).
На этом этапе, который является последним, цель состоит в том, чтобы использовать вектор признаков, сформированный с использованием собственных векторов ковариационной матрицы, для переориентации данных с исходных осей на оси, представленные главными компонентами (отсюда и название Основные компоненты Анализ).Это можно сделать, умножив транспонирование исходного набора данных на транспонирование вектора признаков.
* * *
Закария Джаади (Zakaria Jaadi) — специалист по анализу данных и инженер по машинному обучению. Ознакомьтесь с другими его материалами по темам Data Science на Medium.
Ссылки :
- [Стивен М.
Холланд, Univ. Грузии]: Анализ основных компонентов
- [skymind.ai]: собственные векторы, собственные значения, PCA, ковариация и энтропия
- [Линдси И.Смит]: Учебное пособие по анализу главных компонентов
СвязанныеПодробнее о Data Science
Каковы плюсы и минусы PCA?
Каковы плюсы и минусы СПС?
Преимущества анализа главных компонентов1. Удаляет коррелированные признаки:
В реальном сценарии очень часто в наборе данных вы получаете тысячи функций. Вы не можете запустить свой алгоритм для всех функций, так как это снизит производительность вашего алгоритма, и будет нелегко визуализировать эти многие функции на любом виде графика.Таким образом, вы ДОЛЖНЫ уменьшить количество функций в вашем наборе данных.
Вам необходимо выяснить корреляцию между функциями (коррелированными переменными). Найти корреляцию вручную в тысячах функций практически невозможно, утомительно и отнимает много времени. PCA сделает это за вас эффективно.
После реализации PCA в наборе данных все основные компоненты не зависят друг от друга. Между ними нет корреляции.
2. Повышает производительность алгоритма:
При таком большом количестве функций производительность вашего алгоритма резко ухудшится.PCA — очень распространенный способ ускорить алгоритм машинного обучения за счет избавления от коррелированных переменных, которые не влияют на принятие каких-либо решений. Время обучения алгоритмов значительно сокращается с меньшим количеством функций.
Итак, если входные размеры слишком велики, то использование PCA для ускорения алгоритма является разумным выбором.
3. Уменьшает переобучение:
Переобучение обычно происходит, когда в наборе данных слишком много переменных.Таким образом, PCA помогает преодолеть проблему переобучения за счет уменьшения количества функций.
4. Улучшает визуализацию:
Очень сложно визуализировать и понять данные в больших измерениях. PCA преобразует данные большой размерности в данные низкой размерности (2 измерения), чтобы их можно было легко визуализировать.
Мы можем использовать 2D-график, чтобы увидеть, какие основные компоненты приводят к высокой дисперсии и имеют большее влияние по сравнению с другими основными компонентами.
Даже простейший набор данных IRIS является четырехмерным, что трудно визуализировать. Мы можем использовать PCA, чтобы уменьшить его до двухмерного изображения для лучшей визуализации.
Недостатки анализа главных компонентов1. Независимые переменные становятся менее интерпретируемыми:
После реализации PCA в наборе данных ваши исходные функции превратятся в основные компоненты. Основные компоненты — это линейная комбинация ваших исходных характеристик. Основные компоненты не так удобочитаемы и интерпретируемы, как оригинальные функции.
2. Перед PCA необходима стандартизация данных:
Вы должны стандартизировать свои данные перед внедрением PCA, иначе PCA не сможет найти оптимальные основные компоненты.
Например, если набор функций содержит данные, выраженные в килограммах, световых годах или миллионах, масштаб дисперсии в обучающем наборе огромен. Если PCA применяется к такому набору функций, результирующие нагрузки для функций с высокой дисперсией также будут большими. Следовательно, основные компоненты будут смещены в сторону характеристик с высокой дисперсией, что приведет к ложным результатам.
Кроме того, для стандартизации все категориальные признаки необходимо преобразовать в числовые, прежде чем можно будет применить PCA.
PCA зависит от масштаба, поэтому вам необходимо масштабировать функции в ваших данных перед применением PCA. Используйте StandardScaler от Scikit Learn для стандартизации функций набора данных в единичном масштабе (среднее значение = 0 и стандартное отклонение = 1), что является требованием для оптимальной производительности многих алгоритмов машинного обучения.
3. Потеря информации:
Хотя основные компоненты пытаются покрыть максимальное расхождение между функциями в наборе данных, если мы не выберем количество основных компонентов с осторожностью, он может упустить некоторую информацию по сравнению с исходным. список возможностей.
Все, что вы знали и не знали о PCA · Его нейронные
27 марта 2016 г.Содержание
Введение
Многие ученые знакомы с организацией и обработкой данных в 2D-таблицах. Например, мы можем записать уровень экспрессии мРНК $ p $ генов в $ n $ образцах тканей. Мы могли бы хранить эти данные в матрице $ n \ times p $, где каждая строка соответствует выборке, а каждый столбец соответствует гену. Анализ основных компонентов (PCA) — это стандартный способ уменьшить размерность $ p $ (которая может быть довольно большой) до чего-то более управляемого.
Хотя биологи довольно часто применяют PCA к своим данным, они реже понимают механику и предположения, подразумеваемые в этом анализе. Открытие черного ящика для статистической техники само по себе стоит того, но настоящая причина, по которой я мотивирован написать это, — это количество действительно крутых и суперполезных расширений / вариантов PCA (например, неотрицательная матричная факторизация, Sparse PCA, Tensor Decompositions), который будет иметь все большее влияние на современную нейробиологию и биологию. Я хочу рассказать о методах этого аромата в следующих нескольких публикациях.
Если вы совершенно не знакомы с PCA, в Интернете есть несколько замечательных объяснений, на которые вы должны ссылаться одновременно с чтением этого сообщения. Хотя эти материалы довольно хороши, многие из них не объясняют PCA таким образом, который, естественно, поддается более сложным (но интересным и полезным!) Расширениям.
Я стремился быть максимально педагогическим в этом посте, но вам нужно будет немного познакомиться с линейной алгеброй, чтобы продолжить.Вам не нужно знать, что такое собственное значение (хотя это поможет вам глубже понять определенные результаты), но необходимы базовые матричные операции. Кроме того, научитесь, что такое собственное значение, это хорошо для вас.
Если вы думаете, что уже являетесь специалистом по PCA и не заботитесь о фоновых материалах, вы можете пропустить некоторые вещи, которые вы, возможно, не знали о PCA, или просто прочтите tl; dr.
Обозначение
- Заглавные буквы жирным шрифтом = матрицы (например, $ \ mathbf {X} $)
- Полужирные строчные буквы = векторы-столбцы (например,T $)
- Индексы = позиция элемента (например, $ x_ {ij} $ — это скаляр в строке $ i $ столбец $ j $ матрицы $ \ mathbf {X} $)
На всем протяжении мы предполагаем, что у нас есть матрица данных $ \ mathbf {X} $ с размерностями $ I \ times J $, где $ I $ — количество наблюдений, а $ J $ — количество функций, которые измерены и связаны с каждым наблюдением. Например, мы могли бы записать $ I $ нейронов и оценить их частоту срабатывания в $ J $ временных точках; или мы можем измерить экспрессию генов $ J $ в клетках $ I $.
Мы индексируем в $ \ mathbf {X} $, используя переменную индекса в нижнем регистре, то есть $ x_ {ij} $, где $ i $ и $ j $ соответственно находятся в диапазоне от $ 1 $ до $ I $ и от $ 1 $ до $ J $.
Все, что вы знали (или делаете сейчас)
PCA пытается найти «компоненты», улавливающие максимальную дисперсию данных. Для трехмерных данных это базовое изображение, с которым вы могли столкнуться:
Классический вид PCA. Каждая синяя точка соответствует наблюдению (строка $ \ mathbf {X} $).Есть $ n = 20 $ наблюдений, каждое с $ p = 3 $ характеристиками. На этой схеме PCX уменьшает размерность с трех до $ r = 2 $. В частности, он находит пару ортогональных векторов (красные стрелки), которые определяют пространство меньшей размерности (серая плоскость), которое захватывает как можно больше отклонений от исходного набора данных. |
Теперь давайте выразим эту картину математически. Предположим, что из каждого столбца $ \ mathbf {X} $ было вычтено среднее, так что точки данных центрированы вокруг начала координат.T \ mathbf {X} $ (ковариационная матрица с размерностями $ p \ times p $) и установите $ \ mathbf {c} $ на собственный вектор, связанный с наибольшим собственным значением. [2] Это более или менее то, что происходит под капотом, когда вы вызываете pca () в MATLAB или python — собственное разложение ковариационной матрицы вычисляется с помощью разложения по сингулярным значениям (SVD). Оказывается, этот подход не работает для тензоров, матриц с неполными данными или многих других интересных случаев.
Предположим, что мы решаем задачу оптимизации (1) каким-либо методом.T \ mathbf {X} $ и ранжирование их по собственным значениям. Это можно визуализировать с помощью осыпной диаграммы , которая отображает дисперсию, объясняемую каждым последующим главным компонентом. Люди, возможно, посоветовали вам найти «изгиб» или точку перегиба на графике осыпи, чтобы определить количество компонентов, которые необходимо сохранить (остальные — это шум). Спойлер: , вы можете сделать лучше, чем это, и мы увидим, как это сделать, в конце публикации.
Участок осыпи. Основные компоненты ранжируются по величине дисперсии, которую они фиксируют в исходном наборе данных, диаграмма осыпи может дать некоторое представление о том, сколько компонентов необходимо. |
Мы можем организовать верхние $ r $ главных компонентов в матрицу $ C = [\ mathbf {c} _1, \ mathbf {c} _2,…, \ mathbf {c} _r] $ и веса загрузки в $ W = [\ mathbf {w} _1, \ mathbf {w} _2,…, \ mathbf {w} _r] $. Т \]
Пример реконструкции данных с 3 главными компонентами.г W_ {ik} C_ {jk} \] Как обсуждалось выше, классическая перспектива состоит в том, что PCA находит набор направлений (технически, линейное подпространство), который максимизирует дисперсию данных после их проецирования в это пространство. Оказывается, это эквивалентно поиску линейного подпространства, которое минимизирует расстояние проекции по методу наименьших квадратов. [3]
|