Проблемы с рса: Члены РСА, осуществляющие оформление электронных полисов — dvd-auto.ru — Штатные головные устройства c GPS навигацией

Содержание

Не получается оформить ОСАГО — ОСАГО онлайн не работает, что делать в случае ошибок

Оформить полис ОСАГО онлайн проще и быстрее, чем в представительстве страховой компании. Вам не потребуется никуда ходить, оплата также производится через интернет с карты. Дополнительно у вас будет возможность сравнить условия у нескольких страховщиков и выбрать наиболее подходящие. Обычно полис е-ОСАГО можно получить без проблем, но бывает, что оформить документ онлайн не получается. Почему это происходит и что нужно делать, чтобы устранить проблему, читайте ниже.

Содержание

Скрыть

Почему может не получаться оформить полис онлайн
1. Технические проблемы
2. Проблемы на стороне страхователя

Пути решения

В каких случаях купить ОСАГО онлайн не получится

Как оформить ОСАГО онлайн

Ответы на вопросы

Подведем итоги

Почему может не получаться оформить полис онлайн

На сайтах многих страховых компаний клиентам предлагают услугу оформления электронного полиса ОСАГО.

Стандартно процедура занимает несколько минут, и клиент получает полис в электронном виде на свою почту.

Документ является аналогом полиса, оформленного в офисе страховой компании, имеет ту же юридическую силу.

Причинами того, что не получается оформить электронный полис ОСАГО могут быть:

Технические проблемы на сайте страховой компании или РСА;
У страховщика возникли вопросы к страхователю.

Если раньше страховщик мог отказать клиенту в оформлении документа, когда считал сделку не рентабельной, сегодня это не допустимо. Любая страховая компания, которая имеет лицензию на осуществление своей деятельности, должна исполнять требования Федерального закона № 40 «Об ОСАГО», в числе которых оформление полисов обязательного страхования гражданской ответственности.

Технические проблемы

Технические сбои на сайтах крупных страховых компаний происходят очень редко и кратковременно.

В некрупных страховых компаниях технические сбои могут происходить из-за наплыва клиентов, например, в конце года, когда у водителей срок действия полиса заканчивается и все начинают оформлять его по новой.

Согласно указаний ЦБ РФ №4191-У от 14 ноября 2016 г страховые компании обязаны иметь резервные технологические средства, чтобы не допускать длительность перерывов в работе сайтов более 30 минут в сутки. Причем на сайте должно быть размещено соответствующее объявление.

Проблемой может стать сбои в работе сайта РСА. Страховщик запрашивает данные из базы союза автолюбителей, если там возникли технические проблемы, с оформлением полиса придется немного подождать. Обычно это решается в течение одного часа.

Проблемы на стороне страхователя

Причиной отказа системы в оформлении полиса может быть несоответствия или ошибки в заявлении. Заявка подается онлайн, контролирует правильность ее составления сам страхователь. При обнаружении ошибок и неточностей транспортное средство не проходит проверку в РСА, и заявка просто отклоняется.

Еще причиной, зависящей от клиента, является отсутствие интернета во время подачи заявки.

Пути решения

Если не получается оформить ОСАГО из-за технических сбоев на сайте страховщика или РСА, вы можете повторить попытку через некоторое время. Можно попробовать просто перезагрузить страницу. Если проблема не устранена, обратитесь в службу поддержки страховой компании.

Если проблема на стороне страхователя – сначала проверьте скорость интернет–соединения, затем качество заполнения вами заявки. Если обнаружены ошибки, система, как правило, не предлагает их исправить, а просто снимает заявление с рассмотрения.

Внимательно читайте порядок оформления полиса страхования на сайте страховщика. Точно следуйте предлагаемой инструкции и проверяйте вводимую информацию.

В случае, когда не оформляется ОСАГО онлайн в одной страховой компании, вы всегда можете обратиться к другому страховщику.

Можно сначала ознакомиться с отзывами пользователей на официальных форумах автомобилистов об оформлении е-ОСАГО на сайтах страховщиков. Затем выбирать компанию, у который не бывает проблем с зависанием сайтов и техническими ошибками.

В каких случаях купить ОСАГО онлайн не получится

Есть несколько причин, когда невозможно оформить ОСАГО онлайн:

Сведений о прохождении техосмотра нет в базе ЕАИСТО;
Расхождение в данных клиента в паспорте и водительском удостоверении, например, при смене фамилии;
У клиента отсутствует банковская карта для оплаты полиса;
В случае, когда до окончания срока действия предыдущего договора страхования еще более месяца.

Страховая предпримет все меры, чтобы не оформлять полис пользователю, который находится в «черном списке» недобросовестных клиентов. Хотя по закону она не может отказать в заключении договора обязательного страхования.

Как оформить ОСАГО онлайн

На нашем сайте вы сможете оформить ОСАГО онлайн быстро, без отказа, выбрав лучшие условия.

Пошаговая инструкция как купить полис:

Откройте сайт сравни.ру и перейдите в раздел «Страхование», выберите «ОСАГО»;
На калькуляторе укажите оформляете вы новый полис или продляете, введите гос. номер транспортного средства;
Укажите данные о водителях;
Мы подберем для вас предложения страховых компаний, сравните условия и выберите лучшее;
Оплатите страховку;
Получите документ на электронную почту.

Данные полиса сразу попадают в базы РСА и ГИБДД.

Ответы на вопросы

Что делать, если не получается оформить ОСАГО онлайн на сайте страховщика?	Попробуйте немного подождать или оформить электронный полис в другой страховой компании.
Куда обращаться, если страховая компания не ответила по заявке на оформление полиса?	Напишите жалобу в союз автостраховщиков (РСА), можете обращаться в суд или написать заявление в прокуратуру.
Почему при попытке оформить полис система выдает ошибку: «К сожалению оформление электронного полиса ОСАГО невозможно».	Это может быть связано с тем, что вы не точно заполнили заявку, ввели не все необходимые сведения или допустили ошибки.

Подведем итоги

Если у вас не получается оформить е-ОСАГО, в первую очередь убедитесь в правильности введения данных в заявление. Проверьте, все ли необходимые документы вы приложили, качество интернет–соединения, срок истекания действующего полиса, нет ли на сайте объявления о проведении технических работ.

Если все в порядке, перезагрузите сайт и повторите попытку.

Обычно этого достаточно, чтобы система не давала сбой.

В крайнем случае обратитесь в другую компанию.

Новая версия АИС ОСАГО собрала рекордное количество жалоб

В августе Банк России зафиксировал существенный рост жалоб на действия страховых компаний. Одной из главных причин этого стало внедрение новой версии автоматизированной информационной системы (АИС) ОСАГО, сообщил заместитель руководителя службы по защите прав потребителей Банка России Иван Козлов на конференции «Урегулирование убытков в страховании». Это перечеркнуло устойчивую тенденцию к снижению жалоб, которую фиксировал регулятор в течение последних месяцев. «Еще в июле рынок получал от регулятора похвалу, поскольку количество жалоб снижалось. Вместе с тем тенденция, которую мы наблюдаем на конец августа – начало сентября 2020 г., такова, что Банк России фиксирует существенный рост жалоб на страховые организации. Количество жалоб превосходит как показатели первого полугодия 2020 г., так и показатели аналогичного периода прошлого года», – заявил Козлов.

По словам представителя ЦБ, потребители жалуются не на подорожание страховых полисов. Большинство жалоб связано с отсутствием возможности приобретения электронного полиса, навязыванием дополнительных услуг страховщиками и отказами в заключении договора без приобретения дополнительных услуг, а также некорректным определением коэффициента бонус-малус. «То есть, с одной стороны, для страховых компаний создаются все условия, чтобы бизнес развивался и был активен, а с другой – мы видим злоупотребления, которые вызывают очень серьезную озабоченность регулятора», – подчеркнул Козлов.

Одной из главных причин роста жалоб представитель регулятора назвал внедрение Российским союзом автостраховщиков (РСА) с 28 июня новой версии АИС ОСАГО. «Да, действительно, обновленная система включает большое количество полезных новшеств, но появились и существенные сбои в работе, которые влекут рост жалоб потребителей. Все мы понимаем: это большая система, затрагивающая интересы всего рынка, все компании к ней подключаются, возможны сбои. Люди понимают, когда эти сбои длятся неделю: идет подкрутка. Но эти сбои продолжаются до сих пор, поэтому количество жалоб потребителей не снижается», – отметил Козлов. Назвав РСА «лицом рынка», представитель регулятора напомнил о задаче страховых компаний обеспечить слаженную работу АИС ОСАГО. «Банк России будет за этим пристально следить и соответствующим образом реагировать», – пообещал спикер.

В самом РСА уточняют, что количество жалоб регулятору на ОСАГО в августе и сентябре 2020 г. выросло по сравнению с аналогичным прошлогодним периодом с 2000 до 2200. «Вряд ли такой рост можно назвать существенным, – отмечают страховщики. – При этом АИС ОСАГО 2.0 – беспрецедентно масштабный и сложный проект, впервые запущенный на страховом рынке». В РСА уверяют, что, несмотря на то что сразу после запуска новой системы отмечались проблемы с ее отказоустойчивостью, «существенной проблемой для автовладельцев это не стало и к заметному росту жалоб не привело», а все проблемы, отмечавшиеся в работе АИС ОСАГО 2. 0, оперативно решались.

В РСА отметили также, что АИС ОСАГО 2.0 содержит большое количество дополнительных проверок, которые препятствуют некорректному вводу данных при оформлении полисов. «Это привело к резкому росту жалоб в соцсетях со стороны страховых посредников, работавших на момент запуска АИС ОСАГО 2.0 полулегально, когда такая деятельность была запрещена законом, – объясняют в РСА. – В том числе жалобы фиксировались и со стороны недобросовестных посредников, которые предлагали своим клиентам услугу по приобретению дешевого и заведомо недействительного полиса ОСАГО, при оформлении которого указывались заведомо неверные данные с целью снизить стоимость полиса».

Между тем статистика обращений к финансовому уполномоченному в сфере страхования также свидетельствует о том, что жалобы на ОСАГО составляют подавляющее большинство (91%) в общей структуре обращений. «Еще 8% занимают жалобы на иные виды страхования и 1% – на деятельность микрофинансовых организаций», – уточнил финансовый уполномоченный в сфере страхования Виктор Климов.

Для потребителя между тем важна именно скорость оформления покупки, а также простота использования сервисов. «Если раньше ожидания некоего усредненного страхователя в автомоторном страховании сводились к тому, чтобы получить адекватные выплаты, которых бы хватило или почти хватило на ремонт, то сейчас речь идет о скорости и отсутствии каких-то странных и ненужных бюрократических процедур, – говорит координатор движения «Синие ведерки» Петр Шкуматов. – Например, я сам в этом году изменил своему страховщику, с которым был много лет, и ушел в другую страховую, потому что она предложила механизм полностью дистанционного урегулирования убытков, если они возникают, а кроме того, урегулирование убытков в течение часа. Кроме мобильного приложения, для этого ничего не нужно. Я думаю, что рано или поздно страховые компании, которые предлагают моментальное возмещение по стандартным страховым продуктам, будут выигрывать в борьбе за клиента».

РСА запустит механизм перестрахования в «автогражданке» — Российская газета

Сделать полисы ОСАГО доступными для таких высокоубыточных автовладельцев, как собственники такси и автобусы, решил Российский союз автостраховщиков. Это не означает, что полисы для них станут дешевле. Просто убытки будет нести не одна страховая компания, а все, участвующие в рынке ОСАГО. РСА запускает механизм перестрахования в автогражданке.

Сейчас некоторые страховые компании всеми правдами и неправдами стараются не продавать полисы ОСАГО на автобусы и такси. Хотя по закону прямо отказать в таком страховании они не имеют права. Между тем волокитой и всякими уловками, затягивающими заключение договора, страховщики в некоторых регионах ставят под угрозу существование общественного транспорта. Без ОСАГО ни один автобус на линию не выйдет. Но связанно это не с тем, что страховщики такие плохие, а с огромной убыточностью страхования такого транспорта. Причем с каждым годом проблема только усугубляется.

Так, по данным ГИБДД, количество смертей в результате аварий с участием машин такси в России в 2020 году увеличилось на 20% по сравнению с 2019 годом — при том, что количество аварий в целом по стране осталось на прежнем уровне. По данным РСА, частота ДТП с такси составляет 32,19%, тогда как средняя по стране — 5%. Аналогичная проблема наблюдается с автобусами: частота ДТП с ними составляет 11,91%, что более чем в два раза превышает среднюю по РФ. Кроме того, существенно более высокую убыточность и частоту ДТП по сравнению с общероссийской демонстрирует и ряд регионов.

Решать эту проблему необходимо комплексно, считают в РСА. Необходимы более гибкие подходы к тарификации, в том числе за счет расширения «тарифного коридора». А также требуется добиваться снижения аварийности там, где она зашкаливает. Так, аварийность у разных таксопарков отличается в разы. Там, где система допуска и контроля водителей построена хорошо, частота ДТП находится практически на уровне среднероссийской, в районе 5%. Там же, где эта система не построена, аварийность может легко составлять 100%. Аналогичная разница заметна между регионами, власти которых ведут комплексную работу по снижению аварийности на дорогах и теми, где эта работа не входит в число приоритетных.

РСА создает механизм, который позволит сделать ОСАГО доступнее для высокоубыточных категорий транспортных средств. Риски по таким сегментам будут распределяться на все компании пропорционально их доле рынка в рамках перестраховочного пула.

— Это позволит гарантировать потерпевшим в ДТП от автовладельцев, относящихся к категориям высокого риска, получение денежных компенсаций за причинение вреда их имуществу, а также жизни и здоровью. В то же время мы считаем, что такое решение может быть лишь временным: ведь транспорт, который генерирует повышенное количество ДТП, не только является убыточным по ОСАГО для страховщиков, но и более опасным для других участников дорожного движения, — сказал исполнительный директор РСА Евгений Уфимцев.

Но вот прям завтра перестраховочный механизм не заработает. Не все страховые компании, имеющие лицензии на ОСАГО, имеют также лицензию на перестраховочную деятельность. Сейчас идут переговоры с Центробанком, а также готовятся поправки в законодательство, которые позволят всем страховщикам, входящим в РСА, заниматься перестрахованием по ОСАГО.

Таким образом, финансовая нагрузка от убыточных такси и автобусов перераспределится на всех участников рынка. И отказ в продаже полисов потеряет смысл.

Как исправить ошибку при генерации RSA ключа для ЕГАИС?

При генерации RSA ключа (транспортного ключа) в личном кабинете ЕГАИС алкоголь могут возникать ошибки. Разобраться в этих ошибках непросто специалисту, не говоря уже о рядовом пользователе.

Попробуем разобрать типовые ошибки, которые возникают при генерации транспортных RSA ключей ЕГАИС.

Почему возникает ошибка при генерации ключа ЕГАИС?

Ошибка при генерации транспортного ключа для ЕГАИС иногда возникает из-за неполадок на сайте ЕГАИС. Но это происходит крайне редко.

В основном ошибки при генерации связаны с некорректными настройками компьютера.

Общие рекомендации для успешной генерации транспортного RSA ключа ЕГАИС

Для успешной генерации транспортных ключей на сайте ЕГАИС необходимо соблюсти некоторые требования и рекомендации:

Операционная система должна быть MS Windows и свежее чем XP (подойдет Vista/7/8/8/1/10, серверные ОС тоже поддерживаются, начиная с 2008). Крайне желательно наличие установленных актуальных обновлений.
Браузер Internet Explorer версии не ниже, чем 9. Но мы рекомендуем использовать актуальную версию — 11. Установить или обновить можно из этого источника.
Установлена актуальная версия крипто плагина ФСРАР Крипто (версия не ниже чем 2.00).
Установлены и настроены драйвера для защищенного носителя для ЕГАИС.
Во время работы в личном кабинете ЕГАИС и при работе УТМ ЕГАИС должен быть вставлен только один ключик для ЕГАИС.

Для настройки рабочего места для доступа личный кабинет ЕГАИС Вы можете воспользоваться нашей статьей.

Ошибка при генерации RSA ключа «Выберете устройство чтения смарт карт…»

Если при генерации ключа ЕГАИС вместо окна запроса пин-кода Вы увидели окно «Выберете устройство чтения смарт карт» или «Обнаружена смарт-карта, но она не может использоваться для текущей операции…» или «Смарт-карта не может выполнить запрошенную операцию либо операция требует другой смарт-карты», значит нужно скорректировать настройки компьютера.

Такая ошибка возникает из-за того, что настройки вашего компьютера не позволяют сформировать ключи, необходимые для работы УТМ ЕГАИС.

Если Вы используете носитель Рутокен ЭЦП, то вам необходимо сделать следующее:

Откройте

Панель управления Рутокен (запускается ярлыком на рабочем столе или через меню Пуск — Программы (или Все программы) — Рутокен — Панель управления Рутокен), перейдите на вкладку «Настройки» и нажмите на кнопку «Настройка» в разделе «Настройки криптопровайдера«. Установите напротив строки Рутокен ЭЦП значение Microsoft Base Smart Card Crypto Provider.

Пробуйте сгенерировать транспортный ключ ЕГАИС еще раз.

Если не получилось — сделайте перенастройку еще раз. Выберете другой криптопровайдер, нажмите ОК, и снова выберете Microsoft Base Smart Card Crypto Provider.

Если опять не получилось — обновите драйвер для Рутокен ЭЦП. Скачать драйвер можно с сайта разработчика. После обновления проверьте настройки криптопровайдера и пробуйте еще раз.

В крайне редких случаях, если генерация ключа не проходит, помогает утилита восстановления работоспособности Рутокен (позволяет правильно определить драйвера носителя в системе).

Все должно получиться!

Если Вы самостоятельно не можете справится с генерацией транспортного ключа ЕГАИС — обратитесь к нашим специалистам. Обычно мы справляемся с этой задачей за 5-15 минут.

Ошибка в методе createCertificateRequest Error: CKR_PNI_INCORRECT

В этой ошибке прямым текстом, правда по иностранному, написано, что неверно введен пин-код.

Проверьте правильность ввода пин-кодов. Если на вашем носителе установлен пин-код по умолчанию. и Вы его не помните, то напоминаем:

для JaCrata пин RSA — 11111111, пин ГОСТ — 0987654321
для Рутокен пин RSA — 12345678, пин ГОСТ — 12345678

Если не подходят стандартные пин-коды и пин-код, который установили Вы, то скорее всего носитель заблокировался. Для разблокировки носителя обратитесь к тому, у кого получали ключи, должны помочь.

Если Вы самостоятельно не можете справится с пин-кодом для ключа ЕГАИС — обратитесь к нашим специалистам (достаточно просто написать в чат на сайте). Обычно мы справляемся с этой задачей за 5-15 минут.

Ошибка в методе createCertificateRequest Error: CKR_ATTRIBUTE_TYPE_INVALID

Такая ошибка была нами зафиксирована при использовании ключа JaCarta SE.

Для исправления ошибки необходимо инициализировать раздел PKI на носителе. Для этого откройте Единый клиент JaCarta желательно включить интерфейс Администратора (снизу слева кнопка «Переключиться в режим администрирования»). Перейдите вверху во вкладку PKI и нажмите «Инициализировать». При запросе пин-кода введите пин-код Администратора 00000000, пин-код Пользователя 11111111.

После успешной инициализации попробуйте снова сгенерировать транспортный ключ.

Также не забывайте о том, что для нормальной работы вашего защищенного носителя для ЕГАИС должен быть установлен свежий драйвер ключа!

Если Вы самостоятельно не можете справится с генерацией транспортного ключа ЕГАИС — обратитесь к нашим специалистам (достаточно просто написать в чат на сайте). Обычно мы справляемся с этой задачей за 5-15 минут.

Решения самых популярных проблем с ЕГАИС Вы можете найти в нашем Telegram канале «ЕГАИС простыми словами» (@egais_is_easy).

Если помогла статья — можете сказать Спасибо автору:

Личный кабинет РСА – как зарегистрироваться и войти

Увеличение транспортного потока, количества ДТП, а также запрос российского общества на наведение порядка на дорогах, привели к необходимости упорядочить систему автострахования. В этой области возникло много проблем, связанных с появлением фирм – однодневок, которые торгуют бланками документации по обязательной гражданской ответственности водителя.

Проблемы появились не только с подбором страховой компании, но и с выплатами, которые она обязана производить автовладельцам. Также с автосервисами, которые недобросовестно относятся к своим обязанностям. Все эти задачи с 2003 года решает российский союз автостраховщиков –РСА, который вплотную занимается ОСАГО, «Личный кабинет» может создать любой желающий.

Сотрудники объединения помогают с прохождением техосмотра, обеспечивая информационное и юридическое взаимодействие клиентов и фирм. На ресурсе размещается актуальная информация, новости, законодательные изменения, вступившие в силу.

Вопреки устоявшемуся мнению, продажа страховых полисов на сайте не ведется. Интернет платформа может только лишь перенаправить пользователя к страховой, а оформлять документы он будет сам.

При вступлении в силу в 2017 году норм об оформлении документации на автомобиль в электронном виде, ресурс приобрел еще большую популярность. Автовладельцам упростили механизм получения документов, а официальный сайт обеспечивает им всестороннюю поддержку, служит гарантом безопасного приобретения страховки для ТС.

Регистрация в кабинете РСА

РСА предлагает оформить ОСАГО в «Личном кабинете». Для этого нужно пройти стандартную процедуру на портале. Сначала система устроит небольшую проверку, необходимо ввести капчу и согласиться со стандартными условиями договора. Затем ввести регистрационные данные: реквизиты ПТС и адрес проживания, чтобы получить доступ к данным.

Пользователь становится полноправным членом союза страховщиков и может приступить к выбору надежной компании. Фирмы, ссылки на которые размещены на ресурсе, проверены, мошенников сервис не пропускает. Во время процедуры страхования пользователю обеспечивается информационная поддержка, поэтому процесс формирования и покупки полиса проходит гораздо быстрее.

Вход в кабинет РСА

Пройдя единовременную регистрацию, пользователи начинают активно использовать информационное пространство экспертного союза. РСА с «Личным кабинетом», вход в который осуществляется в несколько кликов, несет и другие функции. Здесь можно осуществить проверку достоверности страховки, рассчитать стоимость ее оформления страховки. Найти любой интересующий водителя правовой документ по теме автострахования гражданской ответственности.

Попасть на портал можно при помощи ввода в электронную форму адреса почты, пароля, который был придуман при регистрации, и сведений об автомашине. Далее нажимают кнопку «Войти».

Как восстановить пароль

Нередко возникает ситуация на ресурсе РСА, когда регистрация «Личного кабинета» для ОСАГО прошла успешно, а пароль для входа забыт или утерян. Для его восстановления предлагается удобный механизм, на странице автостраховщика предусмотрено электронное поле для восстановления данных онлайн.

В эту форму вводят адрес почтового ящика, сведения о транспортном средстве. Сведения передаются в аналитический центр, оттуда сразу же приходит ссылка, пройдя по ней, можно сменить пароль. Данные рекомендуется записать, чтобы не повторять в дальнейшем процедуру их восстановления.

Вход через Госуслуги

Портал РСА с «Личным кабинетом» для оформления е-ОСАГО – не единственный вариант приобретения страховой документации. «Госуслуги» также предоставляют возможность выбрать надежную страховую и купить страховку.

Механизм предоставления услуги также прост. Посетитель регистрируется или авторизуется на «Госуслугах», затем заходит во вкладку «Транспорт» и дальше в «Электронное страхование». Здесь перед ним появится список страховщиков, из которых он может выбрать компанию. Обычно выбор автовладельца основан на хороших отзывах и выгодных тарифах.

В расчет принимаются различные коэффициенты, к примеру, КБМ коэффициент бонус-малус для расчета размера премии, которую страхователь платит компании. Этот коэффициент, а также другие показатели, можно рассчитать при помощи онлайн калькулятора на портале союза или страховой.

Сервис Е-гарант

Известно, что виртуальное пространство не всегда бывает стабильным. Нередки случаи, когда автовладелец желает купить полис, но не может осуществить это действие по ряду причин. Чаще всего возникают неполадки с серверами страховых, из-за временных технических работ ресурсы оказываются недоступны. Часто бывает, что страховые считают клиента убыточным и отказывают ему в услуге. К таким клиентам относят молодых водителей, которые ездят иногда неаккуратно, часто попадая в дорожные происшествия. Однако законодательство обязывает страховые объединения оформлять страховку всем без исключения.

Для таких случаев и разработана система Е-гарант. Если сайт страховой недоступен или фирма отказала клиенту, электронный инструмент предлагает ему несколько других вариантов. Таким образом без потери времени удается получить услугу на другом сайте.

Сервисы без регистрации

Почти за 20 лет своего существования сервис предлагает населению множество дополнительных услуг, которые можно получить без регистрации:

справочная информация о нововведениях в сфере автострахования, новости, аналитические материалы по теме;

статистика, касающаяся показателей средних выплат по ОСАГО, комментарии представителей автостраховщиков и финансовых объединений, в том числе Центрального Банка;

адреса пунктов техобслуживания и автомастерских с отзывами клиентов и общим рейтингом;

нововведения по «Зеленой карте»: международному полису.

Кроме этого, водителям предоставляется возможность узнать полную информацию по полису. Проверить его легальность, рассчитать сумму по договору, рассчитать коэффициенты.

Заключение

По замыслу властей и желанию владельцев ТС сферу гражданского страхования удается постепенно упорядочивать, исключив незаконные схемы и обман участников дорожного движения. Простой вход в «Личный кабинет» РСА для оформления е-ОСАГО и совершения других действия способен обезопасить водителя от негативных факторов, которые связаны с процессом автострахования в России.

Эксперты настоятельно советуют использовать электронный сервис РСА для решения всех вопросов, связанных со страховкой автомашины. Сервис создан специально для решения подобного рода задач и за последние годы получил развитие, доказав свою эффективность.

Доля е-ОСАГО достигла 50% | Новости

Доля е-ОСАГО достигла 50%

По итогам 2020 года в России было продано 17,8 миллиона полисов электронного ОСАГО, что соответствует уровню предыдущего года. При этом доля е-ОСАГО составила около 50% от общего объема реализации «автогражданки», следует из данных Российского союза автостраховщиков (РСА).

В топ-15 регионов по продажам полисов е-ОСАГО вошли Москва (1,6 млн полисов; 9,1% от всех продаж е-ОСАГО в России), Московская область (950 тысяч; 5,3%), Свердловская область (721 тысяча; 4,1%), Санкт-Петербург (520 тысяч; 2,9%), Самарская область (510 тысяч; 2,9%), Новосибирская область (486 тысяч; 2,7%), Краснодарский край (481 тысяча; 2,7%), Воронежская область (466 тысяч; 2,6%), Красноярский край (421 тысяча; 2,4%), Кемеровская область (414 тысяч; 2,3%), Приморский край (412 тысяч; 2,3%), Татарстан (346 тысяч; 1,9%), Дагестан (338 тысяч; 1,9%), а также Иркутская (329 тысяч; 1,9%) и Белгородская области (326 тысяч; 1,8%).

«Год, ознаменовавшийся пандемией и ограничениями на свободное перемещение людей, показал, что е-ОСАГО – удобный и востребованный автовладельцами продукт. Неслучайно мы видим среди регионов-лидеров по продажам ОСАГО и те, в которых ситуация с коронавирусом стала особенно острой. Важно, что развитие электронных продаж ОСАГО позволило кому-то лишний раз не подвергать риску свое здоровье и здоровье своих близких. Отмечу также, что при большом количестве продаваемых полисов е-ОСАГО число жалоб на проблемы с их покупкой минимально. Сейчас мы выходим на следующий уровень – в следующем году планируется переход на онлайн урегулирование убытков. Мы видим, что запрос на различные онлайн-сервисы растет: например, благодаря приложению “ДТП. Европротокол”, в начале 2020 года у нас была 1 тысяча электронных фотофиксаций ДТП в месяц, а в конце 2020 года – уже 3,5 тысячи», – отметил президент РСА Игорь Юргенс.

Возникают проблемы по запуску интегрированных систем РСА и ГИБДД по проверке полисов ОСАГО

По поручению правительства РФ Российский союз автостраховщиков (РСА) и ГИБДД пытаются ускорить и наладить процесс запуска системы базы данных страховщиков для проверки полисов ОСАГО с помощью камер наблюдения. Информационная база АИС ОСАГО сейчас проходит проверку и исправляются ошибки по её некорректной работе.

Эксперимент по проверке ОСАГО планируется запустить пока только в Москве. В конце 2018 года вопрос поднимался на заседании правительственной комиссии по БДД, вице-премьер Максим Акимов дал Министерству Внутренних Дел и Российскому Союзу Автостраховщиков поручение разобраться с этой проблемой. В столице каждый комплекс фотофиксации регистрирует до 40 тыс. проездов машин в сутки, если делать столько же запросов в базу данных АИС ОСАГО и ГИБДД, системы не справятся с таким количеством запросов. Придумали многоступенчатую схему: РСА передает ГИБДД список действующих полисов, ГИБДД ”прикрепляет” их к номерам машин и передает далее сформированный реестр в столичный ЦОДД (центр организации дорожного движения), затем готовится постановление об административном правонарушении, в итоге «письмо счастья».

Но есть проблемы по данным полисов в самой базе, например, когда в страховом полисе не указан государственный номер автомашины. Все мы знаем, что полис выдается до регистрации авто в ГИБДД, соответственно номеров еще нет. Потом конечно, собственник должен обратиться в страховую компанию, что бы номер внесли в документ. Однако, не предусмотрено никакого наказания за неисполнение этой нормы. .

Стоит отметить, что у РСА уже есть специальный сервис, через который ГИБДД может перепроверить нужную информацию.

Но пока ни ЦОДД ни ГИБДД не начали активные действиям по внедрению баз данных. Напомним, согласно поручению вице-премьера Максима Акимова, объединить сервисы нужно было еще до 1 февраля текущего года, но поручение не выполнено.

Источник: Коммерсантъ

Риски и меры предосторожности при применении PCA для задач контролируемого обучения | Сурадип Чакраборти

Соавторы: Амлан Джиоти Дас, Сай Ясвант

Ссылка

Пространство высоких измерений и его проклятие

Проклятие размерности — очень важная проблема при работе с реальными наборами данных, которые, как правило, многомерны. данные. По мере увеличения размерности пространства признаков количество конфигураций может расти экспоненциально, и, таким образом, количество конфигураций, охватываемых наблюдением, уменьшается.

В таком сценарии анализ главных компонентов играет важную роль в эффективном уменьшении размерности данных, сохраняя при этом как можно больше вариаций, присутствующих в наборе данных.

Давайте дадим очень краткое введение в анализ главных компонентов, прежде чем углубляться в реальную проблему.

Определение основных компонентов

Основная идея P rincipal Component Analysis (PCA) состоит в том, чтобы уменьшить размерность набора данных, состоящего из большого количества коррелированных переменных, при сохранении максимально возможных вариаций, присутствующих в набор данных.

Давайте определим симметричную матрицу A,

, где X — это матрица независимых переменных размера m × n, где m — количество столбцов, а n — количество точек данных. Матрица A может быть разложена в виде

, где D — диагональная матрица, а E — матрица собственных векторов A, расположенных в виде столбцов.

Главные компоненты (PC) X являются собственными векторами XX ᵀ , что указывает на тот факт, что направление собственных векторов / главных компонентов зависит от вариации независимой переменной (X).

Почему применение PCA вслепую — это проклятие в контролируемых задачах ????

Использование анализа главных компонент в регрессии привлекло много внимания в литературе и широко использовалось как метод обработки мультиколлинеарности.

Но наряду с использованием регрессии главных компонентов было много неправильных представлений относительно объяснимости переменной ответа главными компонентами и их соответствующего порядка важности.

Распространенное заблуждение, которое было сделано несколько раз даже в различных статьях и книгах, что в рамках контролируемой регрессии главных компонентов главные компоненты независимой переменной, имеющие низкие собственные значения, не будут играть никакой роли в объяснении переменной отклика, которая приводит нас к Сама цель этого блога — продемонстрировать, что компоненты с низкими собственными значениями могут быть такими же важными или даже намного более важными, чем основные компоненты с большими собственными значениями, при объяснении переменной отклика.

Ниже перечислены некоторые из таких примеров, указанных в

[1]. Mansfield et al. (1977, стр. 38) предполагают, что если исключены только компоненты с небольшой дисперсией, то в регрессии будет очень небольшая потеря предсказуемости.

[2]. В книге Gunst and Mason (1980) 12 страниц посвящены регрессии главных компонентов, и большая часть обсуждения предполагает, что удаление главных компонентов основано исключительно на их дисперсии.(стр.327–328).

[3]. Мостеллер и Тьюки (1977, стр. 397–398) аналогичным образом утверждают, что компоненты с малой дисперсией вряд ли будут важны в регрессии, по-видимому, на том основании, что природа «хитрая», но не «откровенно скупая».

[4]. Hocking (1976, стр. 31) еще более твердо определяет правило сохранения главных компонентов в регрессии, основанной на дисперсии.

Теоретическое объяснение и понимание

Во-первых, позвольте нам дать вам правильное математическое обоснование вышеприведенной гипотезы, а затем мы сможем объяснить интуицию, используя геометрическую визуализацию и моделирование.

Допустим,

Y — Переменная ответа

X — Матрица проекта — Матрица пространства признаков

Z — Стандартизированная версия X

Пусть 𝜆₁≥𝜆₂>…. ≥ 𝜆p — собственные значения Z ᵀ Z (корреляционная матрица), а V — соответствующие собственные векторы, тогда в W = ZV столбцы в W будут представлять главные компоненты Z. Стандартный метод, который выполняется в основном Компонентная регрессия предназначена для регрессии первых m ПК на Y, и проблема может быть видна через приведенную ниже теорему и ее объяснение [2].

Теорема:

Пусть W = (W₁,…, Wp) будет PC X. Теперь рассмотрим модель регрессии

Если истинный вектор коэффициентов регрессии 𝛽 находится в направлении j ᵗʰ собственный вектор Z ᵀ Z, тогда, когда Y регрессирует на W, только j ᵗʰ PC Wⱼ будет вносить все в соответствие, в то время как остальные ПК не будут вносить никакого вклада.

Доказательство: Пусть V = (V₁,…, Vp) — матрица, содержащая собственные векторы Z ᵀ Z.Тогда

Если 𝛽 находится в направлении j ᵗʰ собственного вектора Vⱼ, то Vⱼ = a𝛽 , где a — ненулевой скаляр. Следовательно, 𝜃j = Vⱼᵀ𝛽 = a𝛽ᵀ𝛽 и 𝜃ᴋ = Vᴋᵀ𝛽 = 0 , если k ≠ j . Следовательно, коэффициент регрессии , соответствующий Wᴋ , равен нулю, для k ≠ j, , следовательно,

Потому что переменная Wᴋ не приводит к уменьшению суммы квадратов, если ее коэффициент регрессии равен ноль, тогда только Wj внесет все необходимое, в то время как остальные ПК ничего не внесут.

Геометрическая значимость и моделирование

Давайте теперь проведем моделирование и получим геометрическое понимание математической интуиции. Объяснение было проиллюстрировано с использованием моделирования для двумерного пространства признаков (X) и одной переменной отклика, так что гипотезу легко понять визуально.

Рис. 1: Одномерные и двумерные графики для моделируемых переменных X1 и X2

На первом этапе моделирования пространство конструктивных особенностей моделировалось из многомерного нормального распределения с очень высокой корреляцией между переменными и реализован PCA.

Рисунок 2: Тепловая карта корреляции для ПК1 и ПК2

Из графика очень ясно, что нет абсолютно никакой корреляции между ПК. Второй шаг — смоделировать значения переменной отклика y таким образом, чтобы направление коэффициента Y на ПК было в направлении второго главного компонента.

После моделирования переменной отклика корреляционная матрица выглядит примерно так.

Рисунок 3: Тепловая карта корреляции для моделируемой переменной Y и PC1 и PC2

Из графика очень ясно, что существует высокая корреляция между y и PC2, а не PC1, что демонстрирует нашу гипотезу.

Рисунок 4: Дисперсия в пространстве признаков, объясненная ПК1 и ПК2

Поскольку на рисунке указано, что ПК1 объясняет 95% дисперсии в X, поэтому, если мы будем следовать приведенной выше логике, мы должны полностью игнорировать ПК2 при выполнении регрессии.

Давайте проследим за этим и посмотрим, что произойдет !!!

Рисунок 5: Сводка регрессии с Y и PC1

Таким образом, R², равный 0, указывает на то, что даже несмотря на то, что PC1 объясняет 95% вариации X, все же не может объяснить переменную ответа.

Теперь давайте попробуем то же самое с PC2, который объясняет только 5% вариации X, и посмотрим, что произойдет !!!!

Рисунок 6: Сводная таблица регрессии с Y и PC2

Whooo !!!! Вы, должно быть, думаете, что только что произошло. Главный компонент, который объясняет около 5% дисперсии X, объяснил 72% дисперсии Y.

Есть несколько реальных сценариев для проверки гипотезы, как указано в

[1] . Смит и Кэмпбелл (1980) привели пример из химической инженерии, где было девять регрессионных переменных и когда изменчивость восьмого главного компонента составляет 0,06% от общей вариации, которая была бы удалена на основе критерия низкой вариации.

[2] . Второй пример предоставлен Кунг и Шариф (1980) .В исследовании прогноза даты начала муссонов на основе десяти метеорологических переменных значимые основные компоненты были восьмым, вторым и десятым в этом порядке. Он показывает, что даже главный компонент с наименьшим собственным значением является третьим по значимости с точки зрения объяснения изменчивости переменной отклика.

Заключение : Приведенные выше примеры показывают, что не рекомендуется удалять основные компоненты с низкими собственными значениями, поскольку это указывает только на объяснимость в пространстве признаков, а не в переменной ответа.Следовательно, мы должны сохранить все компоненты и проводить контролируемое обучение, иначе мы должны использовать методы уменьшения контролируемой размерности, такие как частичная регрессия наименьших квадратов, наименьшая угловая регрессия , которые мы будем объяснять в следующих блогах.

Ссылки:

[1] Джоллифф, Ян Т. «Примечание об использовании основных компонентов в регрессии». Журнал Королевского статистического общества. Серия C (Прикладная статистика), т. 31, вып. 3, 1982, с. 300–303. JSTOR, www.jstor.org/stable/2348005.

[2] Хади, Али С. и Роберт Ф. Линг. «Некоторые предостережения по использованию регрессии основных компонентов». Американский статистик, т. 52, нет. 1. 1998. С. 15–19. JSTOR, www.jstor.org/stable/2685559.

[3] ХОКИНС, Д. М. (1973). Об исследовании альтернативных регрессий методом главных компонент. Прил. Statist., 22, 275–286

[4] МАНСФИЛД, Э. Р., УЕБСТЕР, Дж. Т. и ГАНСТ, Р. Ф. (1977). Метод аналитического выбора переменных для регрессии главных компонент.Прил. Статист., 26, 34–40.

[5] МОСТЕЛЛЕР Ф. и ТЮКИ Дж. У. (1977). Анализ данных и регрессия: второй курс статистики. Ридинг, Массачусетс: Addison-Wesley

[6] ГАНСТ Р. Ф. и МЕЙСОН Р. Л. (1980). Регрессионный анализ и его применение: подход, ориентированный на данные. Нью-Йорк: Марсель Деккер.

[7] ДЖЕФФЕРС, Дж. Н. Р. (1967). Два тематических исследования по применению анализа главных компонентов. Прил. Statist., 16, 225 — 236. (1981). Исследование альтернативных регрессий: некоторые практические примеры.Статистик, 30, 79–88.

[8] КЕНДАЛЛ М.Г. (1957). Курс многомерного анализа. Лондон: Гриффин.

Если у вас есть какие-либо мысли, комментарии или вопросы, оставьте комментарий ниже или свяжитесь с нами в LinkedIn

Следите за обновлениями. Приятного чтения !!! 🙂

Пошаговое объяснение анализа главных компонентов (PCA)

Цель этого поста — предоставить полное и упрощенное объяснение анализа главных компонентов (PCA). Мы расскажем, как это работает, шаг за шагом, чтобы каждый мог понять и использовать это, даже те, у кого нет сильной математической подготовки.

PCA — метод, широко освещаемый в сети, и о нем есть несколько отличных статей, но многие тратят слишком много времени на изучение этой темы, тогда как большинство из нас просто хотят знать, как он работает в упрощенном виде.

Анализ главных компонентов можно разбить на пять этапов. Я пройду через каждый шаг, давая логические объяснения того, что делает PCA, и упрощая математические концепции, такие как стандартизация, ковариация, собственные векторы и собственные значения, не уделяя внимания тому, как их вычислять.

Как сделать PCA?

Стандартизировать диапазон непрерывных исходных переменных
Вычислить ковариационную матрицу для определения корреляций
Вычислить собственные векторы и собственные значения ковариационной матрицы для определения главных компонентов
Создайте вектор признаков, чтобы решить, какие главные компоненты оставить
Пересчитайте данные по осям главных компонентов

Во-первых, для контекста необходима некоторая базовая (и краткая) предыстория.

Наем сейчасПросмотреть все вакансии в области Data Science

Что такое анализ основных компонентов?

Анализ главных компонентов

или PCA — это метод уменьшения размерности, который часто используется для уменьшения размерности больших наборов данных путем преобразования большого набора переменных в меньший, который по-прежнему содержит большую часть информации в большом наборе.

Уменьшение числа переменных в наборе данных, естественно, происходит за счет точности, но хитрость в уменьшении размерности состоит в том, чтобы жертвовать небольшой точностью ради простоты.Поскольку меньшие наборы данных легче исследовать и визуализировать, а анализ данных становится намного проще и быстрее для алгоритмов машинного обучения без обработки посторонних переменных.

Подводя итог, можно сказать, что идея PCA проста — уменьшить количество переменных в наборе данных, сохранив при этом как можно больше информации.

Пошаговое объяснение PCA

Шаг 1. Стандартизация

Цель этого шага — стандартизировать диапазон непрерывных исходных переменных, чтобы каждая из них в равной степени способствовала анализу.

Более конкретно, причина того, почему так важно выполнить стандартизацию перед PCA, заключается в том, что последний очень чувствителен к дисперсиям исходных переменных. То есть, если есть большие различия между диапазонами исходных переменных, те переменные с большими диапазонами будут преобладать над переменными с небольшими диапазонами (например, переменная, которая находится в диапазоне от 0 до 100, будет преобладать над переменной, которая находится в диапазоне от 0 до 1. ), что приведет к необъективным результатам.Таким образом, преобразование данных в сопоставимые масштабы может предотвратить эту проблему.

Математически это можно сделать путем вычитания среднего и деления на стандартное отклонение для каждого значения каждой переменной.

После завершения стандартизации все переменные будут преобразованы в один и тот же масштаб.

Шаг 2: Расчет ковариационной матрицы

Цель этого шага — понять, как переменные набора входных данных отличаются от среднего по отношению друг к другу, или, другими словами, увидеть, есть ли между ними какая-либо связь.Потому что иногда переменные сильно коррелированы и содержат избыточную информацию. Итак, чтобы идентифицировать эти корреляции, мы вычисляем ковариационную матрицу.

Ковариационная матрица — это симметричная матрица p × p (где p — количество измерений), в которой в качестве записей указаны ковариации, связанные со всеми возможными парами исходных переменных. Например, для 3-мерного набора данных с 3 переменными x , y и z ковариационная матрица представляет собой матрицу 3×3 из:

Матрица ковариаций для трехмерных данных

Поскольку ковариация переменной с самой собой — это ее дисперсия (Cov (a, a) = Var (a)), на главной диагонали (сверху слева направо снизу) мы фактически имеем дисперсии каждая исходная переменная.А поскольку ковариация коммутативна (Cov (a, b) = Cov (b, a)), элементы ковариационной матрицы симметричны относительно главной диагонали, что означает, что верхняя и нижняя треугольные части равны.

Что ковариации, которые мы имеем в качестве элементов матрицы, говорят нам о корреляциях между переменными?

На самом деле имеет значение знак ковариации:

если положительный, то две переменные увеличиваются или уменьшаются вместе (коррелировано)
, если отрицательный, то: один увеличивается, когда другой уменьшается (обратно коррелирован)

Теперь, когда мы знаем, что ковариационная матрица — это не более чем таблица, которая суммирует корреляции между всеми возможными парами переменных, давайте перейдем к следующему шагу.

Шаг 3. Вычислить собственные векторы и собственные значения ковариационной матрицы для определения главных компонентов

Собственные векторы и собственные значения — это концепции линейной алгебры, которые нам необходимо вычислить из ковариационной матрицы, чтобы определить главных компонентов данных. Прежде чем перейти к объяснению этих концепций, давайте сначала поймем, что мы подразумеваем под основными компонентами.

Основные компоненты — это новые переменные, которые построены как линейные комбинации или смеси исходных переменных.Эти комбинации выполняются таким образом, чтобы новые переменные (то есть главные компоненты) не коррелировали, и большая часть информации в исходных переменных сжималась или сжималась в первых компонентах. Итак, идея состоит в том, что 10-мерные данные дают вам 10 основных компонентов, но PCA пытается поместить максимум возможной информации в первый компонент, затем максимум оставшейся информации во второй и так далее, пока не появится что-то вроде того, что показано на графике осыпи ниже.

Процент отклонения (информации) для каждого ПК

. Такая организация информации в основных компонентах позволит вам уменьшить размерность без потери большого количества информации, и это за счет отбрасывания компонентов с низкой информацией и рассмотрения оставшихся компонентов как ваших новых переменных.

Здесь важно понимать, что главные компоненты менее интерпретируемы и не имеют никакого реального значения, поскольку они построены как линейные комбинации исходных переменных.

С геометрической точки зрения, главные компоненты представляют направления данных, которые объясняют максимальную величину отклонения , то есть линии, которые захватывают большую часть информации данных. Связь между дисперсией и информацией здесь заключается в том, что чем больше дисперсия, переносимая линией, тем больше дисперсия точек данных вдоль нее, и чем больше дисперсия вдоль линии, тем больше информации она содержит.Проще говоря, просто думайте о главных компонентах как о новых осях, которые обеспечивают лучший угол для просмотра и оценки данных, чтобы различия между наблюдениями были лучше видны.

Наем сейчас Просмотреть все вакансии в области удаленного анализа данных

Как PCA конструирует основные компоненты

Поскольку количество главных компонентов равно количеству переменных в данных, главные компоненты строятся таким образом, что первый главный компонент учитывает наибольшую возможную дисперсию в наборе данных.Например, предположим, что диаграмма рассеяния нашего набора данных выглядит так, как показано ниже. Можем ли мы угадать первый главный компонент? Да, это примерно линия, которая соответствует фиолетовым отметкам, потому что она проходит через начало координат, и это линия, на которой проекции точек (красные точки) наиболее распространены. Или, говоря математически, это линия, которая максимизирует дисперсию (среднее квадратов расстояний от проецируемых точек (красные точки) до начала координат).

Второй главный компонент рассчитывается таким же образом с условием, что он не коррелирован с (т. е., перпендикулярно первому главному компоненту и что он составляет следующую по величине дисперсию.

Это продолжается до тех пор, пока не будет вычислено общее количество p главных компонентов, равное исходному количеству переменных.

Теперь, когда мы поняли, что мы подразумеваем под главными компонентами, давайте вернемся к собственным векторам и собственным значениям. В первую очередь вам нужно знать о них, так это то, что они всегда входят парами, так что каждый собственный вектор имеет собственное значение. И их количество равно количеству измерений данных.Например, для трехмерного набора данных есть 3 переменных, следовательно, есть 3 собственных вектора с 3 соответствующими собственными значениями.

Без лишних слов, за всей магией, описанной выше, стоят собственные векторы и собственные значения, потому что собственные векторы матрицы ковариации на самом деле направления осей, где наибольшая дисперсия (большая часть информации ) и то, что мы называем основными компонентами. А собственные значения — это просто коэффициенты, прикрепленные к собственным векторам, которые дают величину отклонения , содержащуюся в каждом основном компоненте .

Ранжируя собственные векторы в порядке их собственных значений, от наибольшего к наименьшему, вы получаете главные компоненты в порядке значимости.

Пример:

Предположим, что наш набор данных двумерен с 2 переменными x, y , а собственные векторы и собственные значения ковариационной матрицы следующие:

Если мы ранжируем собственные значения в порядке убывания, мы получим λ1> λ2, что означает, что собственный вектор, который соответствует первому главному компоненту (PC1), равен v1 , а тот, который соответствует второму компоненту (PC2), равен v2. .

После определения главных компонентов для вычисления процента дисперсии (информации), приходящейся на каждый компонент, мы делим собственное значение каждого компонента на сумму собственных значений. Если мы применим это к приведенному выше примеру, мы обнаружим, что ПК1 и ПК2 несут соответственно 96% и 4% дисперсии данных.

Шаг 4. Вектор признаков

Как мы видели на предыдущем шаге, вычисление собственных векторов и их упорядочение по их собственным значениям в порядке убывания позволяет нам найти главные компоненты в порядке значимости.На этом этапе мы выбираем, оставить ли все эти компоненты или отбросить те, которые имеют меньшее значение (с низкими собственными значениями), и сформировать с оставшимися матрицу векторов, которую мы называем вектором признаков .

Итак, вектор признаков — это просто матрица, в столбцах которой есть собственные векторы компонентов, которые мы решили оставить. Это делает его первым шагом к уменьшению размерности, потому что, если мы решим оставить только p собственных векторов (компонентов) из n , окончательный набор данных будет иметь только p измерений.

Пример :

Продолжая пример из предыдущего шага, мы можем сформировать вектор признаков с обоими собственными векторами v 1 и v 2:

Или отбросьте собственный вектор v 2, который имеет меньшее значение, и сформируйте вектор признаков только с v 1:

Отказ от собственного вектора v2 уменьшит размерность на 1 и, следовательно, вызовет потерю информации в окончательном наборе данных.Но учитывая, что v 2 несло только 4% информации, потеря, следовательно, не будет существенной, и мы все равно будем иметь 96% информации, которая переносится v 1.

Итак, как мы видели в примере, вам решать, сохранять ли все компоненты или отбрасывать менее важные, в зависимости от того, что вы ищете. Потому что, если вы просто хотите описать свои данные в терминах новых переменных (основных компонентов), которые не коррелированы, не стремясь уменьшить размерность, не нужно исключать менее значимые компоненты.

Последний шаг: повторное преобразование данных по осям основных компонентов

На предыдущих шагах, помимо стандартизации, вы не вносили никаких изменений в данные, вы просто выбираете главные компоненты и формируете вектор признаков, но набор входных данных всегда остается в терминах исходных осей (т. Е. В терминах исходных переменных).

На этом этапе, который является последним, цель состоит в том, чтобы использовать вектор признаков, сформированный с использованием собственных векторов ковариационной матрицы, для переориентации данных с исходных осей на оси, представленные главными компонентами (отсюда и название Основные компоненты Анализ).Это можно сделать, умножив транспонирование исходного набора данных на транспонирование вектора признаков.

* * *

Закария Джаади (Zakaria Jaadi) — специалист по анализу данных и инженер по машинному обучению. Ознакомьтесь с другими его материалами по темам Data Science на Medium.

Ссылки :

[Стивен М. Холланд, Univ. Грузии]: Анализ основных компонентов
[skymind.ai]: собственные векторы, собственные значения, PCA, ковариация и энтропия
[Линдси И.Смит]: Учебное пособие по анализу главных компонентов

СвязанныеПодробнее о Data Science

Каковы плюсы и минусы PCA?

Каковы плюсы и минусы СПС?

Преимущества анализа главных компонентов

1. Удаляет коррелированные признаки:

В реальном сценарии очень часто в наборе данных вы получаете тысячи функций. Вы не можете запустить свой алгоритм для всех функций, так как это снизит производительность вашего алгоритма, и будет нелегко визуализировать эти многие функции на любом виде графика.Таким образом, вы ДОЛЖНЫ уменьшить количество функций в вашем наборе данных.

Вам необходимо выяснить корреляцию между функциями (коррелированными переменными). Найти корреляцию вручную в тысячах функций практически невозможно, утомительно и отнимает много времени. PCA сделает это за вас эффективно.

После реализации PCA в наборе данных все основные компоненты не зависят друг от друга. Между ними нет корреляции.

2. Повышает производительность алгоритма:

При таком большом количестве функций производительность вашего алгоритма резко ухудшится.PCA — очень распространенный способ ускорить алгоритм машинного обучения за счет избавления от коррелированных переменных, которые не влияют на принятие каких-либо решений. Время обучения алгоритмов значительно сокращается с меньшим количеством функций.

Итак, если входные размеры слишком велики, то использование PCA для ускорения алгоритма является разумным выбором.

3. Уменьшает переобучение:

Переобучение обычно происходит, когда в наборе данных слишком много переменных.Таким образом, PCA помогает преодолеть проблему переобучения за счет уменьшения количества функций.

4. Улучшает визуализацию:

Очень сложно визуализировать и понять данные в больших измерениях. PCA преобразует данные большой размерности в данные низкой размерности (2 измерения), чтобы их можно было легко визуализировать.

Мы можем использовать 2D-график, чтобы увидеть, какие основные компоненты приводят к высокой дисперсии и имеют большее влияние по сравнению с другими основными компонентами.

Даже простейший набор данных IRIS является четырехмерным, что трудно визуализировать. Мы можем использовать PCA, чтобы уменьшить его до двухмерного изображения для лучшей визуализации.

Недостатки анализа главных компонентов

1. Независимые переменные становятся менее интерпретируемыми:

После реализации PCA в наборе данных ваши исходные функции превратятся в основные компоненты. Основные компоненты — это линейная комбинация ваших исходных характеристик. Основные компоненты не так удобочитаемы и интерпретируемы, как оригинальные функции.

2. Перед PCA необходима стандартизация данных:

Вы должны стандартизировать свои данные перед внедрением PCA, иначе PCA не сможет найти оптимальные основные компоненты.

Например, если набор функций содержит данные, выраженные в килограммах, световых годах или миллионах, масштаб дисперсии в обучающем наборе огромен. Если PCA применяется к такому набору функций, результирующие нагрузки для функций с высокой дисперсией также будут большими. Следовательно, основные компоненты будут смещены в сторону характеристик с высокой дисперсией, что приведет к ложным результатам.

Кроме того, для стандартизации все категориальные признаки необходимо преобразовать в числовые, прежде чем можно будет применить PCA.

PCA зависит от масштаба, поэтому вам необходимо масштабировать функции в ваших данных перед применением PCA. Используйте StandardScaler от Scikit Learn для стандартизации функций набора данных в единичном масштабе (среднее значение = 0 и стандартное отклонение = 1), что является требованием для оптимальной производительности многих алгоритмов машинного обучения.

3. Потеря информации:

Хотя основные компоненты пытаются покрыть максимальное расхождение между функциями в наборе данных, если мы не выберем количество основных компонентов с осторожностью, он может упустить некоторую информацию по сравнению с исходным. список возможностей.

Все, что вы знали и не знали о PCA · Его нейронные

27 марта 2016 г.

Содержание

Введение

Многие ученые знакомы с организацией и обработкой данных в 2D-таблицах. Например, мы можем записать уровень экспрессии мРНК $ p $ генов в $ n $ образцах тканей. Мы могли бы хранить эти данные в матрице $ n \ times p $, где каждая строка соответствует выборке, а каждый столбец соответствует гену. Анализ основных компонентов (PCA) — это стандартный способ уменьшить размерность $ p $ (которая может быть довольно большой) до чего-то более управляемого.

Хотя биологи довольно часто применяют PCA к своим данным, они реже понимают механику и предположения, подразумеваемые в этом анализе. Открытие черного ящика для статистической техники само по себе стоит того, но настоящая причина, по которой я мотивирован написать это, — это количество действительно крутых и суперполезных расширений / вариантов PCA (например, неотрицательная матричная факторизация, Sparse PCA, Tensor Decompositions), который будет иметь все большее влияние на современную нейробиологию и биологию. Я хочу рассказать о методах этого аромата в следующих нескольких публикациях.

Если вы совершенно не знакомы с PCA, в Интернете есть несколько замечательных объяснений, на которые вы должны ссылаться одновременно с чтением этого сообщения. Хотя эти материалы довольно хороши, многие из них не объясняют PCA таким образом, который, естественно, поддается более сложным (но интересным и полезным!) Расширениям.

Я стремился быть максимально педагогическим в этом посте, но вам нужно будет немного познакомиться с линейной алгеброй, чтобы продолжить.Вам не нужно знать, что такое собственное значение (хотя это поможет вам глубже понять определенные результаты), но необходимы базовые матричные операции. Кроме того, научитесь, что такое собственное значение, это хорошо для вас.

Если вы думаете, что уже являетесь специалистом по PCA и не заботитесь о фоновых материалах, вы можете пропустить некоторые вещи, которые вы, возможно, не знали о PCA, или просто прочтите tl; dr.

Обозначение

Заглавные буквы жирным шрифтом = матрицы (например, $ \ mathbf {X} $)
Полужирные строчные буквы = векторы-столбцы (например,T $)
Индексы = позиция элемента (например, $ x_ {ij} $ — это скаляр в строке $ i $ столбец $ j $ матрицы $ \ mathbf {X} $)

На всем протяжении мы предполагаем, что у нас есть матрица данных $ \ mathbf {X} $ с размерностями $ I \ times J $, где $ I $ — количество наблюдений, а $ J $ — количество функций, которые измерены и связаны с каждым наблюдением. Например, мы могли бы записать $ I $ нейронов и оценить их частоту срабатывания в $ J $ временных точках; или мы можем измерить экспрессию генов $ J $ в клетках $ I $.

Мы индексируем в $ \ mathbf {X} $, используя переменную индекса в нижнем регистре, то есть $ x_ {ij} $, где $ i $ и $ j $ соответственно находятся в диапазоне от $ 1 $ до $ I $ и от $ 1 $ до $ J $.

Все, что вы знали (или делаете сейчас)

PCA пытается найти «компоненты», улавливающие максимальную дисперсию данных. Для трехмерных данных это базовое изображение, с которым вы могли столкнуться:

Классический вид PCA. Каждая синяя точка соответствует наблюдению (строка $ \ mathbf {X} $).Есть $ n = 20 $ наблюдений, каждое с $ p = 3 $ характеристиками. На этой схеме PCX уменьшает размерность с трех до $ r = 2 $. В частности, он находит пару ортогональных векторов (красные стрелки), которые определяют пространство меньшей размерности (серая плоскость), которое захватывает как можно больше отклонений от исходного набора данных.

Теперь давайте выразим эту картину математически. Предположим, что из каждого столбца $ \ mathbf {X} $ было вычтено среднее, так что точки данных центрированы вокруг начала координат.T \ mathbf {X} $ (ковариационная матрица с размерностями $ p \ times p $) и установите $ \ mathbf {c} $ на собственный вектор, связанный с наибольшим собственным значением. ^[2] Это более или менее то, что происходит под капотом, когда вы вызываете pca () в MATLAB или python — собственное разложение ковариационной матрицы вычисляется с помощью разложения по сингулярным значениям (SVD). Оказывается, этот подход не работает для тензоров, матриц с неполными данными или многих других интересных случаев.

Предположим, что мы решаем задачу оптимизации (1) каким-либо методом.T \ mathbf {X} $ и ранжирование их по собственным значениям. Это можно визуализировать с помощью осыпной диаграммы , которая отображает дисперсию, объясняемую каждым последующим главным компонентом. Люди, возможно, посоветовали вам найти «изгиб» или точку перегиба на графике осыпи, чтобы определить количество компонентов, которые необходимо сохранить (остальные — это шум). Спойлер: , вы можете сделать лучше, чем это, и мы увидим, как это сделать, в конце публикации.

Участок осыпи. Основные компоненты ранжируются по величине дисперсии, которую они фиксируют в исходном наборе данных, диаграмма осыпи может дать некоторое представление о том, сколько компонентов необходимо.

Мы можем организовать верхние $ r $ главных компонентов в матрицу $ C = [\ mathbf {c} _1, \ mathbf {c} _2,…, \ mathbf {c} _r] $ и веса загрузки в $ W = [\ mathbf {w} _1, \ mathbf {w} _2,…, \ mathbf {w} _r] $. Т \]

Пример реконструкции данных с 3 главными компонентами.г W_ {ik} C_ {jk} \]

Альтернативная задача оптимизации

Как обсуждалось выше, классическая перспектива состоит в том, что PCA находит набор направлений (технически, линейное подпространство), который максимизирует дисперсию данных после их проецирования в это пространство. Оказывается, это эквивалентно поиску линейного подпространства, которое минимизирует расстояние проекции по методу наименьших квадратов. ^[3]

Два эквивалентных представления анализа главных компонент.2_2 $. Применение теоремы Пифагора показывает, что эта общая дисперсия равна сумме потерянной дисперсии (квадрат остатка) и оставшейся дисперсии. Таким образом, поиск основных компонентов эквивалентен максимальному увеличению оставшейся дисперсии или минимизации потерянной дисперсии. На рисунке ниже это показано для двух измерений:

Максимизация дисперсии в пространстве главных компонентов эквивалентна минимизации ошибки восстановления методом наименьших квадратов. Рассмотрим точку данных $ \ mathbf {a} _i $ (строка $ i $ матрицы данных $ \ mathbf {X} $). Предполагая, что данные центрированы по среднему, проекция $ \ mathbf {a} _i $ на главные компоненты связывает оставшуюся дисперсию с квадратом невязки по теореме Пифагора. Выбор компонентов для максимизации дисперсии аналогичен их выбору для минимизации квадратов остатков.

Обобщения PCA: разреженные признаки, функции потерь

Рассмотрение PCA как минимизации ошибки реконструкции полезно, потому что оно позволяет установить связь со статистической регрессией.^[5] Простая линейная регрессия методом наименьших квадратов была расширена и адаптирована к широкому кругу статистических задач ( см. GLMs ), и мы можем использовать эту исследовательскую структуру и перспективу для разработки более специализированных версий PCA. Эта общая структура была разработана в ряде статей (Collins, 2001; Gordon, 2004; Udell, 2015). Ниже представлен вихревой тур:

Мы начнем с квадратично регуляризованного PCA , который похож на регрессию гребня. 2 \\ \ end {выровнен} \ конец {уравнение} \]

Тезис Мадлен Уделл показывает, что ответ на эту проблему очень похож на классический PCA и может быть решен аналитически с помощью разложения по сингулярным числам (SVD).

Интересно, что остальные варианты PCA, перечисленные в этом посте, не могут быть решены аналитически. Фактически, PCA и квадратично-регуляризованный PCA — это довольно частных случаев невыпуклых задач оптимизации, которые мы можем решить ровно . На практике мы все еще можем подогнать остальные модели, используя стандартные методы, такие как градиентный спуск.{(n + 1)} $ константа.
6 $ n \ leftarrow n + 1 $
7 конец, а

Опять же, идея здесь в том, что подзадачи (4) и (5) легко оптимизировать, поскольку они выпуклые. Нет необходимости сводить к минимуму подзадачи до завершения, на самом деле может работать лучше, если просто предпринять чередующиеся шаги градиента для каждой подзадачи.

Sparse PCA. p \ lVert \ mathbf {c} _j \ lVert_1 \\ \ end {выровнен} \ конец {уравнение} \]

Эта задача аналогична LASSO и эластичной чистой регрессии.Как правило, этот выбор штрафа / регуляризации приводит к тому, что лучшие $ W $ и $ C $ становятся разреженными (т.е. имеют много нулевых записей). Это может быть полезно для интерпретации. Например, если у нас есть набор данных по экспрессии генов, мы можем захотеть ограничить себя так, чтобы каждый компонент — столбец $ C $ — содержал только несколько генов, а не большую комбинацию всех генов (которая может быть довольно большой). . Это показано на рисунке ниже от D’Aspremont et al. (2007):

Sparse PCA дает результаты, аналогичные PCA, но с более простыми и более интерпретируемыми компонентами. Для большого количества образцов было измерено 500 генов. Факторы $ f_1 $, $ f_2 $, $ f_3 $, полученные с помощью традиционного PCA, каждый использует все 500 генов ( осталось ). Редкие факторы $ g_1 $, $ g_2 $ и $ g_3 $ справа вместе включают только 14 генов, которые могут быть полезны для разработки экономных гипотез и будущих экспериментов. 2 \\ & \ text {при условии} & & W_ {ik} \ geq 0, ~ C_ {jk} \ geq 0 \ end {выровнен} \ конец {уравнение} \]

Обычно это имеет смысл только тогда, когда ваши данные также неотрицательны, $ x_ {ij} \ geq 0 $, поскольку восстановленная оценка для каждой точки данных явно неотрицательна, когда и $ W $, и $ C $ неотрицательны.Подобно разреженному PCA, NMF может привести к более интерпретируемому снижению размерности, поскольку он вынуждает только аддитивные, а не вычитающие комбинации компонентов. (PCA восстанавливает набор данных с помощью как аддитивных, так и вычитающих комбинаций компонентов.) NMF является центральной частью конвейера анализа изображений кальция, недавно опубликованного группой Лиама Панински (Pnevmatikakis et al., 2016).

Логистический PCA. Мы также можем заменить квадрат ошибки другими функциями потерь. Например, предположим, что вы секвенируете геномы $ n $ пациентов и проверяете $ p $ нуклеотидные сайты на наличие мутаций ($ x_ {ij} = 1 $, если у пациента $ i $ есть мутация в сайте $ j $, и $ x_ {ij } = -1 $, если мутации нет). T_i \ mathbf {c} _j $ может быть намного больше или меньше этих границ. Чтобы получить более подробное объяснение, прочитайте, когда и почему использовать логистическую регрессию вместо линейной регрессии — рассуждения в точности аналогичны. Также информативно сравнить классический PCA с логистическим на смоделированных двоичных данных, как показано на графике ниже:

Logistic PCA может превзойти классический PCA по двоичным данным. См. Здесь код Джулии, чтобы воспроизвести этот рисунок.

Есть много других вариантов, которые вы можете придумать, каждая из которых адаптирована к разным типам данных и характеристикам:

Надежный PCA. Если у вас есть выбросы в наборе данных, используйте сумму абсолютных значений остатков (потери L1) или функцию потерь Хубера (Kwak, 2008). Есть несколько альтернативных формулировок надежного PCA, см., Например, Candes et al. (2009) и Netrapalli et al. (2014).

Пуассоновский PCA и PCA для порядковых данных. См. Rennie & Srebro (2005) для обсуждения подходящих функций потерь.

Уменьшение размерности без завышения нуля. Некоторые наборы данных, например из одноклеточной RNAseq, содержат больше нулевых записей, чем можно было бы ожидать в рамках модели пуассоновского шума. Это может происходить из-за технической изменчивости — мРНК хрупка, а гены с низкой экспрессией имеют меньше исходного материала, что приводит к «выпадению» генов с низкой экспрессией до нуля. Пирсон и Яу (2015) разрабатывают модель для учета этого аромата шума, и их работа может быть отображена на платформе оптимизации, описанной в этом посте.T $, чтобы их продукт воссоздал данные как можно лучше.

Задача оптимизации двояковыпуклая (если члены или ограничения регуляризации не являются выпуклыми), предлагая альтернативную минимизацию как разумную процедуру оптимизации.

В следующем посте мы увидим, что эта базовая процедура довольно хорошо распространяется на другие структуры данных. Например, иногда наши данные более естественно представлены в трехмерном массиве (т. Е. Тензор ), а не в матрице.В этом случае мы можем применить аналогичные схемы оптимизации, чтобы уменьшить размерность данных.

Некоторые сведения о PCA

, о которых вы, возможно, не знали

PCA перекрывает шум, если $ p> n $ (т.е. это несовместимая оценка подпространства максимальной дисперсии).

При решении линейных систем уравнений количество уравнений должно быть больше, чем количество неизвестных переменных. В линейной регрессии это означает, что нам нужно больше наблюдений, чем неизвестных переменных ($ n> p $).Мы видели, что PCA тесно связана с регрессией, поэтому неудивительно, что PCA сталкивается с проблемами, когда $ p> n $. Интуитивно понятно, что с каждым измерением / функцией связан некоторый шум, и нам нужно больше наблюдений, чем параметров, чтобы надежно отделить сигнал от шума.

Один из способов потенциально обойти эту проблему — использовать разреженный PCA (Johnston & Lu, 2009), хотя при этом предполагается, что ваш набор данных хорошо представлен на разреженной основе. Более того, не следует слепо предполагать, что регуляризация L1 приведет к правильному шаблону разреженности (Su et al., 2015; Адвани и Гангули, 2016).

Существует очень хорошая и простая процедура определения количества основных компонентов, которые необходимо сохранить.

Основная цель PCA — использовать как можно меньше компонентов, чтобы уменьшить размерность данных, с которыми мы работаем, . Таким образом, нас часто интересует усечение PCA — оставьте только верхние $ k $ компоненты и выбросьте остальные. Для этого есть как минимум две причины:

Усечение дает нам представление о сложности набора данных.Если два верхних основных компонента улавливают большую часть дисперсии, то набор данных является более или менее двумерным. ^[6]
Усечение снижает уровень шума в данных. Здесь снова оказывается полезной концептуальная связь PCA с регрессией — PCA аналогична подгонке гладкой кривой через зашумленные данные. Похожая интуиция дается на рисунке 2 в этом сообщении в блоге, в котором приближение ранга 1 дает гладкое, менее шумное представление данных.

Тогда возникает вопрос: как выбрать место для усечения? Раньше это был один из тех классических вопросов, на который не давали удовлетворительного ответа … В общем, посмотрите на него.

Gavish & Donoho (2014) представляют давно назревший результат по этой проблеме, и их ответ на удивление прост и конкретен. По сути, оптимальная процедура ^[7] сводится к оценке шума в наборе данных, $ \ sigma $, а затем отбрасыванию всех компонентов, сингулярные значения которых ниже заданного порога. Для квадратной матрицы размером $ n \ times n $ этот порог равен:

\ [\ lambda = \ frac {4 \ sigma \ sqrt {n}} {\ sqrt {3}} \]

Существует аналогичный порог для неквадратных наборов данных, описанный в документе.Как и любое теоретическое исследование, результат сопровождается несколькими предположениями и оговорками, ^[8], но их работа кажется надежной и полезной на практике.

Редактировать: Спасибо Джонатану Пиллоу за указание на байесовскую альтернативу, изложенную здесь: Minka (2000). Автоматический выбор размерности для PCA

PCA становится нетривиальным решением, когда отсутствуют записи данных

Поразмыслив над этими темами, я обнаружил невероятное, что PCA вообще работает.Во-первых, это особенный случай, когда вы можете доказуемо и аналитически решить задачу невыпуклой оптимизации.

Специфика PCA ломается даже при довольно умеренных возмущениях. Илин и Райко (2010) обсуждают прекрасную иллюстрацию этого момента. Рассмотрим случай, когда некоторое подмножество записей данных не наблюдается. $ X_ {ij} = \ text {NA} $. Даже если сохранить обычную целевую функцию PCA, возникает ряд проблем:

Аналитического решения нет, потому что ковариационная матрица данных нетривиальна для оценки
Целевая функция содержит локальные минимумы (в отличие от классического PCA, где есть только седловые точки и один глобальный минимум). Таким образом, трудно подтвердить, что результат вашей задачи оптимизации является истинным решением проблемы.
Нет аналитического решения даже для члена смещения, в отличие от классического PCA, где смещение равно среднему столбцу матрицы данных.

Последний особенно раздражает. Кажется настолько естественным центрировать данные в центре, что легко забыть о том, что это не всегда оправдано. Задача оценки недостающих записей данных известна как завершение матрицы и является важной проблемой в сообществе машинного обучения (см. Netflix Prize , Candes & Recht, 2008).Попеременная минимизация — распространенный подход к решению этих проблем (например, Jain et al., 2013).

TL; DR

PCA находит низкоразмерные проекции, которые максимально сохраняют дисперсию в данных
Это эквивалентно поиску проекции, которая минимизирует расстояние проецирования по методу наименьших квадратов
Эта вторая формулировка аналогична регрессии методом наименьших квадратов. Такой подход к PCA помогает, потому что действительно умные статистики потратили десятилетия на описание, обобщение и робастизацию регрессии.Естественные расширения PCA в этой структуре включают:
PCA — это не всегда просто:
- Когда количество реплик / выборок меньше, чем измеренных характеристик / переменных ($ p> n $), PCA является несовместимым оценщиком. Вам нужно как-то урегулировать проблему.
- При отсутствии записей данных PCA оказывается NP-трудным.
Как выбрать количество основных компонентов, которые нужно оставить?
- Это не так сложно, как вы думаете.T $, где $ \ mathbf {\ Lambda} $ — это просто диагональная матрица собственных значений, которые представляют собой просто квадраты сингулярных значений в $ \ mathbf {S} $. Таким образом, выполнение SVD на необработанных данных напрямую дает вам собственное разложение ковариационной матрицы.
  Числовой пример анализа главных компонентов
  Уменьшение размеров —
  В распознавании образов уменьшение размеров определяется как
  - Это процесс преобразования набора данных с большими размерами в набор данных с меньшими размерами.
  - Это гарантирует, что преобразованный набор данных кратко передает аналогичную информацию.
  Пример —
  Рассмотрим следующий пример —
  - На следующем графике показаны два измерения x1 и x2.
  - x1 представляет собой измерение нескольких объектов в сантиметрах.
  - x2 представляет собой измерение нескольких объектов в дюймах.
  В машинном обучении
  - Использование обоих этих измерений дает схожую информацию.
  - Кроме того, они создают много шума в системе.
  - Итак, лучше использовать только одно измерение.
  Использование методов уменьшения размеров —
  - Мы конвертируем размеры данных из двух измерений (x1 и x2) в одно измерение (z1).
  - Это упрощает объяснение данных.
  - Это сокращает время, необходимое для вычислений, поскольку меньшие размеры требуют меньших вычислений.
  - Устраняет избыточные функции.
  - Улучшает характеристики модели.
  Методы уменьшения размеров —
  Два популярных и хорошо известных метода уменьшения размеров —
  1. Анализ главных компонентов (PCA)
  2. Линейный анализ Фишера )
  В этой статье мы обсудим анализ главных компонентов.
  Анализ главных компонентов —
  - Анализ главных компонентов — хорошо известный метод уменьшения размерности.
  - Преобразует переменные в новый набор переменных, называемых главными компонентами.
  - Эти главные компоненты представляют собой линейную комбинацию исходных переменных и ортогональны.
  - Первый главный компонент составляет большую часть возможных вариаций исходных данных.
  - Второй главный компонент делает все возможное, чтобы уловить дисперсию данных.
  - В двумерном наборе данных может быть только два основных компонента.
  Алгоритм PCA —
  В алгоритм PCA включены следующие шаги:
  Шаг 01: Получить данные.
  Шаг 02: Вычислить средний вектор (µ).
  Step-03: Вычтите среднее значение из данных.
  Step-04: Вычислить ковариационную матрицу.
  Step-05: Вычислить собственные векторы и собственные значения ковариационной матрицы.
  Step-06: Выбор компонентов и формирование вектора признаков.
  Step-07: Получение нового набора данных.
  ПРОБЛЕМЫ ПРАКТИКИ НА ОСНОВЕ ОСНОВНОГО АНАЛИЗА КОМПОНЕНТОВ —
  Задача-01:
  Приведенные данные = {2, 3, 4, 5, 6, 7; 1, 5, 3, 6, 7, 8}.
  Вычислить главный компонент, используя алгоритм PCA.
  OR
  Рассмотрим двухмерные шаблоны (2, 1), (3, 5), (4, 3), (5, 6), (6, 7), (7, 8) ).
  Вычислить главный компонент, используя алгоритм PCA.
  OR
  Вычислить главный компонент следующих данных —
  КЛАСС 1
  X = 2, 3, 4
  Y = 1, 5, 3
  КЛАСС 2
  X = 5 , 6, 7
  Y = 6, 7, 8
  Решение —
  Мы используем описанный выше алгоритм PCA —
  Шаг 01:
  Получить данные.
  Данными векторами признаков являются:
  - x ₁ = (2, 1)
  - x ₂ = (3, 5)
  - x ₃ = (4, 3)
  - x ₄ = (5, 6)
  - x ₅ = (6, 7)
  - x ₆ = (7, 8)
  Шаг-02:
  Вычислите средний вектор (µ).
  Средний вектор (µ)
  = ((2 + 3 + 4 + 5 + 6 + 7) / 6, (1 + 5 + 3 + 6 + 7 + 8) / 6)
  = (4 .5, 5)
  Таким образом,
  Step-03:
  Вычтите средний вектор (µ) из заданных векторов признаков.
  - x ₁ — µ = (2 — 4,5, 1 — 5) = (-2,5, -4)
  - x ₂ — µ = (3 — 4,5, 5 — 5) = (-1,5, 0)
  - x ₃ — µ = (4 — 4,5, 3 — 5) = (-0,5, -2)
  - x ₄ — µ = (5 — 4,5, 6 — 5) = (0,5, 1)
  - x ₅ — µ = (6 — 4.5, 7 — 5) = (1.5, 2)
  - x ₆ — µ = (7 — 4.5, 8 — 5) = (2.5, 3)
  Векторы признаков (x _i) после вектор вычитания среднего (µ):
  Шаг 04:
  Вычислить ковариационную матрицу.
  Матрица ковариации —
  Now,
  Now,
  Матрица ковариации
  = (m _{1 911 245 + m + m ₄ + m ₅ + m ₆) / 6}
  При сложении вышеуказанных матриц и делении на 6 получаем-
  Step-05:
  Вычислить собственные значения и собственные векторы ковариационной матрицы.
  λ — собственное значение матрицы M, если оно является решением характеристического уравнения | M — λI | = 0.
  Итак, имеем —
  Отсюда
  (2,92 — λ) (5,67 — λ) — (3,67 x 3,67) = 0
  16,56 — 2,92λ — 5,67λ + λ ² — 13,47 = 0
  λ ² — 8,59 λ + 3,09 = 0
  Решая это квадратное уравнение, мы получаем λ = 8,22, 0,38
  Таким образом, два собственных значения равны λ ₁ = 8.22 и λ ₂ = 0,38.
  Очевидно, что второе собственное значение очень мало по сравнению с первым собственным значением.
  Итак, второй собственный вектор можно не учитывать.
  Собственный вектор, соответствующий наибольшему собственному значению, является главным компонентом для данного набора данных.
  Итак. находим собственный вектор, соответствующий собственному значению λ ₁.
  Мы используем следующее уравнение, чтобы найти собственный вектор —
  MX = λX
  , где —
  - M = Ковариационная матрица
  - X = Собственный вектор
  - λ = Собственное значение
  Подставляем
  значений в приведенном выше уравнении, мы получаем —
  Решая их, мы получаем —
  2. 92X ₁ + 3,67X ₂ = 8,22X ₁
  3,67X ₁ + 5,67X ₂ = 8,22X ₂
  При упрощении получаем —19442 5,3X 1 = 3,67X ₂ ……… (1)
  3,67X ₁ = 2,55X ₂ ……… (2)
  Из (1) и (2), X ₁ = 0,69X ₂
  Из (2) собственный вектор —
  Таким образом, главный компонент для данного набора данных —
  Наконец, спроецируйте точки данных на новое подпространство как
  Проблема-02:
  Используйте алгоритм PCA для преобразования шаблона (2, 1) в собственный вектор в предыдущем вопросе.
  Решение —
  Данный вектор признаков равен (2, 1).
  Вектор признаков преобразуется в
  = Транспонирование собственного вектора x (Вектор признаков — средний вектор)
  Чтобы лучше понять анализ главных компонентов,
  Посмотрите это видео Лекция
  Получите больше заметок и других учебных материалов по Pattern Recognition .
  Смотрите видеолекции на нашем канале YouTube LearnVidFun .
  Проблемы безопасности с PCA Часть I — Как возникают ошибки
  Обезболивание, контролируемое пациентом (PCA), имеет значительный потенциал для улучшения лечения боли у пациентов, позволяя им самостоятельно вводить более частые, но меньшие дозы анальгезии. При использовании по назначению PCA фактически снижает риск чрезмерной седации, что является непреднамеренным следствием более традиционного метода обезболивания, проводимого медсестрой, в больших и менее частых дозах.Фактически, с помощью PCA пациенты часто развивают синергизм с устройством и могут быстро научиться справляться со своей болью, избегая при этом чрезмерного умственного помутнения. Тем не менее, благодаря программе отчетов об ошибках лекарств USP-ISMP, программе USP MEDMARX и значительному ответу, который мы получили от читателей, отвечавших на наш призыв предоставить информацию о проблемах PCA, становится ясно, что ошибки случаются часто, иногда с трагическими последствиями.
  Буквально на прошлой неделе мы встретились с сотрудниками Центра устройств и радиологического здоровья FDA (CDRH), чтобы обсудить ошибки в лечении, связанные с PCA.На встрече мы представили подробную информацию о следующих факторах, которые часто способствовали возникновению проблемы.
  PCA по доверенности . У PCA есть несколько функций безопасности, чтобы гарантировать, что пациенты не получат слишком много анальгезии. К ним относятся интервал блокировки, который определяет минимальное время между каждой дозой и максимально допустимое количество в течение 1- или 4-часовых интервалов. Еще одна «встроенная» функция безопасности, о которой часто забывают, — это то, что устройство предназначено для использования пациентами .Пациент, находящийся под седативным действием, не будет нажимать кнопку для введения большего количества опиатов, что позволяет избежать токсичности. Однако члены семьи и медицинские работники вводили дозы для пациента по доверенности, надеясь, что они будут чувствовать себя комфортно. Эти благие намерения привели к чрезмерной седации, угнетению дыхания и даже смерти.
  Неправильный выбор пациента . Поскольку важная функция безопасности с PCA заключается в том, что пациент вводит каждую дозу, кандидаты на PCA должны обладать умственной активностью, а также когнитивными, физическими и психологическими способностями управлять собственной болью.Однако преимущества PCA привели к тому, что провайдеры расширили его использование на менее чем идеальных кандидатов, таких как младенцы, маленькие дети и сбитые с толку пожилые пациенты. Это облегчило опасную практику PCA по доверенности. Использование PCA у этих типов пациентов также вызвало этические дебаты о возможности недостаточного лечения, вызванного плохо скоординированными усилиями членов семьи (которые не находятся постоянно у постели больного) и врачей, а также неспособностью этих пациентов четко сообщить об уровне боли. .Кроме того, чрезмерная седация наблюдалась у менее чем идеальных кандидатов с риском угнетения дыхания из-за сопутствующих состояний, таких как ожирение, астма, апноэ во сне или одновременного приема препаратов, усиливающих действие опиатов.
  Недостаточный мониторинг . Даже в терапевтических дозах опиаты могут подавлять дыхание, частоту сердечных сокращений и артериальное давление. Таким образом, медсестры или другие лица, осуществляющие уход, обычно через частые промежутки времени наблюдают за пациентами, пока они используют АКП. Однако эти действия по мониторингу могут не предупреждать лиц, осуществляющих уход, о токсичности опиатов.Во-первых, пациенты могут не наблюдаться достаточно часто, особенно в течение первых 24 часов и ночью, когда может возникнуть ночная гипоксия. Но чаще всего корень проблемы может быть в том, как опекуны оценивают пациентов. Пациентов, страдающих угнетением дыхания или чрезмерной седацией, вызванным опиатами, можно легко стимулировать к более высокому уровню сознания и увеличению частоты дыхания. Таким образом, если пациентов беспокоят для проведения оценки, наблюдаемый уровень сознания и частота дыхания не помогают при обнаружении токсичности.Как только стимул устранен, пациенты быстро впадают в состояние чрезмерной седации. Также слишком много полагаются на показания пульсоксиметрии, которые могут дать ложное ощущение безопасности, поскольку насыщение кислородом обычно сохраняется даже при низкой частоте дыхания, особенно если есть дополнительный кислород.
  Неадекватное образование пациентов. Большинство пациентов, которые являются подходящими кандидатами для PCA, могут быть обучены успешному использованию устройства. Однако пациенты, которых научили пользоваться устройством в ближайшем послеоперационном периоде, часто были слишком слабыми, чтобы полностью понять его использование, и часто сообщали о плохом контроле боли в течение первых 12 часов после операции.Бдительные, умные пациенты также неправильно поняли инструкции по применению, чаще всего полагая, что они должны нажимать кнопку каждые 6 минут или около того, даже когда они хотят спать и чувствовать себя комфортно. Иногда члены семьи будили пациентов, чтобы они могли часто нажимать кнопку, или они могут нажимать кнопку для пациента, если они не были предупреждены, чтобы избежать PCA по доверенности.
  Смешивание лекарственных препаратов. Некоторые из опиатов, используемых для PCA, имеют похожие названия и упаковку, что приводит к ошибкам при выборе лекарств.Предварительно заполненные шприцы меперидина и морфина были упакованы в коробки аналогичного вида. Морфин доступен в предварительно заполненных шприцах в двух концентрациях, но упаковка может не помочь быстро дифференцировать дозу. Различия между опиатами с консервантами и без них не различаются на этикетках. Все этикетки, наклеенные в аптеке, могут выглядеть так же, как на шприцах или пакетах, приготовленных для немедленного изготовления. Сходство названий также привело к непреднамеренному смешиванию морфина и гидроморфона или ошибочному мнению, что гидроморфон является родовым названием морфина.Поскольку опиаты обычно есть в единичных запасах, эти ошибки выявляются редко и чаще всего приводят к значительным передозировкам; реже они приводят к недостаточному лечению боли или к аллергической реакции на лекарство.
  Проблемы, связанные с практикой. Ошибочное программирование насоса PCA, безусловно, является наиболее часто встречающейся проблемой, связанной с практикой. Проблемы конструкции насоса, которые привели к ошибкам программирования, описаны в следующем разделе. Другие связанные с практикой проблемы, которые способствовали ошибкам PCA, включают неправильную транскрипцию рецептов в аптечные компьютеры или записи об администрировании лекарств (часто связанные с похожими названиями продуктов), ошибки в расчетах при определении дозы или скорости инфузии для пациента и ошибки внутривенной смеси. .Отсутствие гидроморфона в предварительно заполненных шприцах или предварительно приготовленных пакетах требует внутривенного введения этого опиата. Нехватка лекарств, особенно фентанила, также потребовала использования менее знакомых продуктов, таких как суфентанил, что привело к серьезным ошибкам дозирования.
  Недостатки конструкции устройства. Программирование насоса PCA требует нескольких шагов, но конструкция насоса часто далека от интуитивно понятного. Фактически, две модели устройств (Abbott Lifecare PCA II и APM Infusers) в течение многих лет находились под пристальным вниманием из-за частых ошибок программирования, многие из которых привели к смерти пациентов.Большинство этих программных ошибок возникло из-за того, что настройки концентрации для опиатов, таких как морфин, по умолчанию равны 0,1 мг / мл или 1 мг / мл, но доступна и используется более высокая концентрация. К другим недостаткам конструкции, которые способствовали ошибкам программирования, относятся насосы, которые не требуют от пользователей проверять все настройки перед началом инфузии, и насосы, которые требуют, чтобы пользователи программировали дозу в миллилитрах, а не в миллиграммах, что заставляет операторов упускать из виду количество лекарства, которое принимает пациент. фактически получаю. Сообщалось также о сифонировании (свободном потоке) после попадания воздуха в систему из-за разбитого стеклянного шприца.Это также может произойти, когда кассета сломается и отсоединится от насоса CADD, у которого нет прикрепленной антисифонной трубки. Механические проблемы, такие как короткое замыкание, возможны, но довольно редки.
  Другие конструктивные недостатки связаны с использованием помпы пациентом и являются общими для многих насосов PCA, представленных в настоящее время на рынке. Во-первых, кнопка активации выглядит так же, как звонок медсестры, поэтому пациенты непреднамеренно дали себе дозу анальгетика, полагая, что нажимали кнопку, чтобы вызвать медсестру.Другая проблема заключается в том, что с установленными интервалами блокировки, если помпа не обеспечивает визуальную или слуховую обратную связь, пациенты не могут определить, привело ли нажатие кнопки к фактической доставке лекарства. В результате некоторые пациенты нажимают кнопку чаще, чем при должной обратной связи, а другие разочаровываются и сдаются, что приводит к недостаточному лечению боли. Хотя производители насосов обязаны проводить испытания на человеческий фактор, это положение строго соблюдается, и эти типы конструктивных проблем не могут быть выявлены заранее, поскольку практикующие врачи и пациенты не принимают непосредственного участия в процедурах испытаний.
  Недостаточная подготовка персонала. Для ввода рецепта PCA в помпу необходимо выполнить ряд шагов. Однако медсестры не всегда могут получать адекватную подготовку по программированию помп или они могут не сохранять свои навыки после обучения, если используется несколько помп или если PCA встречается нечасто. Кроме того, лица, выписывающие рецепты, не могут проходить процедуру аттестации, предназначенную для проверки их владения этой формой обезболивания. Это привело к ошибкам в рецептах, включая неправильные лекарства или дозы.
  Ошибки предписания. Сам заказ PCA может быть источником ошибки. Врачи допустили ошибки при переводе пероральной дозы опиатов на внутривенный (наиболее проблематичным является гидроморфон, у которого диапазон конверсии перорального препарата в внутривенный составляет от 3: 1 до 5: 1). Они прописали лекарство, на которое у пациента аллергия, и выбрали опиат, который ему не подходит (меперидин для пациентов с почечной недостаточностью). Иногда прописывали один опиат, но сопутствующая доза подходила для другого опиата.Известно, что даже при правильных предписаниях PCA клиницисты неправильно слышали или неправильно читали устные или письменные распоряжения, что иногда приводило к серьезным ошибкам. Одновременное назначение других опиатов (пероральных или парентеральных) во время использования PCA также привело к токсичности опиатов. На данный момент ни один из насосов PCA не имеет функций безопасности, доступных в новых «умных насосах» общего назначения, которые предупреждают о превышении максимальной дозы или скорости потока.
  Еще раз благодарим наших читателей за отзывы об ошибках PCA.Предоставленная информация позволила нам поделиться содержательными примерами, описывающими, как происходили ошибки PCA. В части II нашего следующего информационного бюллетеня мы расскажем о стратегиях уменьшения количества ошибок, которые были переданы FDA, которые включают сбалансированный подход к практическим, системным, продуктам, устройствам и нормативным требованиям. Пришло время работать вместе, чтобы снизить риски, связанные с этой замечательной технологией.
  Недостатки PCA и способы их устранения | Мехул Гупта | Наука о данных в вашем кармане
  Погружение в инкрементный, случайный, ядерный и разреженный PCA
  Если вы какое-то время занимались наукой о данных, вы, должно быть, слышали об анализе главных компонентов (PCA), который используется для уменьшения размерности.
  Если нет, просто пройдите через Post_1 и Post_2. Эти сообщения должны развеять все ваши сомнения.
  PCA можно резюмировать следующим образом:
  любезно предоставлено: https://sebastianraschka.com/Articles/2015_pca_in_3_steps.html
  Удалось ли вам выяснить несколько недостатков в стандартном PCA? позвольте мне указать на некоторые из них.
  - Standard PCA борется с Big Data , когда нам нужны вычисления вне ядра (когда данные слишком велики, чтобы поместиться в ОЗУ).
  - Кроме того, стандартный PCA может обнаруживать только линейные отношения между переменными / объектами. Что делать, если отношения нелинейны?
  - Если у меня много функций в моем наборе данных (скажем, 400000), и у меня есть приблизительное представление, что в наборе данных есть ~ 400 функций, которые были бы полезны (другие — просто шум, нули или что-то еще; неизвестно, какие функции), то это есть ли способ, которым я могу кратко перечислить эти 400 функций, прежде чем применять PCA к , сохранить вычисление ?
  - Иногда преобразованные данные, которые мы генерируем после применения PCA, в идеале должны быть разреженными (почему? Требует некоторого объяснения, мы обсудим это позже в посте), но стандартный PCA всегда генерирует плотные выражения.
  После того, как вы усвоите четыре вышеуказанных пункта, давайте по порядку найдем решение.
  Перед тем, как начать, нам нужно знать несколько терминов
  - Инкрементное обучение : это относится к обучению с использованием непрерывных входных данных (может быть поток данных, текущий непрерывно). Как это может помочь? Этот подход может помочь нам двумя способами.memmap (): Эта функция помогает в создании файла карты памяти для любого набора данных, с помощью которого мы можем получить доступ к небольшому сегменту набора данных без загрузки всего файла.
  Добавочный PCA помогает нам решить нашу первую проблему, то есть PCA для больших данных, когда все данные не могут быть размещены в памяти сразу.
  - Он следует идеологии инкрементного обучения путем выполнения нескольких SVD-декомпозиции на нескольких пакетах (скажем, m пакетов, составленных из набора данных), состоящих из ‘n ’выборок, чтобы добраться до окончательных основных компонентов.
  - Эти пакеты загружаются в память с использованием файлов с отображением памяти, созданных с помощью np.memmap (). Следовательно, можно получить доступ к пакету данных без загрузки всех данных в память
  - Поскольку используемый алгоритм выходит за рамки этой публикации, если вы достаточно взволнованы, вы можете прочитать его здесь.
  - Как упоминалось ранее, стандартный PCA может отображать только линейные отношения и, следовательно, правильное уменьшение размеров возможно, если данные имеют только линейные отношения.
  - Но когда взаимосвязь между различными объектами в наборе данных нелинейная , можно использовать ядро PCA.
  - Он применяет функцию преобразования (может быть RBF, полиномиальная, гауссовская и т. Д .; аналогично ядрам в SVM), а затем все шаги аналогичны стандартному PCA.
  Несколько терминов, которые необходимо знать:
  Это количество линейно независимых строк / столбцов, присутствующих в матрице.
  Поскольку ранг строки (количество независимых строк) = ранг столбца (количество независимых столбцов), вычисление ранга строки или столбца не имеет значения.
  Под линейно независимым я подразумеваю, что строку / столбец нельзя создать путем применения линейного преобразования к другим строкам / столбцам или комбинации других строк / столбцов. См. Этот пример
  Это проблема минимизации, включающая преобразование матрицы A X B (ранг R) в другую матрицу A X B (ранг r), где r
  Эта новая матрица является оптимизированной версией исходной матрицы (без шума)
  Следует отметить, что «r» определяется пользователем. Хороший ресурс для более глубокого погружения.
  Допустим, у нас есть задача распознавания лиц с изображениями размером 2056×2056 = 4227136 функций при сведении. Кроме того, мы знаем, что существует очень мало ключевых характеристик, которые больше всего способствовали бы распознаванию лица, например глаз, губ, ушей и т. Д.(например, щеки, подбородок, лоб, брови и т. д. не будут играть огромной роли в распознавании лица, поскольку у всех людей большинство черт лица очень схожи), что составляет, скажем, 400 черт 4227136.
  Можем ли мы как-то игнорировать остальные функции 4223136, так как это сэкономит много вычислений?
  Мы можем игнорировать затраты на вычисления, если у нас есть набор данных из примерно 1–2 000 изображений, но когда набор данных содержит примерно 10 000–20000 тыс. , Проблема становится очевидной
  В помощь нам приходит рандомизированный PCA.Как?
  Он применяет Аппроксимацию низкого ранга к набору данных. В приведенном выше случае мы будем держать r = 400.
  Но как на самом деле это помогло нам улучшить вычисления для PCA?
  - Ранг матрицы определяет ненулевые собственные значения матрицы
  - Итак, когда мы преобразуем наши исходные данные с использованием аппроксимации низкого ранга, мы отклоняем неважные собственные значения и, следовательно, автоматически удаляем наименее важные главные компоненты.
  - Теперь, если раньше можно было получить, скажем, n собственных значений, мы могли бы получить m собственных значений для преобразованного набора данных, где m
  Пересмотрите проблему распознавания лиц, обсуждаемую в Рандомизированном PCA. Может случиться так, что данные могут быть разреженными (значения только для некоторых частей лица, таких как губы, глаза, нос и т.
  No related posts.
  Навигация по записям
  Предыдущая запись:Индекс нагрузки скорости: Индексы нагрузки и скорости — Интернет-магазин Колесо72
  Следующая запись:Вольво в какой стране производят: чья машина, история бренда, собственники, где собирают — Рамблер/авто
  Ответить Отменить ответ
  Ваш адрес email не будет опубликован. Обязательные поля помечены *
  Комментарий *
  Имя *
  Email *
  Сайт
  Поиск для:
  Рубрики
  Как избавить грудничка от запора: причины, симптомы и эффективные способы лечения
  С какого возраста можно давать детям сливу: польза, риски и рекомендации педиатров
  Причины частого чихания у новорожденных детей: когда стоит беспокоиться?
  Когда можно сажать ребенка в ходунки: оптимальный возраст для мальчиков и девочек
  2019 Все права защищены.