Как повысить рейтинг в спарк
Изменение системы рейтинга на Спарке
Мы так увлеклись разработкой мобильных приложений, что не находили времени рассказать вам об обновлениях Спарка, сделанных за прошедшее время.
Рейтинг проектов
Нас часто спрашивали о том, как вычисляется значение рейтинга проекта. Формула учитывала несколько параметров: на оценку влияли подписчики и рейтинг записей в блоге. Наблюдая за топом, можно было отметить явные отклонения: на вершине появлялись проекты, чьи блоги и профили оставляли желать лучшего, однако количество подписчиков исчислялось сотнями.
Чтобы восстановить справедливость, мы решили пересмотреть алгоритм подсчета рейтинга и упростить его. Сперва мы убрали влияние неактивных подписчиков — пользователей, давно не заходивших на сайт или никак с ним не взаимодействовавших. Почти все искусственные аккаунты сразу выбыли из игры.
Вчера мы полностью убрали влияние количества подписчиков на рейтинг проекта. Отныне формула проста и очевидна: рейтинг проекта складывается из рейтинга его записей. Таким образом, на вершине мы увидим наиболее активные команды, регулярно ведущие блог и публикующие интересные и полезные материалы, которые нравятся сообществу. Но будем пристально следить за попытками манипуляций и блокировать недобросовестные проекты.
Можем только добавить, что на рейтинг статей влияют оценки пользователей, количество комментариев и ещё кое-какие коэффициенты, которые мы не хотим раскрывать по понятным причинам.
Лучшие проекты за неделю
В правой колонке сайта теперь выводится динамичный топ проектов. Он обновляется каждый день и отражает изменение рейтинга за предыдущие 7 суток.
Рейтинг пользователей
На странице статьи мы вывели топ популярных пользователей за неделю. Кстати, рейтинг пользователя — это сумма оценок его комментариев.
Популярные записи проекта
Внизу статьи теперь расположен список популярных постов проекта. Сюда не попадают публикации, которые вы уже читали.
Как вы, наверное, заметили, мы перевели сайт на защищенный протокол HTTPS. Много чего доработали и улучшили под капотом проекта. Но основные силы брошены на разработку мобильных приложений — скоро покажем результат нашей работы.
Спарк Интервью Вопросы
Введение в Spark Интервью Вопросы и ответы
Итак, вы, наконец, нашли работу своей мечты в Spark, но задаетесь вопросом, как взломать Spark Interview и какие могут быть возможные вопросы Spark Interview для 2018 года. Каждое собеседование различно, а объем работы также различен. Помня об этом, мы разработали самые распространенные вопросы и ответы Spark Interview для 2018 года, чтобы помочь вам добиться успеха на собеседовании.
Эти вопросы делятся на две части
Эта первая часть охватывает основные вопросы и ответы Spark интервью
1. Что такое Spark?
2. Разница между Hadoop и Spark?
Ответ:
| Критерии характеристик | Apache Spark | Hadoop |
| скорость | В 10-100 раз быстрее, чем Hadoop | Нормальная скорость |
| обработка | В режиме реального времени и пакетной обработки, в памяти, кеширование | Только пакетная обработка, зависит от диска |
| трудность | Легко из-за модулей высокого уровня | Трудно учиться |
| восстановление | Позволяет восстановить разделы с помощью RDD | Отказоустойчивой |
| интерактивность | Имеет интерактивные, интерактивные режимы | Нет интерактивного режима, кроме Pig & Hive, Нет итеративного режима |
Обычная архитектура Hadoop следует базовому Map-Reduce, для того же процесса искра обеспечивает выполнение в памяти. Вместо чтения-записи с жесткого диска для Map-Reduce, spark обеспечивает чтение-запись из виртуальной памяти.
Давайте перейдем к следующим вопросам Spark Interview.
3. Каковы особенности искры?
Ответ:
4. Что такое пряжа?
Преимущества Spark по сравнению с Map-Reduce
Spark имеет следующие преимущества перед Map-Reduce:
Благодаря способности процесса In-memory, Spark может выполнять в 10-100 раз быстрее, чем Map-Reduce. Где Map-Reduce может использоваться для сохранения данных на этапе Map и Reduce.
Apache Spark обеспечивает высокий уровень встроенных библиотек для обработки нескольких задач одновременно с пакетной обработкой, потоковой передачей в реальном времени, Spark-SQL, структурированной потоковой передачей, MLib и т. Д. В то же время Hadoop обеспечивает только пакетную обработку.
Процесс Hadoop Map-Reduce будет зависеть от диска, где Spark обеспечивает кэширование и оперативную память.
Spark может выполнять итеративные вычисления, выполнять множественные вычисления для одного и того же набора данных и интерактивно, выполнять вычисления между различными наборами данных, где Hadoop не поддерживает итерационные вычисления.
5. Какой язык поддерживает Spark?
Ответ:
Spark поддерживает Scala, Python, R и Java. На рынке разработчик больших данных в основном предпочитает scala и python. Для масштабирования, чтобы скомпилировать код, нам понадобится Set Path of scale / bin или сделать файл JAR.
6. Что такое СДР?
Давайте теперь посмотрим на расширенные вопросы интервью Spark.
7. Какие факторы ответственны за исполнение Spark?
Ответ:
1. Spark обеспечивает выполнение в памяти, а не зависит от диска, как Hadoop Map-Reduce.
2.DRDD Resilient Distributed Dataset, который является ответственным параллельным выполнением нескольких операций на всех узлах кластера.
3. Spark предоставляет функцию общих переменных для параллельного выполнения. Эти переменные помогают уменьшить передачу данных между узлами и совместно использовать копию всех узлов. Есть две переменные.
Переменная 4.Broadcast: эта переменная может использоваться для кэширования значения в памяти на всех узлах
5.Accumulator Variable: эта переменная только «добавляется», например, счетчики и суммы.
8. Что такое память исполнителя?
Ответ:
Это часто задаваемые вопросы об интервью Spark в интервью. Это размер кучи, выделенной для искрового исполнителя. Это свойство можно контролировать с помощью свойства spark.executor.memory флага –executor-memory. Каждое приложение Spark имеет по одному исполнителю для каждого рабочего узла. Это свойство относится к тому, сколько памяти рабочих узлов будет выделено для приложения.
9. Как вы используете Spark Stream? Объясните один вариант использования?
Мы можем использовать этот процесс для подозрительных транзакций в реальном времени, предложений в реальном времени и т. Д.
Давайте перейдем к следующим вопросам Spark Interview.
10. Можем ли мы использовать Spark для процесса ETL?
Ответ:
Да, мы можем использовать платформу искры для процесса ETL.
11. Что такое Spark SQL?
Ответ:
Это один из специальных компонентов spark, который будет поддерживать запросы SQL.
12. Какая ленивая оценка?
Ответ:
Когда мы работаем с искрой, Преобразования не оцениваются, пока вы не выполните действие. Это помогает оптимизировать весь рабочий процесс обработки данных. При определении трансформации он добавится в DAG (прямой ациклический граф). И во время действия он начнет выполнять пошаговые преобразования. Это полезный вопрос об интервью Spark, заданный в интервью.
Рекомендуемая статья
Это было руководство к Списку Вопросов Интервью Spark и Ответов, чтобы кандидат мог легко разобраться в этих Вопросах Интервью Spark. Вы также можете посмотреть следующие статьи, чтобы узнать больше
Как повысить эффективность проверки контрагентов в условиях кризиса и сэкономить на этом
Илья МУНЕРМАН, исследовательский центр Интерфакс-ЛАБ, директор
Кризис заставляет эффективнее проверять контрагентов, не выходя за рамки прежних бюджетов. Рассмотрим, какие пути для этого существуют. Как интегрировать внутренние и внешние данные? В каких ситуациях могут применяться кастомизированные скоринги? Нужно ли перестраивать модель при поступлении новых подтвержденных данных о контрагенте?
Скоринги на публичных данных: сильные и слабые стороны
Преимущества публичных скорингов состоят в следующем. Во-первых, они строятся на данных о генеральной совокупности, а не на небольших выборках, что повышает их предсказательную силу и статистическую значимость (т.е. увеличивается вероятность того, что входящие в модель параметры, например коэффициенты в регрессионной модели, не нулевые). Во-вторых, сбор и обработка огромных массивов данных, как и моделирование, происходят на стороне поставщика таких скорингов, что существенно облегчает оценку контрагентов. В-третьих, публичные данные, как правило, открыты и верифицированы, что обеспечивает доверие как к самим данным, так и к моделям, построенным на них.
Слабая же сторона аналитических моделей, построенных на публичных данных, проявляется в том, что определенная часть факторного пространства по объективным причинам не может быть задействована, поскольку составляет коммерческую тайну или относится к другим чувствительным конфиденциальным сведениям. Однако на своей стороне банк может использовать в том числе и такие данные о своих контрагентах.
Что мы знаем о своем контрагенте?
Сегодня СПАРК-Интерфакс изменил алгоритмы учета отраслей: отрасли, наиболее пострадавшие от пандемии, получили новые поправки к скоринговой оценке. Резко возросло влияние факторов, данные по которым обновляются оперативно, в частности данные по платежной дисциплине, онлайн-кассам, исковой нагрузке и т.п.
Индекс платежной дисциплины показывает, насколько вовремя компания или ИП рассчитывается со своими поставщиками. Для этого СПАРК собирает от своих крупных партнеров (поставщиков сферы ЖКХ, телекоммуникационных и транспортных компаний, оптовиков) реальные сведения о своевременности оплаты счетов сотнями тысяч их контрагентов.
На возможное возражение о корректности передачи данных с точки зрения законодательства заметим, что информация о платежах передается в рамках проекта Dun & Bradstreet, которому более 75 лет и который работает более чем в 100 странах. Юридическую и этическую корректность передачи данных ежегодно аудирует PwC.
По опыту предыдущих лет, нарастание неплатежей предсказывало банкротства (которые теперь, правда, под мораторием). Девяносто процентов компаний, которые затем обанкротились, сначала задерживали платежи контрагентам. В то же время влияние отчетности компаний за 2019 г., которую мы увидим в сентябре 2020 г., на реальное положение вещей будет практически незначимым и позволит оценить только некий накопленный резерв прочности перед наступлением текущих событий. Кроме публичных данных, доступных, например, в СПАРК, организации также обладают внутренней информацией, характеризующей различные факторы и историю отношений с контрагентами. Это:
Все эти (и не только эти) источники корпоративных данных могут сослужить хорошую службу при разработке кастомизированного скоринга, построенного на основе объединения внутренних и внешних данных.
Пример
Крупный нефтехимический холдинг построил работу по внедрению системы следующим образом.
На первом этапе для участия в эксперименте были приглашены примерно 2000 контрагентов, которые предоставляли перечисленные выше данные о себе в добровольном порядке. Это привело к формированию простой модели на основе бинарных признаков, которая позволяла скорректировать существующие публичные скоринги контрагента.
На втором этапе, когда количество контрагентов охватило уже около 50% по каждому региону и отрасли, рассчитывался средний уровень показателя, который использовался для сравнения вместе с бинарными признаками. При этом отклонение от среднего или медианы для каждого значимого показателя из предоставленных данных находилось в диапазоне 25–30%.
На третьем этапе, когда объем покрытия системой мониторинга контрагентов приблизился к 100% (тут важно отметить, что система мониторинга не охватывала особо крупные и всемирно известные компании и контрагентов с оборотами ниже критерия существенности), число бинарных признаков стало минимальным, а количественные признаки сравнивались не только со средним значением, но и со средним или модой или медианой по сегменту. В качестве сегментов использовались регион, отрасль, аналогичные компанииконкуренты и другие сегменты, для определения которых была применена кластеризация статистическими методами. Также на третьем этапе появилась возможность использовать шкалирование переменных.
Для расчета поправки на первом и втором этапах использовались простые линейные функции, на третьем — дерево решений.
Как интегрировать внутренние и внешние данные
Процесс интеграции внутренних и внешних данных основан на подключении данных из API СПАРК к данным внешних провайдеров и внутренних информационных систем. Этот процесс представляет собой комплекс интеграционных решений и требует существенной проработки с точки зрения как юридической, так и компьютерной безопасности. В отличие от терминального доступа, шлюз СПАРК позволяет выполнять непосредственные запросы к базе данных, минуя интерфейс. Это в гораздо большей степени соответствует современным стандартам бизнес-анализа, так как аналитик может на формальном языке описать запрос, который делался для того, чтобы получить данные, использованные для моделирования. Также можно оперативно отслеживать изменения показателей в режиме онлайн и строить динамические модели, что при наличии только терминального доступа не так просто.
Мониторинг дилерской сити, лизингополучателей и клиентов интернет-магазина
Основными потребителями такого подхода к мониторингу контрагентов являются крупные компании, которые предоставляют более мелким компаниям возможность пользоваться своими товарами с отсрочкой платежа. Это могут быть лизинговые компании, предоставляющие технику, транспорт и оборудование, металлургические, нефтехимические компании и др.
Всех этих пользователей систем мониторинга объединяет то, что они хотят обновлять данные о состоянии своего контрагента в режиме онлайн и, несмотря на разные профили своей деятельности, преследуют одну-единственную цель: оперативно мониторить финансовое состояние контрагента, определять текущий кредитный лимит, на который ему можно отгружать продукцию, резервировать нужное количество средств при наступлении неблагоприятных сценариев в работе с контрагентом.
Вторая общая черта этой группы — все они имеют примерно одни и те же наборы данных для кастомизации индекса финансового риска.
Во-первых, это история взаимоотношений с данным контрагентом, которая может быть получена без вовлечения каких-то дополнительных ресурсов или юридических согласований: достаточно только вести самостоятельный учет своевременности оплаты контрагентом выставленных счетов.
Во-вторых, мы можем предложить контрагенту регулярно предоставлять нам отчетность и налоговые декларации и рассчитывать коэффициенты на актуальные даты. На основе деклараций контрагентов и данных, накопленных провайдером услуг по кастомизации, выявляются значительные отклонения показателей, характеризующих налоговые и финансовые риски контрагента, от базисного уровня, в качестве которого выступают среднеотраслевой, среднерегиональный уровни, целевые показатели ФНС России и предыдущий период. Среди показателей рассчитываются совокупное и частное налоговое бремя, финансовые коэффициенты, абсолютные и относительные показатели доходов, расходов, активов и обязательств. Данные показатели позволяют в оперативном режиме выявить опасные отклонения от базисного уровня и рекомендовать либо прекращение отношений с контрагентом, либо запрос у него подробной объясняющей информации доказательственного характера.
В-третьих, мы можем получить согласие на обработку кредитной истории как самого дилера, так и его учредителей и директоров. Данный пункт вызывает самое большое количество дискуссий, так как не все компании (а тем более физические лица) согласны давать согласие на обработку своей кредитной истории. Также возникает техническая и юридическая проблема передачи полученных сведений провайдеру услуг по кастомизации. Возможным решением здесь могут быть скоринги, составленные совместно с бюро кредитных историй (в качестве примера можно привести совместный скоринг СПАРК–ОКБ).
Зачастую в этой группе решений возрастает роль отраслевой и региональной информации. Для ее анализа могут использоваться макроэкономические данные, которые относятся не к конкретной компании, а к отрасли в целом. Тогда их также можно получать в оперативном режиме и обновлять регулярно; это могут быть отраслевые индексы, ставки, доходности облигаций и другие параметры.
Расширенный анализ компаний
Несмотря на то, что предыдущий пример охватывает достаточно большой сегмент систем мониторинга, скоринг часто должен подстраиваться под специфические потребности.
В первую очередь такие специфические потребности возникают в отраслях, где присутствуют государственные финансы или высокая толерантность подрядчиков к коррупционным практикам, например в строительстве. В эту группу попадают компании — получатели государственных субсидий (в т.ч. через региональные корпорации развития), стартапы, профинансированные государством, резиденты особых экономических зон и др.
Для мониторинга таких компаний в режиме онлайн добавляется значительное количество требований в самых разных проявлениях их активности. Это и мониторинг прозрачности и эффективности закупочных процедур, и соблюдение процедур комплаенса, так как контрагенты получателей государственных средств не должны быть связаны с лицами, имеющими криминальное прошлое. Но главное — привязка транзакций этих контрагентов к проектному финансированию и ограничению нецелевого использования средств инвесторов.
Для данной группы скоринги играют роль в создании технологий премодерации транзакций, которая в силу определенных причин пока не получила широкого распространения. Представьте себе, что некая компания получила субсидию от корпорации развития региона и собирается направить деньги контрагенту, вызывающему серьезные опасения с точки зрения добросовестности. Очевидно, что разбираться потом, чем руководствовался менеджмент компании, будет гораздо сложнее, чем просто приостановить исполнение платежа и попросить оперативно предоставить объяснения.
Еще одна интересная сфера применения кастомизированных скорингов — это расширенный анализ компаний МСБ. Здесь уже накоплено много решений как со стороны банков, которые их кредитуют, так и со стороны провайдеров вне банковского сектора.
В этой сфере на первое место выходят данные онлайн-касс и транзакционные данные, так как отчетность малого бизнеса зачастую или отсутствует вовсе, или не позволяет рассчитать достаточно коэффициентов; отсутствуют данные об исковой нагрузке компаний (малый бизнес может обрушиться под воздействием всего одного крупного судебного процесса с большой компанией или государством). Важное значение имеет кредитная история и самой компании, и ее учредителей и директоров.
Наконец, непростой, но интересной задачей являются распознавание и анализ франчайзинговых сетей и расчет их параметров, таких как отношение открытых и закрытых франчайзи и их доходности. Важно отметить, что в последнее время многие собственники товарных знаков не заключают прозрачных договоров на их использование. Более того, зачастую широко известный потребителям товарный знак оказывается в собственности офшорной компании. Несмотря на эти сложности, расчет силы бренда на основе открытой информации и экстраполяция успехов или неудач правообладателя на всех лицензиатов являются довольно перспективными методами построения кастомизированных решений. Существуют решения для анализа силы крупных брендов, основанные на получении информации из медиапространства и соцсетей. Однако данные решения теряют свою значимость, если есть количественные критерии. Если мы знаем, сколько денег дал заработать бренд, то зачем нам анализировать его медийный фон?
Расширенный анализ компаний помогает и в тех случаях, когда мы смотрим на компанию с точки зрения работодателя. Это важно и при автоматическом анализе резюме претендентов, и при кредитовании физических лиц, работодатели которых не обслуживаются в банке, и во многих других случаях.
Как перестраивается скоринг
Одна из наиболее интересных тем сегодня — это возможность перестройки скоринга по мере поступления новых подтвержденных данных о контрагенте. Основные вопросы, которые при этом возникают:
Выделим два основных способа кастомизации скоринга:
1. Корректировка скоринга с использованием решающих правил:
а) на основе внутренних данных создаем решающие правила (факторы);
б) в зависимости от значения новых факторов находим значения x_i:
где парам_i — строка отчетности, финансовый коэффициент или иная переменная;
крит_знач_i — критическое значение в зависимости от региона/отрасли;
в) рассчитываем s = SUM(w_i × x_i), где w_i — вес каждого параметра;
г) корректируем публичный скоринг на значение s.
2. Разработка кастомной регрессионной модели:
а) на основе внутренних данных компании рассчитываем регрессионные переменные (факторы);
б) полученные факторы вместе с публичным скорингом используем для создания индивидуальной регрессионной модели. В роли алгоритма могут выступать логистическая регрессия, дерево решений, случайный лес и др.
Первый способ имеет смысл использовать, когда объема внутренних данных не хватает для разработки статистически значимой регрессионной модели, а также при наличии эмпирического опыта и предметных знаний о влиянии тех или иных факторов на риск контрагента.
Второй способ более оптимален при наличии достаточного объема корпоративных данных, так как автоматизированные алгоритмы позволяют избежать когнитивных искажений, присущих экспертным оценкам.
Периодичность обновления скоринговой модели зависит от динамики изменений как макроэкономики, так и взаимоотношений с контрагентами. В целом при стабильной ситуации достаточно перестраивать скоринг раз в два года; в ином случае рекомендуемая частота обновления модели иногда возрастает до ежеквартальной.
Более сложные алгоритмы возникают тогда, когда используется обучение с подкреплением, которое позволяет нам оперативно реагировать на изменения окружающей среды и подстраивать модель под воздействием внешних факторов в режиме реального времени. Для применения таких алгоритмов требуется значительный объем данных, поступающий в режиме реального времени.
Как повысить эффективность
В силу того, что большая часть корпоративных знаний о контрагентах является конфиденциальной информацией, их обработка как перед моделированием, так и в рамках промышленного использования готовой модели происходит на стороне компании (в отличие от публичного скоринга). По этой причине на повышении эффективности использования кастомизированного скоринга сказываются имеющиеся ресурсы и внутренняя экспертиза по работе с такими данными.
Первым, достаточно очевидным, решением в такой ситуации является озеро данных. Для создания такого озера нам потребуется:
Проблема использования озера данных состоит в том, что в него могут попасть не всегда достоверные и легко проверяемые данные. Выходом здесь может быть использование блокчейн-сети. В таком случае за счет создания системы распределенного реестра отправка недостоверных данных в общую сеть не становится невозможной, но становится экономически бессмысленной. В перспективе это приведет к существенному повышению производительности системы, так как сейчас нам приходится за счет довольно сложного моделирования проверять и перепроверять данные, полученные из разных источников, не доверяя абсолютно ни одному из них. Технология распределенного реестра может решить эту проблему, что приведет к удешевлению построения доверительных систем расчетов с контрагентами и позволит заменить хлопотный процесс сбора информации из различных источников с последующей их обработкой методами сложного моделирования на довольно простые скрипты.
Еще одна важная проблема повышения эффективности кастомизированных скоринговых систем — это проблема черного ящика, когда скоринг выдает некое решение, не обосновывая его аналитически. Современный тренд настройки скоринговых моделей состоит в том, чтобы модель умела объяснять пользователю, почему приняла то или иное решение. Это повышает доверие к самому инструменту автоматизации принятия решений и позволяет устранить ошибки, когда модель по каким-то причинам использовала ошибочные данные: например, когда клиент получает отказ по кредиту на основе недостоверных данных, в силу технической ошибки оказавшихся в его кредитной истории.
За счет чего возникает экономия
Хотя построенные на публичных данных скоринги сами по себе обладают достаточно высокой предсказательной силой, кастомные модели дают возможность повысить точность оценивания контрагентов и более своевременно получать сигналы о повышенных рисках работы с некоторыми из них. Это позволяет вовремя приостановить взаимодействие и избежать финансового или репутационного ущерба.
Если говорить о масштабах экономии в материальном выражении, то наиболее адекватным критерием здесь может быть удельная стоимость проверки одного контрагента. Если говорить о годовой стоимости мониторинга одного контрагента, включающей стоимость всех используемых данных и регулярной калибровки моделей, то она довольно сильно разнится, однако на основе анализа уже реализованных успешных кейсов можно сказать, что такая стоимость колеблется в диапазоне от 500 до 3500 руб. на одного контрагента. Много это или мало?
Давайте представим себе сотрудника компании, обладающего компетенциями проводить финансовый анализ, рассчитывать кредитные лимиты, анализировать судебные дела и делать из них выводы, проводить комплаенс-процедуры и анализировать закупки.
Сколько такой специалист может проверить компаний в ручном режиме, даже если данные по ним обновляются не каждый день? Пять или, может быть, десять? Кастомизированные системы скорингов обрабатывают данные десятков тысяч компаний, что дает колоссальную экономию средств.
Сегодня разработка кастомизированнных скорингов важна еще и потому, что даже до кризиса наблюдался заметный рост компаний, действующих в сфере неналогового мошенничества. Теперь же многие даже добросовестные предприниматели для спасения своего бизнеса будут готовы совершать не всегда законные действия в отношении своих контрагентов. Но и когда начнется восстановление экономики, именно скоринговые системы начнут сигнализировать о точках роста, восстановлении компаний и секторов и новых перспективных клиентах.




