SQL JOB INTERVIEW. EPISODE 5.

Why hello there ;)
Suddenly I found a job interview test from Rusfinance Bank. I think it was from 2016. Compared to competition it is surprisingly not all that dumb. They meant it to be done at home.


Here's the document, enjoy:

Вопросы для кандидатов на должность «Специалист отдела моделирования скоринговых карт и анализа данных
(Управление по работе с кредитными рисками)»
Пояснения
Ответ на вопрос должен быть полным, однако нет необходимости отвечать очень подробно – 3-4 предложения.
Желательно ответить на все вопросы, однако если Вы не можете ответить на некоторые из вопросов, все равно отправьте нам свои ответы.
Ответы нужно отправить в электронном виде.

Вопросы I. Стандарт Structured Query Language (SQL)
Описание задачи. Предположим, что:
- таблица Orders содержит сведения о покупках и состоит из следующих столбцов: Amnt – сумма покупки, Odate – Дата покупки, Cid – ID покупателя, совершившего покупку и Sid – Id продавца, совершившего продажу.
- Таблица Customers содержит сведения о покупателях и состоит из следующих столбцов: Cid – ID покупателя, Cname – фамилия покупателя, Sid – ID продавца, прикрепленного к данному покупателю.
1. Что будет результатом следующего запроса:
a. SELECT * from Orders WHERE NOT ((Odate = ‘10/01/2005’ or Sid > 1006) and Amnt >= 1500)
2. Составьте запрос, который выбирает все заказы с нулями или значениями NULL в столбце Amnt.
3. Составьте запрос, который для каждого из покупателей выбирает наименьшую за всю историю сумму покупки.
4. Составьте запрос, который для каждой из дат подсчитывает, сколько продавцов совершило продажи (продавец, совершивший в день более одной продажи, должен учитываться только один раз).
5. Составьте запрос, который выводит общую стоимость заказов для тех продавцов, у которых эта сумма превышает стоимость самого крупного заказа в таблице.
6. Составьте запрос, который извлекает из таблицы Customers каждого покупателя, к которому прикреплен продавец, имеющий в данный момент как минимум еще одного покупателя (помимо выбранного) с заказами с таблице Orders.

Вопросы II. Математическое моделирование и математическая статистика
7. Что такое доверительный интервал? Для какого уровня доверительности чаще всего вычисляются доверительные интервалы? Какие условия должны выполняться для корректного построения доверительного интервала.
8. В чем разница между корреляционным анализом и регрессионным анализом? Какой вид анализа (корреляционный или регрессионный) применяется в каждой из описанных ниже ситуаций:
a. Выяснение наличия какой-либо взаимосвязи между расходами на рекламу и объемом продаж
b. Разработка системы прогнозирования эффективности портфеля ценных бумаг, основанной на изменениях одного из ведущих индексов фондовой биржи
9.
a. Чем именно линия наименьших квадратов так отличается от всех других линий?
b. Допустим, что стандартные отклонения X (переменная, используемая для прогнозирования) и Y (переменная, поведение которой прогнозируется) остаются неизменными, тогда как корреляция уменьшилась, оставшись при этом положительной. Что в таком случае происходит с коэффициентом наклона b.
10. Статистический вывод в регрессии основывается на линейной модели. Назовите по крайней мере три проблемы, возникающие в случае несоответствия данных линейной модели?
11. Что такое множественная регрессия?

Вопросы III. Общие вопросы
12. Что такое «потребительский кредит»?
13. Что такое «кредитный риск»?
14. Как Вы понимаете термин «скоринговая карта»? Приведите примеры использования скоринговых карт (2-3 примера).
15. Перечислите известные вам методы Data mining.

----------------------------------------------------------------------------------------

Ответы I. Стандарт Structured Query Language (SQL)

Описание задачи. Предположим, что:
- таблица Orders содержит сведения о покупках и состоит из следующих столбцов: Amnt – сумма покупки, Odate – Дата покупки, Cid – ID покупателя, совершившего покупку и Sid – Id продавца, совершившего продажу.
- Таблица Customers содержит сведения о покупателях и состоит из следующих столбцов: Cid – ID покупателя, Cname – фамилия покупателя, Sid – ID продавца, прикрепленного к данному покупателю.

1. Что будет результатом следующего запроса:
a. SELECT * from Orders WHERE NOT ((Odate = ‘10/01/2005’ or Sid > 1006) and Amnt >= 1500)
Программа выдаст все данные таблицы Orders, кроме тех, где дата покупки равна 10 января 2005 года или ИД продавца превышает 1006 (1006 не включительно), при условии, что сумма покупки более 1500 (1500 включительно).
2. Составьте запрос, который выбирает все заказы с нулями или значениями NULL в столбце Amnt.
SELECT * FROM Orders WHERE Amnt = 0 OR Amnt = ‘NULL’ (при условии, что под заказом имеется в виду и сумма покупки, и дата покупки, и ИД покупателя, и ИД продавца; если же под заказом имеется в виду только сумма покупки, то вместо * будет только Amnt)
3. Составьте запрос, который для каждого из покупателей выбирает наименьшую за всю историю сумму покупки.
SELECT Cid, MIN(Amnt) FROM Orders GROUP BY Cid
4. Составьте запрос, который для каждой из дат подсчитывает, сколько продавцов совершило продажи (продавец, совершивший в день более одной продажи, должен учитываться только один раз).
SELECT Odate, COUNT(DISTINCT Sid) FROM Orders GROUP BY Odate
5. Составьте запрос, который выводит общую стоимость заказов для тех продавцов, у которых эта сумма превышает стоимость самого крупного заказа в таблице.
SELECT Sid, SUM(Amnt) FROM Orders GROUP BY Sid HAVING SUM(Amnt) > MAX(Amnt)
6. Составьте запрос, который извлекает из таблицы Customers каждого покупателя, к которому прикреплен продавец, имеющий в данный момент как минимум еще одного покупателя (помимо выбранного) с заказами с таблице Orders.
SELECT Customers.Cname, COUNT(Orders.Sid) AS Target.Sid FROM Customers INNER JOIN Orders ON Customers. Cid=Orders.Cid
GROUP BY Cname HAVING COUNT(Orders.Sid)  >  1

Ответы II. Математическое моделирование и математическая статистика
7. Что такое доверительный интервал? Для какого уровня доверительности чаще всего вычисляются доверительные интервалы? Какие условия должны выполняться для корректного построения доверительного интервала.
Доверительным интервалом называют промежуток значений, который содержит неизвестный (искомый) параметр с заданным уровнем вероятности (надежности/уверенности). Доверительные интервалы обычно вычисляются для уровней доверительности 90%, 95% и 99%. Для корректного построения доверительного интервала желательно брать случайную выборку, которая имеет распределение, максимально приближенное к нормальному. Дополнительно желательно, чтобы выборка была >= 100 ед.
8. В чем разница между корреляционным анализом и регрессионным анализом? Какой вид анализа (корреляционный или регрессионный) применяется в каждой из описанных ниже ситуаций:
a. Выяснение наличия какой-либо взаимосвязи между расходами на рекламу и объемом продаж
b. Разработка системы прогнозирования эффективности портфеля ценных бумаг, основанной на изменениях одного из ведущих индексов фондовой биржи
Разница между корреляционным и регрессионным анализом состоит в том, что они применяются для разных задач. Корреляционный анализ применяется для обнаружения взаимосвязи между несколькими случайными величинами, и если такая связь существует, то при изменении (увеличении/уменьшении) одной случайной величины исследуется, каким образом (в каком направлении) изменяются остальные случайные величины, в то время как регрессионный анализ применяется для определения функции F, которая описывает зависимость между зависимой Y-переменной от независимых X-переменных. То есть наличие взаимосвязи между переменными это уже предпосылка для применения регрессионного анализа. Какой вид анализа: a – корреляционный анализ, b – регрессионный анализ.
9.
a. Чем именно линия наименьших квадратов так отличается от всех других линий?
b. Допустим, что стандартные отклонения X (переменная, используемая для прогнозирования) и Y (переменная, поведение которой прогнозируется) остаются неизменными, тогда как корреляция уменьшилась, оставшись при этом положительной. Что в таком случае происходит с коэффициентом наклона b.
Ответ на a.
Линия наименьших квадратов это линия, которая проходит между наблюдениями (точки на двумерном графике) таким образом, чтобы разница между значением наблюдения и его оценкой минимальна. Графический пример:


Отвечая на вопрос, другие линии отличаются от линии наименьших квадратов (ЛНК) тем, что ЛНК даёт самое лучшее/точное приближение к реальности, чем все остальные линии.

Ответ на b.
Если речь идёт о коэффициенте корреляции Пирсона:

То, учитывая условие, что стандартные отклонения неизменны, это означает, что в формуле корреляции уменьшился числитель. А так как этот числитель равен числителю коэффициента наклона b:

Мы в итоге получаем, что коэффициент наклона b уменьшился.
10. Статистический вывод в регрессии основывается на линейной модели. Назовите по крайней мере три проблемы, возникающие в случае несоответствия данных линейной модели?
1) Гетероскедастичность случайных ошибок
2) Наличие автокорреляции случайных ошибок
3) Смещённость оценок
4) Несостоятельность оценок
5) Неэффективность оценок
6) Слишком маленькая выборка данных
11. Что такое множественная регрессия?
Множественная регрессия это модель, которая предназначена для анализа связи между несколькими независимыми Х-переменными (называемыми также регрессорами) и зависимой Y-переменной.

Ответы III. Общие вопросы
12. Что такое «потребительский кредит»?
ЦБ РФ даёт следующее определение потребительского кредита:
Потребительский кредит — это кредит, предоставляемый банком на приобретение товаров (работ, услуг) для личных, бытовых и иных непроизводственных нужд.
Определение потребительского кредита можно также интерпретировать как финансовый продукт, который в свою очередь представляет из себя некий контракт, который накладывает на клиента юридическое обязательство обслуживать данный кредит. Другими словами, потребительский кредит это определённая сумма денег, которая выдаётся клиенту на определённых условиях.
13. Что такое «кредитный риск»?
В широком смысле, кредитный риск — это финансовый риск неисполнения должником своих обязательств перед поставщиком товаров/услуг, то есть это риск возникновения дефолта должника по его обязательствам. Если рассматривать данное определение в рамках банковского кредита, то кредитный риск – это вероятность того, что заёмщик не будет (или в один момент перестанет) должным образом исполнять свои обязательства по кредиту, то есть будут возникать просрочки платежей или кредит не будет возвращён вовсе.
14. Как Вы понимаете термин «скоринговая карта»? Приведите примеры использования скоринговых карт (2-3 примера).
Скоринговая карта для банковского бизнеса это одна из моделей оценки кредитоспособности клиента. По сути, эта карта представляет из себя некий набор показателей/характеристик, диапазонов значений и соответствующих весовых коэффициентов (скоринг-баллов). Можно данную карту представить в табличном виде, где, к примеру, первый столбец – показатель, второй – диапазон значений, третий – скоринг-балл. Банки используют скоринговые карты, в том числе для определения максимально допустимой суммы кредита для выдачи. Также банки могут использовать скоринг-модели для определения риска того, что существующий клиент станет проблемным должником. Маркетологи могут использовать скоринг для прогнозирования реакции потребителей на различные маркетинговые кампании. Аудиторы могут использовать скоринг для определения вероятности банкротства организации.
15. Перечислите известные вам методы Data mining.
1) искусственные нейронные сети
2) деревья решений, символьные правила
3) методы ближайшего соседа и k-ближайшего соседа
4) метод опорных векторов
5) байесовские сети
6) линейная регрессия
7) корреляционно-регрессионный анализ
8) анализ временных рядов
9) иерархические методы кластерного анализа
10) неиерархические методы кластерного анализа, в том числе алгоритмы k-средних и k-медианы
11) методы поиска ассоциативных правил, в том числе алгоритм Apriori
12) метод ограниченного перебора
13) эволюционное программирование и генетические алгоритмы






Comments

Popular Posts