A.3 Concepts Questions

  1. 통계 및 수학

    • 고유값(eigen value)와 고유벡터(eigen vector)에 대해 설명해주세요. 그리고 왜 중요할까요?
    • 샘플링(Sampling)과 리샘플링(Resampling)에 대해 설명해주세요. 리샘플링은 무슨 장점이 있을까요?
    • 확률 모형과 확률 변수는 무엇일까요?
    • 누적 분포 함수와 확률 밀도 함수는 무엇일까요? 수식과 함께 표현해주세요
    • 베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / t 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포 / 디리클레 분포에 대해 설명해주세요. 혹시 연관된 분포가 있다면 연관 관계를 설명해주세요
    • 조건부 확률은 무엇일까요?
    • 공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요
    • 신뢰 구간의 정의는 무엇인가요?
    • p-value를 고객에게는 뭐라고 설명하는게 이해하기 편할까요?
    • p-value는 요즘 시대에도 여전히 유효할까요? 언제 p-value가 실제를 호도하는 경향이 있을까요?
    • A/B Test 등 현상 분석 및 실험 설계 상 통계적으로 유의미함의 여부를 결정하기 위한 방법에는 어떤 것이 있을까요?
    • R square의 의미는 무엇인가요?
    • 평균(mean)과 중앙값(median)중에 어떤 케이스에서 뭐를 써야할까요?
    • 중심극한정리는 왜 유용한걸까요?
    • 엔트로피(entropy)에 대해 설명해주세요. 가능하면 Information Gain도요.
    • 요즘같은 빅데이터(?)시대에는 정규성 테스트가 의미 없다는 주장이 있습니다. 맞을까요?
    • 어떨 때 모수적 방법론을 쓸 수 있고, 어떨 때 비모수적 방법론을 쓸 수 있나요?
    • “likelihood”와 “probability”의 차이는 무엇일까요?
    • 통계에서 사용되는 bootstrap의 의미는 무엇인가요.
    • 모수가 매우 적은 (수십개 이하) 케이스의 경우 어떤 방식으로 예측 모델을 수립할 수 있을까요?
    • 베이지안과 프리퀀티스트간의 입장차이를 설명해주실 수 있나요?
    • 검정력(statistical power)은 무엇일까요?
    • missing value가 있을 경우 채워야 할까요? 그 이유는 무엇인가요?
    • 아웃라이어의 판단하는 기준은 무엇인가요?
    • 콜센터 통화 지속 시간에 대한 데이터가 존재합니다. 이 데이터를 코드화하고 분석하는 방법에 대한 계획을 세워주세요. 이 기간의 분포가 어떻게 보일지에 대한 시나리오를 설명해주세요
    • 출장을 위해 비행기를 타려고 합니다. 당신은 우산을 가져가야 하는지 알고 싶어 출장지에 사는 친구 3명에게 무작위로 전화를 하고 비가 오는 경우를 독립적으로 질문해주세요. 각 친구는 2/3로 진실을 말하고 1/3으로 거짓을 말합니다. 3명의 친구가 모두 “그렇습니다. 비가 내리고 있습니다”라고 말했습니다. 실제로 비가 내릴 확률은 얼마입니까?
    • 필요한 표본의 크기를 어떻게 계산합니까?
    • Bias를 통제하는 방법은 무엇입니까?
    • 로그 함수는 어떤 경우 유용합니까? 사례를 들어 설명해주세요
  2. 분석 일반

    • 좋은 feature란 무엇인가요. 이 feature의 성능을 판단하기 위한 방법에는 어떤 것이 있나요?
    • “상관관계는 인과관계를 의미하지 않는다”라는 말이 있습니다. 설명해주실 수 있나요?
    • A/B 테스트의 장점과 단점, 그리고 단점의 경우 이를 해결하기 위한 방안에는 어떤 것이 있나요?
    • 각 고객의 웹 행동에 대하여 실시간으로 상호작용이 가능하다고 할 때에, 이에 적용 가능한 고객 행동 및 모델에 관한 이론을 알아봅시다.
    • 고객이 원하는 예측모형을 두가지 종류로 만들었다. 하나는 예측력이 뛰어나지만 왜 그렇게 예측했는지를 설명하기 어려운 random forest 모형이고, 또다른 하나는 예측력은 다소 떨어지나 명확하게 왜 그런지를 설명할 수 있는 sequential bayesian 모형입니다.고객에게 어떤 모형을 추천하겠습니까?
    • 고객이 내일 어떤 상품을 구매할지 예측하는 모형을 만들어야 한다면 어떤 기법(예: SVM, Random Forest, logistic regression 등)을 사용할 것인지 정하고 이를 통계와 기계학습 지식이 전무한 실무자에게 설명해봅시다.
    • 나만의 feature selection 방식을 설명해봅시다.
    • 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering을 어떻게 풀어야할까요?
  3. 머신러닝

    • Cross Validation은 무엇이고 어떻게 해야하나요?
    • 회귀 / 분류시 알맞은 metric은 무엇일까요?
    • 알고 있는 metric에 대해 설명해주세요(ex. RMSE, MAE, recall, precision …)
    • 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요?
    • Local Minima와 Global Minima에 대해 설명해주세요.
    • 차원의 저주에 대해 설명해주세요
    • dimension reduction기법으로 보통 어떤 것들이 있나요?
    • PCA는 차원 축소 기법이면서, 데이터 압축 기법이기도 하고, 노이즈 제거기법이기도 합니다. 왜 그런지 설명해주실 수 있나요?
    • LSA, LDA, SVD 등의 약자들이 어떤 뜻이고 서로 어떤 관계를 가지는지 설명할 수 있나요?
    • Markov Chain을 고등학생에게 설명하려면 어떤 방식이 제일 좋을까요?
    • 텍스트 더미에서 주제를 추출해야 합니다. 어떤 방식으로 접근해 나가시겠나요?
    • SVM은 왜 반대로 차원을 확장시키는 방식으로 동작할까요? 거기서 어떤 장점이 발생했나요?
    • 다른 좋은 머신 러닝 대비, 오래된 기법인 나이브 베이즈(naive bayes)의 장점을 옹호해보세요.
    • Association Rule의 Support, Confidence, Lift에 대해 설명해주세요.
    • 최적화 기법중 Newton’s Method와 Gradient Descent 방법에 대해 알고 있나요?
    • 머신러닝(machine)적 접근방법과 통계(statistics)적 접근방법의 둘간에 차이에 대한 견해가 있나요?
    • 인공신경망(deep learning이전의 전통적인)이 가지는 일반적인 문제점은 무엇일까요?
    • 지금 나오고 있는 deep learning 계열의 혁신의 근간은 무엇이라고 생각하시나요?
    • ROC 커브에 대해 설명해주실 수 있으신가요?
    • 여러분이 서버를 100대 가지고 있습니다. 이때 인공신경망보다 Random Forest를 써야하는 이유는 뭘까요?
    • K-means의 대표적 의미론적 단점은 무엇인가요? (계산량 많다는것 말고)
    • L1, L2 정규화에 대해 설명해주세요
    • XGBoost을 아시나요? 왜 이 모델이 캐글에서 유명할까요?
    • 앙상블 방법엔 어떤 것들이 있나요?
    • SVM은 왜 좋을까요?
    • feature vector란 무엇일까요?
    • 좋은 모델의 정의는 무엇일까요?
    • 50개의 작은 의사결정 나무는 큰 의사결정 나무보다 괜찮을까요? 왜 그렇게 생각하나요?
    • 스팸 필터에 로지스틱 리그레션을 많이 사용하는 이유는 무엇일까요?
    • OLS(ordinary least squre) regression의 공식은 무엇인가요?
  4. 딥러닝

    1. 딥러닝 일반
      • 딥러닝은 무엇인가요? 딥러닝과 머신러닝의 차이는?
      • 왜 갑자기 딥러닝이 부흥했을까요?
      • 마지막으로 읽은 논문은 무엇인가요? 설명해주세요
      • Cost Function과 Activation Function은 무엇인가요?
      • Tensorflow, Keras, PyTorch, Caffe, Mxnet 중 선호하는 프레임워크와 그 이유는 무엇인가요?
      • Data Normalization은 무엇이고 왜 필요한가요?
      • 알고있는 Activation Function에 대해 알려주세요. (Sigmoid, ReLU, LeakyReLU, Tanh 등)
      • 오버피팅일 경우 어떻게 대처해야 할까요?
      • 하이퍼 파라미터는 무엇인가요?
      • Weight Initialization 방법에 대해 말해주세요. 그리고 무엇을 많이 사용하나요?
      • 볼츠만 머신은 무엇인가요?
      • 요즘 Sigmoid 보다 ReLU를 많이 쓰는데 그 이유는?
      • Non-Linearity라는 말의 의미와 그 필요성은?
      • ReLU로 어떻게 곡선 함수를 근사하나?
      • ReLU의 문제점은?
      • Bias는 왜 있는걸까?
      • Gradient Descent에 대해서 쉽게 설명한다면?
      • 왜 꼭 Gradient를 써야 할까? 그 그래프에서 가로축과 세로축 각각은 무엇인가? 실제 상황에서는 그 그래프가 어떻게 그려질까?
      • GD 중에 때때로 Loss가 증가하는 이유는?
      • 중학생이 이해할 수 있게 더 쉽게 설명 한다면?
      • Back Propagation에 대해서 쉽게 설명 한다면?
      • Local Minima 문제에도 불구하고 딥러닝이 잘 되는 이유는?
      • GD가 Local Minima 문제를 피하는 방법은?
      • 찾은 해가 Global Minimum인지 아닌지 알 수 있는 방법은?
      • Training 세트와 Test 세트를 분리하는 이유는?
      • Validation 세트가 따로 있는 이유는?
      • Test 세트가 오염되었다는 말의 뜻은?
      • Regularization이란 무엇인가?
      • Batch Normalization의 효과는?
      • Dropout의 효과는?
      • BN 적용해서 학습 이후 실제 사용시에 주의할 점은? 코드로는?
      • GAN에서 Generator 쪽에도 BN을 적용해도 될까?
      • SGD, RMSprop, Adam에 대해서 아는대로 설명한다면?
      • SGD에서 Stochastic의 의미는?
      • 미니배치를 작게 할때의 장단점은?
      • 모멘텀의 수식을 적어 본다면?
      • 간단한 MNIST 분류기를 MLP+CPU 버전으로 numpy로 만든다면 몇줄일까?
      • 어느 정도 돌아가는 녀석을 작성하기까지 몇시간 정도 걸릴까?
      • Back Propagation은 몇줄인가?
      • CNN으로 바꾼다면 얼마나 추가될까?
      • 간단한 MNIST 분류기를 TF, Keras, PyTorch 등으로 작성하는데 몇시간이 필요한가?
      • CNN이 아닌 MLP로 해도 잘 될까?
      • 마지막 레이어 부분에 대해서 설명 한다면?
      • 학습은 BCE loss로 하되 상황을 MSE loss로 보고 싶다면?
      • 만약 한글 (인쇄물) OCR을 만든다면 데이터 수집은 어떻게 할 수 있을까?
      • 딥러닝할 때 GPU를 쓰면 좋은 이유는?
      • 학습 중인데 GPU를 100% 사용하지 않고 있다. 이유는?
      • GPU를 두개 다 쓰고 싶다. 방법은?
      • 학습시 필요한 GPU 메모리는 어떻게 계산하는가?
      • TF, Keras, PyTorch 등을 사용할 때 디버깅 노하우는?
      • 뉴럴넷의 가장 큰 단점은 무엇인가? 이를 위해 나온 One-Shot Learning은 무엇인가?
    2. 컴퓨터 비전
      • OpenCV 라이브러리만을 사용해서 이미지 뷰어(Crop, 흑백화, Zoom 등의 기능 포함)를 만들어주세요
      • 딥러닝 발달 이전에 사물을 Detect할 때 자주 사용하던 방법은 무엇인가요?
      • Fatser R-CNN의 장점과 단점은 무엇인가요?
      • dlib은 무엇인가요?
      • YOLO의 장점과 단점은 무엇인가요?
      • 제일 좋아하는 Object Detection 알고리즘에 대해 설명하고 그 알고리즘의 장단점에 대해 알려주세요
      • 그 이후에 나온 더 좋은 알고리즘은 무엇인가요?
      • Average Pooling과 Max Pooling의 차이점은?
      • Deep한 네트워크가 좋은 것일까요? 언제까지 좋을까요?
      • Residual Network는 왜 잘될까요? Ensemble과 관련되어 있을까요?
      • CAM(Class Activation Map)은 무엇인가요?
      • Localization은 무엇일까요?
      • 자율주행 자동차의 원리는 무엇일까요?
      • Semantic Segmentation은 무엇인가요?
      • Visual Q&A는 무엇인가요?
      • Image Captioning은 무엇인가요?
      • Fully Connected Layer의 기능은 무엇인가요?
      • Neural Style은 어떻게 진행될까요?
      • CNN에 대해서 아는대로 얘기하라
      • CNN이 MLP보다 좋은 이유는?
      • 어떤 CNN의 파라미터 개수를 계산해 본다면?
      • 주어진 CNN과 똑같은 MLP를 만들 수 있나?
      • 풀링시에 만약 Max를 사용한다면 그 이유는?
      • 시퀀스 데이터에 CNN을 적용하는 것이 가능할까?
    3. 자연어 처리
      • One Hot 인코딩에 대해 설명해주세요
      • POS 태깅은 무엇인가요? 가장 간단하게 POS tagger를 만드는 방법은 무엇일까요?
      • 문장에서 “Apple”이란 단어가 과일인지 회사인지 식별하는 모델을 어떻게 훈련시킬 수 있을까요?
      • 뉴스 기사에 인용된 텍스트의 모든 항목을 어떻게 찾을까요?
      • 음성 인식 시스템에서 생성된 텍스트를 자동으로 수정하는 시스템을 어떻게 구축할까요?
      • 잠재론적, 의미론적 색인은 무엇이고 어떻게 적용할 수 있을까요?
      • 영어 텍스트를 다른 언어로 번역할 시스템을 어떻게 구축해야 할까요?
      • 뉴스 기사를 주제별로 자동 분류하는 시스템을 어떻게 구축할까요?
      • Stop Words는 무엇일까요? 이것을 왜 제거해야 하나요?
      • 영화 리뷰가 긍정적인지 부정적인지 예측하기 위해 모델을 어떻게 설계하시겠나요?
      • TF-IDF 점수는 무엇이며 어떤 경우 유용한가요?
      • 한국어에서 많이 사용되는 사전은 무엇인가요?
      • Regular grammar는 무엇인가요? regular expression과 무슨 차이가 있나요?
      • RNN에 대해 설명해주세요
      • LSTM은 왜 유용한가요?
      • Translate 과정 Flow에 대해 설명해주세요
      • n-gram은 무엇일까요?
      • PageRank 알고리즘은 어떻게 작동하나요?
      • depedency parsing란 무엇인가요?
      • Word2Vec의 원리는?
      • 그 그림에서 왼쪽 파라메터들을 임베딩으로 쓰는 이유는?
      • 그 그림에서 오른쪽 파라메터들의 의미는 무엇일까?
      • 남자와 여자가 가까울까? 남자와 자동차가 가까울까?
      • 번역을 Unsupervised로 할 수 있을까?
    4. 강화학습
      • MDP는 무엇일까요?
      • 가치함수는 무엇일까요? 수식으로도 표현해주세요
      • 벨만 방정식은 무엇일까요? 수식으로도 표현해주세요
      • 강화학습에서 다이나믹 프로그래밍은 어떤 의미를 가질까요? 한계점은 무엇이 있을까요?
      • 몬테카를로 근사는 무엇일까요? 가치함수를 추정할 때 어떻게 사용할까요?
      • Value-based Reinforcement Learning과 Policy based Reinforcement Learning는 무엇이고 어떤 관계를 가질까요?
      • 강화학습이 어려운 이유는 무엇일까요? 그것을 어떤 방식으로 해결할 수 있을까요?
      • 강화학습을 사용해 테트리스에서 고득점을 얻는 프로그램을 만드려고 합니다. 어떻게 만들어야 할까요?
    5. GAN
      • GAN에 대해 아는대로 설명해주세요
      • GAN의 단점은 무엇인가요?
      • LSGAN에 대해 설명해주세요
      • GAN이 왜 뜨고 있나요?
      • Auto Encoder에 대해서 아는대로 얘기하라
      • MNIST AE를 TF나 Keras등으로 만든다면 몇줄일까?
      • MNIST에 대해서 임베딩 차원을 1로 해도 학습이 될까?
      • 임베딩 차원을 늘렸을 때의 장단점은?
      • AE 학습시 항상 Loss를 0으로 만들수 있을까?
      • VAE는 무엇인가?
      • 간단한 MNIST DCGAN을 작성한다면 TF 등으로 몇줄 정도 될까?
      • GAN의 Loss를 적어보면?
      • D를 학습할때 G의 Weight을 고정해야 한다. 방법은?
      • 학습이 잘 안될때 시도해 볼 수 있는 방법들은?
    6. 추천 시스템
      • 추천 시스템에서 사용할 수 있는 거리는 무엇이 있을까요?
      • User 베이스 추천 시스템과 Item 베이스 추천 시스템 중 단기간에 빠른 효율을 낼 수 있는 것은 무엇일까요?
      • 성능 평가를 위해 어떤 지표를 사용할까요?
      • Explicit Feedback과 Implicit Feedback은 무엇일까요? Impicit Feedback을 어떻게 Explicit하게 바꿀 수 있을까요?
      • Matrix Factorization은 무엇인가요? 해당 알고리즘의 장점과 단점은?
      • SQL으로 조회 기반 Best, 구매 기반 Best, 카테고리별 Best를 구하는 쿼리를 작성해주세요
      • 추천 시스템에서 KNN 알고리즘을 활용할 수 있을까요?
      • 유저가 10만명, 아이템이 100만개 있습니다. 이 경우 추천 시스템을 어떻게 구성하시겠습니까?
      • 딥러닝을 활용한 추천 시스템의 사례를 알려주세요
      • 두 추천엔진간의 성능 비교는 어떤 지표와 방법으로 할 수 있을까요? 검색엔진에서 쓰던 방법을 그대로 쓰면 될까요? 안될까요?
      • Collaborative Filtering에 대해 설명한다면?
      • Cold Start의 경우엔 어떻게 추천해줘야 할까요?
      • 고객사들은 기존 추천서비스에 대한 의문이 있습니다. 주로 매출이 실제 오르는가 하는 것인데, 이를 검증하기 위한 방법에는 어떤 것이 있을까요? 위 관점에서 우리 서비스의 성능을 고객에게 명확하게 인지시키기 위한 방법을 생각해봅시다.
  5. 데이터베이스

    • PostgreSQL의 장점은 무엇일까요?
    • 인덱스는 크게 Hash 인덱스와 B+Tree 인덱스가 있습니다. 이것은 무엇일까요?
    • 인덱스 Scan 방식은 무엇이 있나요?
    • 인덱스 설계시 NULL값은 고려되야 할까요?
    • Nested Loop 조인은 무엇일까요?
    • Windows 함수는 무엇이고 어떻게 작성할까요?
    • KNN 알고리즘을 쿼리로 구현할 수 있을까요?
    • MySQL에서 대량의 데이터(500만개 이상)를 Insert해야하는 경우엔 어떻게 해야할까요?
    • RDB의 char와 varchar의 차이는 무엇일까요?
    • 구글의 BigQuery, AWS의 Redshift는 기존 RDB와 무슨 차이가 있을까요? 왜 빠를까요?
    • 쿼리의 성능을 확인하기 위해 어떤 쿼리문을 작성해야 할까요?
    • MySQL이 요새 느리다는 신고가 들어왔습니다. 첫번째로 무엇을 확인하시고 조정하시겠나요?
    • 동작하는 MySQL에 Alter table을 하면 안되는 이유를 설명해주세요. 그리고 대안을 설명해주세요
    • 빡세게 동작하고 있는 MySQL을 백업뜨기 위해서는 어떤 방법이 필요할까요?
  6. 데이터 시각화

    • 네트워크 관계를 시각화해야 할 경우 어떻게 해야할까요?
    • Tableau같은 BI Tool은 어느 경우 도입하면 좋을까요?
    • “신규/재방문자별 지역별(혹은 일별) 방문자수와 구매전환율”이나 “고객등급별 최근방문일별 고객수와 평균구매금액”와 같이 4가지 이상의 정보를 시각화하는 가장 좋은 방법을 추천해주세요
    • 구매에 영향을 주는 요소의 발견을 위한 관점에서, 개인에 대한 쇼핑몰 웹 활동의 시계열 데이터를 효과적으로 시각화하기 위한 방법은 무엇일까요? 표현되어야 하는 정보(feature)는 어떤 것일까요? 실제시 어떤 것이 가장 고민될까요?
    • 파이차트는 왜 구릴까요? 언제 구린가요? 안구릴때는 언제인가요?
    • 히스토그램의 가장 큰 문제는 무엇인가요?
    • 워드클라우드는 보기엔 예쁘지만 약점이 있습니다. 어떤 약점일까요?
    • 어떤 1차원값이, 데이터가 몰려있어서 직선상에 표현했을 때 보기가 쉽지 않습니다. 어떻게 해야할까요?
  7. 시스템 엔지니어링

    • 지속적인 Cron 작업이 필요합니다. (dependency가 있는 작업들도 존재합니다) 어떻게 작업들을 관리할까요?
    • 처음 서버를 샀습니다. 어떤 보안적 조치를 먼저 하시겠습니까?
    • SSH로의 brute-force attack을 막기 위해서 어떤 조치를 취하고 싶으신가요?
    • 프로세스의 CPU 상태를 보기 위해 top을 했습니다. user,system,iowait중에 뭐를 제일 신경쓰시나요? 이상적인 프로그램이라면 어떻게 저 값들이 나오고 있어야 할까요?
    • iowait이 높게 나왔다면, 내가 해야하는 조치는 무엇인가요? (돈으로 해결하는 방법과 소프트웨어로 해결하는 방법을 대답해주세요)
    • 동시에 10개의 컴퓨터에 라이브러리를 설치하는 일이 빈번히 발생합니다. 어떤 해결책이 있을까요?
    • screen과 tmux중에 뭘 더 좋아하시나요?
    • vim입니까. emacs입니까. 소속을 밝히세요.
    • 가장 좋아하는 리눅스 배포판은 뭡니까. 왜죠?
    • 관리하는 컴퓨터가 10대가 넘었습니다. 중요한 모니터링 지표는 뭐가 있을까요? 뭐로 하실건가요?
    • GIT의 소스가 있고, 서비스 사용중인 웹서버가 10대 이상 넘게 있습니다. 어떻게 배포할건가요?
  8. 분산처리

    • Apache Beam에 대해 아시나요? 기존 하둡과 어떤 차이가 있을까요?
    • 좋게 만들어진 MapReduce는 어떤 프로그램일까요? 데이터의 Size 변화의 관점에서 설명할 수 있을까요?
    • 여러 MR작업의 연쇄로 최종결과물이 나올때, 중간에 작업이 Fail날수 있습니다. 작업의 Fail은 어떻게 모니터링 하시겠습니까? 작업들간의 dependency는 어떻게 해결하시겠습니까?
    • 분산환경의 JOIN은, 보통 디스크, CPU, 네트워크 중 어디에서 병목이 발생할까요? 이를 해결하기 위해 무엇을 해야 할까요?
    • 암달의 법칙에 대해 말해봅시다. 그러므로 왜 shared-nothing 구조로 만들어야 하는지 설명해봅시다.
    • shared-nothing 구조의 단점도 있습니다. 어떤 것이 해당할까요?
    • Spark이 Hadoop보다 빠른 이유를 I/O 최적화 관점에서 생각해봅시다.
    • 카산드라는 망한것 같습니다. 왜 망한것 같나요? 그래도 활용처가 있다면 어디인것 같나요.
    • TB 단위 이상의 기존 데이터와 시간당 GB단위의 신생 로그가 들어오는 서비스에서 모든 가입자에게 개별적으로 계산된 실시간 서비스(웹)를 제공하기 위한 시스템 구조를 구상해봅시다.
    • 대용량 자료를 빠르게 lookup해야 하는 일이 있습니다. (100GB 이상, 100ms언더로 특정자료 찾기). 어떤 백엔드를 사용하시겠나요? 느린 백엔드를 사용한다면 이를 보완할 방법은 뭐가 있을까요?
    • 데이터를 여러 머신으로 부터 모으기 위해 여러 선택지가 있을 수 있습니다. (flume, fluentd등) 아예 소스로부터 kafka등의 메시징 시스템을 바로 쓸 수도 있습니다. 어떤 것을 선호하시나요? 왜죠?
  9. 웹 아키텍쳐

    • 트래픽이 몰리는 상황입니다. AWS의 ELB 세팅을 위해서 웹서버는 어떤 요건을 가져야 쉽게 autoscale가능할까요?
    • 왜 Apache보다 Nginx가 성능이 좋을까요? node.js가 성능이 좋은 이유와 곁들여 설명할 수 있을까요?
    • node.js는 일반적으로 빠르지만 어떤 경우에는 쓰면 안될까요?
    • 하나의 IP에서 여러 도메인의 HTTPS 서버를 운영할 수 있을까요? 안된다면 왜인가요? 또 이걸 해결하는 방법이 있는데 그건 뭘까요?
    • 개발이 한창 진행되는 와중에도 서비스는 계속 운영되어야 합니다. 이를 가능하게 하는 상용 deploy 환경은 어떻게 구현가능한가요? WEB/WAS/DB/Cluster 각각의 영역에서 중요한 변화가 수반되는 경우에도 동작 가능한, 가장 Cost가 적은 방식을 구상하고 시나리오를 만들어봅시다.
  10. 서비스 구현

    • 크롤러를 파이썬으로 구현할 때 BeautifulSoup과 Selenium의 장단점은 무엇일까요?
    • 빈번한 접속으로 우리 IP가 차단되었을 때의 해결책은? (대화로 푼다. 이런거 말구요)
    • 당장 10분안에 사이트의 A/B 테스트를 하고 싶다면 어떻게 해야 할까요? 타 서비스를 써도됩니다.
    • 신규 방문자와 재 방문자를 구별하여 A/B 테스트를 하고 싶다면 어떻게 해야 할까요?
    • R의 결과물을 python으로 만든 대시보드에 넣고 싶다면 어떤 방법들이 가능할까요?
    • 쇼핑몰의 상품별 노출 횟수와 클릭수를 손쉽게 수집하려면 어떻게 해야 할까요?
    • 여러 웹사이트를 돌아다니는 사용자를 하나로 엮어서 보고자 합니다. 우리가 각 사이트의 웹에 우리 코드를 삽입할 수 있다고 가정할 때, 이것이 가능한가요? 가능하다면, 그 방법에는 어떤 것이 있을까요?
    • 고객사 혹은 외부 서버와의 데이터 전달이 필요한 경우가 있습니다. 데이터 전달 과정에서 보안을 위해 당연히(plain text)로 전송하는 것은 안됩니다. 어떤 방법이 있을까요?
  11. 대 고객 사이드

    • 고객이 궁금하다고 말하는 요소가 내가 생각하기에는 중요하지 않고 다른 부분이 더 중요해 보입니다. 어떤 식으로 대화를 풀어나가야 할까요?
    • 현업 카운터 파트와 자주 만나며 실패한 분석까지 같이 공유하는 경우와, 시간을 두고 멋진 결과만 공유하는 케이스에서 무엇을 선택하시겠습니까?
    • 고객이 질문지 리스트를 10개를 주었습니다. 어떤 기준으로 우선순위를 정해야 할까요?
    • 오프라인 데이터가 결합이 되어야 해서, 데이터의 피드백 주기가 매우 느리고 정합성도 의심되는 상황입니다. 우리가 할 수 있는 액션이나 방향 수정은 무엇일까요?
    • 동시에 여러개의 A/B테스트를 돌리기엔 모수가 부족한 상황입니다. 어떻게 해야할까요?
    • 고객사가 과도하게 정보성 대시보드만을 요청할 경우, 어떻게 대처해야 할까요?
    • 고객사에게 위클리 리포트를 제공하고 있었는데, 금주에는 별다른 내용이 없었습니다. 어떻게 할까요?
    • 카페24, 메이크샵 같은 서비스에서 데이터를 어떻게 가져오면 좋을까요?
    • 기존에 같은 목적의 업무를 수행하던 조직이 있습니다. 어떻게 관계 형성을 해 나가야 할까요. 혹은 일이 되게 하기 위해서는 어떤 부분이 해소되어야 할까요.
    • 인터뷰나 강의에 활용하기 위한 백데이터는 어느 수준까지 일반화 해서 사용해야 할까요?
    • 고객사가 우리와 일하고 싶은데 현재는 capa가 되지 않습니다. 어떻게 대처해야 할까요?
  12. 개인정보

    • 어떤 정보들이 개인정보에 해당할까요? ID는 개인정보에 해당할까요? 이를 어기지 않는 합법적 방법으로 식별하고 싶으면 어떻게 해야할까요?
    • 국내 개인 정보 보호 현황에 대한 견해는 어떠한지요? 만약 사업을 진행하는데 장애요소로 작용한다면, 이에 대한 해결 방안은 어떤 것이 있을까요?
    • 제3자 쿠키는 왜 문제가 되나요?








A.3.1 통계 및 수학

  • 고유값(eigen value)와 고유벡터(eigen vector)에 대해 설명해주세요. 그리고 왜 중요할까요?

해당 행렬을 오퍼레이션으로서 가했을 때 오퍼레이션이 가해진 벡터의 상수배가 결과로 출력된다면, 이 배가 된 상수를 ev, 오퍼레이션된 벡터를 evec 이라고 부름. 이는 곧 해당 벡터의 방향은 변하지 않고 위력만 변화했다는 것과 동일함. 본디 행렬은 이동, 반사, 그리고 회전이라는 기능을 모두 보유하고 있음. 그러나 특정 벡터에 대해서는 이러한 기능들이 중화되고 해당 벡터을 늘이고 줄이는 기능만을 하게 되는 것이며, 이는 오퍼레이션으로 사용된 해당 행렬의 성질을 이해하는데 있어 훨씬 쉬운 basis가 됨. 따라서 해당 행렬의 성질을 연구하는데 가장 적합한 basis 가 된다. 고유값과 고유 벡터가 중요한 이유는 그 쓰임세에 있다. 고유 값은 행렬 A를 표현해내는 크기이다. 즉, 고유 값의 크기가 클 수록 행렬 A를 잘 표현한다. 즉, 행렬 A를 고유값과 고유벡터로 분해한 후에 값을 뽑아내는 것이 PCA이다.

  • 샘플링(Sampling)과 리샘플링(Resampling)에 대해 설명해주세요. 리샘플링은 무슨 장점이 있을까요?
  • 확률 모형과 확률 변수는 무엇일까요?

확률 변수 : 확률 공간에서 가지게 될 확률, 확률 모형 : 확률 변수를 0~1 사이로 매핑하기 위한 위한 모형 Probability(x) = P(x) = 확률 변수 x가 발생활 확률 확률변수: 실제 발생하는 사건들의 집합 (이벤트) 를 0에서 1 사이로 매핑하는 함수. 확률모형: 이러한 랜덤변수의 개념을 활용하여 대상 사건, 즉 대상 현상이 어떤 확률 형태를 갖는지를 모델링하고나 하는 일련의 과정. 예를 들어 선형회귀모형 또한 이의 연장임.

  • 누적 분포 함수와 확률 밀도 함수는 무엇일까요? 수식과 함께 표현해주세요

cdf, pdf. pdf의 합.

  • 베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / t 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포 / 디리클레 분포에 대해 설명해주세요. 혹시 연관된 분포가 있다면 연관 관계를 설명해주세요

0혹은 1. 0혹은 1 다회. 선택지 다수 1회. 선택지 다수 다회. normal 분포. 샘플링 상황에서의 노멀분포 모사???????????????? / 노멀분포의 제곱의 분포 / 카이분포의 비의 분포 / ????????????????? / ?????????????????? / ???????????????? 베르누이로 복원추출하면 이항 (이항은 곧 성공횟수). 이항에서 비본원추출하면 초기하. 이항에서

  • 조건부 확률은 무엇일까요?

상황을 제한하고 해당 제한에서의 전체 확률발생을 1로 두고 재계산한 확률

  • 공분산과 상관계수는 무엇일까요? 수식과 함께 표현해주세요
  • 신뢰 구간의 정의는 무엇인가요?

p값이 0.05라고 치면, 충분한 횟수의 실험을 100세트 돌렸다고 할 때, 각 실험의 결과값들을 평균내니 그중 95세트는 평균이 신뢰구간 안에 들어가있더라.

같은 방법으로 (샘플링 method 동일, 샘플링 갯수 동일) 100번 표본을 추출했다면, 각 표본 샘플링 과정에서 동반되어 얻어진 신뢰구간을 모으면 100개가 나온다. 이 100개의 신뢰구간 중 모평균을 포함한 신뢰구간의 숫자가 95개 정도 된다.

  • p-value를 고객에게는 뭐라고 설명하는게 이해하기 편할까요?

귀무가설이 맞다는 전에 하에 (즉 기존 상식이 사실이라는 가정 하에), 표본에서실제로 관측된 통계치와 “같거나 더 극단적인” 통계치가 관측된 확률. 즉, 가설에서 주어진 데이터가 얼마나 가능한지의 확률. 같은지가 핵심이다. 즉 기존 가능성을 반박하는 데이터가 나왔는데 이게 0.1퍼로 발생하는 거라면? 0.1퍼에 얻어걸렸다고 생각하기보단 기존 상식이 틀렸다고 결론짓는 것이 좋을 것.

  • p-value는 요즘 시대에도 여전히 유효할까요? 언제 p-value가 실제를 호도하는 경향이 있을까요?

?????????????????????????????? p값이란 널가설과 대립가설 사이에서의 확률만을 의미함. ??????????????????????????????

  • A/B Test 등 현상 분석 및 실험 설계 상 통계적으로 유의미함의 여부를 결정하기 위한 방법에는 어떤 것이 있을까요?
  • R square의 의미는 무엇인가요?

결정계수. SST(개별 관측값들의 산포정도) 대비 SSR(predict와 실제값의 차이) 의 비율을 구하고 이를 1에서 뺀 비율. 즉 개별 관측값들의 산포 정도에서 predict 를 통해 설명되는 정도를 뺀, 즉 개별 관측값들의 산포 정도에서 predict 를 통해 설명되지 않는 분량을 정규화한 것. 그러니까, 가장 뇌비우고 predict 하는건 그냥 predict 값으로 평균을 던져버리는거란 말이야. 그런데 이러면 뭐 완전히 실패하지는 않겠지만 개개별값들을 추정하는건 그냥 완전히 실패하게됨. 따라서 0. 이제 개별 값들을 완벽하게 트랙하는 predict 펑션이 있다고 하면 이건 1이겠지.

  • 평균(mean)과 중앙값(median)중에 어떤 케이스에서 뭐를 써야할까요?

대부분의 경우에 평균이 좋으나 아웃라이어가 많은 데이터라면 메디안 쪽이 나음.

  • 중심극한정리는 왜 유용한걸까요?

어떤 형태의 데이터든 해당 데이터의 펑션을 노멀 분포를 활용해서 다룰 수 있는 여지를 줌. 해당 데이터 자체에 대한 분포를 추정하는 건 불가능하더라도 평균이라는 통계량에 대해 추정하는 것으로 개별 데이터의 세트에 대해서는 통계적 추정법을 적용하게 해준다.

p값,

  • 엔트로피(entropy)에 대해 설명해주세요. 가능하면 Information Gain도요.

Entropy : 데이터의 혼합성. 엔트로피가 1이라면 = 동일한 개수의 혼잡성 Information Gain : 지정된 속성이 얼마나 잘 example을 구분하는가에 대한 수치. 즉, Information Gain이 상승하면, Entropy가 감소한다.

  • 요즘같은 빅데이터(?)시대에는 정규성 테스트가 의미 없다는 주장이 있습니다. 맞을까요?

거의 사실. 데이터 양이 많아지면 아주 작은 residual 에 의해서도 완전한 정규성은 무너지므로. 검정을 실행하는 비용이 비싸고 데이터 크기가 충분히 크다면 생략해도 무방.

Shaprio-Wilks test 표본수(n)가 2000 미만인 데이터셋에 적합한 정규성 검정 Kolmogorove-Smirnov test 표본수(n)가 2000 초과인 데이터셋에 적합한 정규성 검정 Quantile-Quantile plot (Graphic test) 데이터셋이 정규분포를 따르는지 판단하는 시각적 분석 방법 분석할 데이터 종류가 많지 않다면, QQplot을 통해 시각적으로 확인해보는게 가장 간단하며 직관적이다.

  • 어떨 때 모수적 방법론을 쓸 수 있고, 어떨 때 비모수적 방법론을 쓸 수 있나요?

모수적 방법론은 데이터가 정규성을 가진다는 모수적 특성을 이용하는 통계적 방법론. 데이터가 정규성을 만족한다면 이미 획득되어 있는 분포들을 사용. 표본 크기가 30 이상이면 그냥 써도 되고, 10~30 사이면 노멀리티 한번 거치고. ㅍ본의 갯수가 10개 이하일 경우 무작위추출한 표본은 정규성을 띄지 않음. 따라서 평균이나 분산 같은 패러미터가 존재하지 않는다. 최소한의 가정만을 사용하여 오류가능성이 적고, 범주형 자료와 같은 순위척도 데이터에 적용 가능. 또한 적합도 검정과 같이 모수적 가정에 대한 검정 방법을 제공하며, 순위 (rank) 나 부호 (sign) 에 기초한 방법 위주이므로 outlier 의 영향을 덜 받음. 다만 모수적 방법에 비해 power 가 낮고, 크기의 차이를 제시할 수 없다.

  • “likelihood”와 “probability”의 차이는 무엇일까요?

확률은 0에서 1 사이로 제약된 값. 우도는 아님.

  • 통계에서 사용되는 bootstrap의 의미는 무엇인가요.

반복 복원추출. 보유하고 있는 데이터가 있다. 이 데이터에서 데이터 크기만큼 복원추출하고, 이 복원추출 결과값의 평균을 저장. 이 과정을 부트스트랩 패러미터만큼 실행. 이렇게 획득한 평균값 다수를 오름차수로 나열하고 이로 신뢰구간 형성하면 이를 통해 보유하고 있는 데이터의 수량이 한정되어 있어도 패러미터 추정의 정확도를 높일 수 있음.

  • 모수가 매우 적은 (수십개 이하) 케이스의 경우 어떤 방식으로 예측 모델을 수립할 수 있을까요?

비모수적 모델로 Decision Tree나 Random Forest를 구성

  • 베이지안과 프리퀀티스트간의 입장차이를 설명해주실 수 있나요?

패러미터는 우리의 믿음. 데이터 쌓이면 그 믿음을 수정해나갈 수 있음. 현상에 대한 관찰자의 믿음. 패러미터는 진리. 진리값에 다가갈 뿐. 확률을 객관적으로 발생하는 현상의 빈도수에 대한 기술.

  • 검정력(statistical power)은 무엇일까요?

대립가설이 사실일 때, 이를 사실로서 결정할 확률. 즉, 1 - 유의수준과 동일

  • missing value가 있을 경우 채워야 할까요? 그 이유는 무엇인가요?
  • 아웃라이어의 판단하는 기준은 무엇인가요?

?????????????????????????????? IQR을 기준으로 판단 / 스튜던트화 잔차로 판단. scipy OLSInfluence로 Linear Model을 만들고 OLS의 residual이 3을 넘기는 data를 이상치로 판단한다. ??????????????????????????????

  • 콜센터 통화 지속 시간에 대한 데이터가 존재합니다. 이 데이터를 코드화하고 분석하는 방법에 대한 계획을 세워주세요. 이 기간의 분포가 어떻게 보일지에 대한 시나리오를 설명해주세요
  • 출장을 위해 비행기를 타려고 합니다. 당신은 우산을 가져가야 하는지 알고 싶어 출장지에 사는 친구 3명에게 무작위로 전화를 하고 비가 오는 경우를 독립적으로 질문해주세요. 각 친구는 2/3로 진실을 말하고 1/3으로 거짓을 말합니다. 3명의 친구가 모두 “그렇습니다. 비가 내리고 있습니다”라고 말했습니다. 실제로 비가 내릴 확률은 얼마입니까?

실제로 비가 오고 있다면 셋 모두 진실을 말했으므로 8/27. 안오고 있는거면 1/27. 따라서 8/9.

  • 필요한 표본의 크기를 어떻게 계산합니까?
  • Bias를 통제하는 방법은 무엇입니까?
  • 로그 함수는 어떤 경우 유용합니까? 사례를 들어 설명해주세요

log함수의 특성상, 작은 숫자는 키워주고, 큰 숫자는 작게 만드는 특징이 있다. 따라서, 데이터의 range가 너무 넓을 경우에 유용하다. 백화점 거래 내역 (양파 한 쪽 vs 명품 가방) /음악 반복 재생 횟수(인기 없는 노래 1, 강남스타일 41억등)

분석 일반 - 좋은 feature란 무엇인가요. 이 feature의 성능을 판단하기 위한 방법에는 어떤 것이 있나요?

데이터를 잘 설명할 수 있는 feature가 좋은 feature이며, 그 의미를 잘 파악할 수 있어야 합니다. feature의 성능을 판단하는 방법은 feature importance를 사용해서 확인할 수 있습니다. ex) Decision Tree의 Root Node에 오는 Feature가 더 중요한 Feature일 가능성이 높다

  • “상관관계는 인과관계를 의미하지 않는다”라는 말이 있습니다. 설명해주실 수 있나요?

오래 사는 사람 중에는 인중이 긴 사람이 많다. 인중이 길면 오래 산다. 상관관계는 지능활동 없이 쉽게 서술 가능. 그러나 인과관계는 세심해야 한다. 무균실일지 아닐지 알수 없으므로.

  • A/B 테스트의 장점과 단점, 그리고 단점의 경우 이를 해결하기 위한 방안에는 어떤 것이 있나요?

일명 버킷테스트, 분할-실행 테스트. 세그멘테이션을 분리한 후, 선택지 1과 2에서 각 세그멘테이셔의 통계량 변화를 체크. 세그멘테이션 내부에선 동질이므로 변화는 차이가 발생한 선택지에서만 발생할 것이므로 목표특정량 차이를 선택지 차이로 인한 것으로 판단 가능. 이때 실험을 너무 주기적으로 실행할 경우 효과가 감소할 수 있으며, 실험 주기가 길 경우 취향 변화 등으로 세그멘테이션 내부가 동질이 아니게 될 수 있음. Multi-Armed Bandit (슬롯머신 다수, 1개는 황금, 수익최적화. 황금발견술). 한번씩 플레이하고 좋은 점수 몰빵 - 동전튕겨서 좋은 슬롯머신하거나 다른 슬롯머신 랜덤으로 - 시간이 지난 정도와 해당 머신이 지난 정도를 살피고, 시간이 오래 지났는데 해당 머신이 플레이된 회수가 부실하면, 얘이거 뭔가 되는거 아닌가 하면서 그쪽 고르는 쪽에 웨이트 줘보기

  • 각 고객의 웹 행동에 대하여 실시간으로 상호작용이 가능하다고 할 때에, 이에 적용 가능한 고객 행동 및 모델에 관한 이론을 알아봅시다.

??????????????????????????????????????????????????????????????????????????????????????????????????????????????

  • 고객이 원하는 예측모형을 두가지 종류로 만들었다. 하나는 예측력이 뛰어나지만 왜 그렇게 예측했는지를 설명하기 어려운 random forest 모형이고, 또다른 하나는 예측력은 다소 떨어지나 명확하게 왜 그런지를 설명할 수 있는 sequential bayesian 모형입니다.고객에게 어떤 모형을 추천하겠습니까?

랜덤포레스트. 유저 입장에서 중요한것은 성능이지 알고리즘이 아님. 연구용이면 블랙박스 열어봐야 하긴 하는데 모델을 직접 개발할 입장이 아니라면 단순히 모델을 사용하는 것만으로 충분.

예측력이 필요한 경우 → Random Forest ex) 암 발생 여무 설명력이 필요한 경우 → Sequential Bayesian Model ex) 대출 불가 원인

  • 고객이 내일 어떤 상품을 구매할지 예측하는 모형을 만들어야 한다면 어떤 기법(예: SVM, Random Forest, logistic regression 등)을 사용할 것인지 정하고 이를 통계와 기계학습 지식이 전무한 실무자에게 설명해봅시다.

Decision Tree. 중요한 피쳐들을 기준으로 분류해가며, 어떤 상품을 구매할 지 예측 ex) 성별, 최근에 구매한 상품, 평균 구매 금액, 평균 매장 재방문 일자 등등. 이를 기반으로 상품군을 구매할 타겟들을 나눔

  • 나만의 feature selection 방식을 설명해봅시다.
  • 데이터 간의 유사도를 계산할 때, feature의 수가 많다면(예: 100개 이상), 이러한 high-dimensional clustering을 어떻게 풀어야할까요?

머신러닝

  • Cross Validation은 무엇이고 어떻게 해야하나요?

트레인과 테스트가 있음. 이때 트레인을 트레인과 밸리데이션 용으로 분리하지 않는다면, 우리는 이 상황에서 테스트를 밸리데이션 셋으로 쓰게 됨. 이렇게 고정된 테스트셋으로 밸리데이션을 수행하면 해당 테스트 셋이만 완벽한 오버핏 발생. 즉 데이터 통채로 10개가 있으면 여기서 1개를 테스트로 할당하고 9개는 트레인으로 씀. 여기서 1개를 1번, 2번, 3번 으로 바꾸고 트레인셋도 ^1, ^2, 식으로 바꾸면서 모델 최적화한다는거. 이때 어큐러시를 평가 지표로 쓴다고 하면 이는 평균으로 함. holdout, k-fold, leave-p-out, leave-1-out, stratified k-fold (labeling)

  • 회귀 / 분류시 알맞은 metric은 무엇일까요?

회귀 → MAE, RSME 등등 / 회귀 → ROC-AUC, Accuracy, F1, Precision, Recall 등등

  • 알고 있는 metric에 대해 설명해주세요(ex. RMSE, MAE, recall, precision …)

MAE Mean Absolute Error : 잔차 절대값 평균. 장점:지표 자체가 직관적 / 단점:등락과 같은 지표에 불리, 스케일에 의존적 (1000만 단위 or 1억 단위 등) RMSE Root Mean Absolute Error : 잔차 제곱 평균에 루트. 장점:지표 자체가 직관적 / 단점:등락과 같은 지표에 불리, 스케일에 의존적 Confusion Matrix를 통해 만들어질 수 있는 지표들: Precision, Recall, F1, Accuracy, ROC-AUC 등

  • 정규화를 왜 해야할까요? 정규화의 방법은 무엇이 있나요?

Tree 계열의 모델에는 큰 영향이 없다. 하지만 지수평활함수, 선형 함수에는 영향이 크다 - 데이터의 분포가 다르면, 해당 피쳐에 가해지는 가중치가 더욱 커진다 - 방법 - Min Max Scailing → Minimum = 0 , Maximum = 1로 바꾸어, 0~1사이에 데이터를 분포 - Standard Scailing → 데이터를 정규분포상에 바꾼다

  • Local Minima와 Global Minima에 대해 설명해주세요.

국지적인 최적해, 전역 최적해. 가령 mode 가 3개인 그래프를 위아래로 뒤집은 그래프가 있다고 하면 이중 2번째 리버스 mode 가 최적해임에도 1번째, 3번째 mode 에서 멈춰버리는 것

  • 차원의 저주에 대해 설명해주세요

수학적인 의미에서의 차원 (피쳐) 이 증가하면 증가할수록 가지고 있는 데이터의 성능이 구려짐. 가령 각 피쳐가 가질 수 있는 값이 10개라고 한다면 피쳐가 1개일때는 데이터가 존재할 수 있는 포인트가 10개인데 2개면 100, 3개면 1000임. 따라서 피쳐가 늘어날 수록 가지고 있는 데이터는 무조건 sparse 해질수밖에 없음.

  • dimension reduction기법으로 보통 어떤 것들이 있나요?

PCA(Principal Component Analysis), LDA(Linear Discriminant Analysis), LLE(Locally Linear Embedding), MDS(Multidimensional Scaling), Isomap, t-SNE(t-Distributed Stochastic Neighbor Embedding)

  • PCA는 차원 축소 기법이면서, 데이터 압축 기법이기도 하고, 노이즈 제거기법이기도 합니다. 왜 그런지 설명해주실 수 있나요?
  • LSA, LDA, SVD 등의 약자들이 어떤 뜻이고 서로 어떤 관계를 가지는지 설명할 수 있나요?
  • Markov Chain을 고등학생에게 설명하려면 어떤 방식이 제일 좋을까요?

짜장면 비유. 점심메뉴 선택때 그제 먹었던 메뉴는 상관없고 어제 먹었던 메뉴만을 바탕으로 결정.

  • 텍스트 더미에서 주제를 추출해야 합니다. 어떤 방식으로 접근해 나가시겠나요?
  • SVM은 왜 반대로 차원을 확장시키는 방식으로 동작할까요? 거기서 어떤 장점이 발생했나요?
  • 다른 좋은 머신 러닝 대비, 오래된 기법인 나이브 베이즈(naive bayes)의 장점을 옹호해보세요.
  • Association Rule의 Support, Confidence, Lift에 대해 설명해주세요.
  • 최적화 기법중 Newton’s Method와 Gradient Descent 방법에 대해 알고 있나요?
  • 머신러닝(machine)적 접근방법과 통계(statistics)적 접근방법의 둘간에 차이에 대한 견해가 있나요?

제가 질문을 이해한 바가 맞다면 전자는 블랙박스 내부의 알고리즘에 관심이 없고 후자는 있다는 점에서 차이를 가짐.

  • 인공신경망(deep learning이전의 전통적인)이 가지는 일반적인 문제점은 무엇일까요?
  • 지금 나오고 있는 deep learning 계열의 혁신의 근간은 무엇이라고 생각하시나요?
  • ROC 커브에 대해 설명해주실 수 있으신가요?
  • 여러분이 서버를 100대 가지고 있습니다. 이때 인공신경망보다 Random Forest를 써야하는 이유는 뭘까요?
  • K-means의 대표적 의미론적 단점은 무엇인가요? (계산량 많다는것 말고)
  • L1, L2 정규화에 대해 설명해주세요
  • XGBoost을 아시나요? 왜 이 모델이 캐글에서 유명할까요?
  • 앙상블 방법엔 어떤 것들이 있나요?
  • SVM은 왜 좋을까요?
  • feature vector란 무엇일까요?
  • 좋은 모델의 정의는 무엇일까요?
  • 50개의 작은 의사결정 나무는 큰 의사결정 나무보다 괜찮을까요? 왜 그렇게 생각하나요?
  • 스팸 필터에 로지스틱 리그레션을 많이 사용하는 이유는 무엇일까요?
  • OLS(ordinary least squre) regression의 공식은 무엇인가요?

딥러닝 딥러닝 일반 - 딥러닝은 무엇인가요? 딥러닝과 머신러닝의 차이는? 역전파알고리즘 침체기 - 계층이깊어질수록 입력층과 가까이있는 가중치들의 학습이 잘 일어나지 않음 학습이 잘 이루어진다는 것은 가중치의 변화 발생을 의미. 가중치의 변화가 없다 = cost 함수의 미분값이 0. 기울기 소실: 앞층으로 갈수록 오차가 잘 전달되지 않는 현상 (학습이 이루어지지 않음) 시그모이드의 경우 0, 1로 강제 출력하는 영역에서는 학습이 잘 이루어지지 않음, 도함수의 계산 결과가 역방향으로 전달될 때 출력값이 현저하게 감소됨. 입력층으로 갈수록 미분값이 0에 가까워져 학습효과가 발생하지 않음 - 왜 갑자기 딥러닝이 부흥했을까요? - 마지막으로 읽은 논문은 무엇인가요? 설명해주세요 - Cost Function과 Activation Function은 무엇인가요? - Tensorflow, Keras, PyTorch, Caffe, Mxnet 중 선호하는 프레임워크와 그 이유는 무엇인가요?

각설하고, 책의 모든 내용이 사이킷런(Scikit-learn)을 이용하는데 문득 텐서플로우(Tensorflow)와의 차이점이 무엇인지 궁금해졌다. 통상적으로 머신러닝이라 하면 텐서플로우를 많이 쓰는데, 굳이 사이킷런을 사용하는 이유가 있을까 궁금해졌다. 왜 라이브러리가 아닌 프레임워크라 부르는지 모르겠지만, 이들은 분류, 회귀, 클러스터링, 비정상행위 탐지, 데이터 준비를 위한 다양한 학습 방법을 다루며 인공 신경망 메서드를 포함할 수도, 포함하지 않을 수도 있다. 차이점 출처에 따르면, 텐서플로우는 상대적으로 로우레벨 라이브러리에 가깝고 사이킷런은 하이레벨 라이브러리에 가깝다. 텐서플로우는 신경망이나 딥러닝을 위해 사용되는 데이터 계산, 연산을 위한 라이브러리며 신경망 네트워크 레이어 정의를 위한 메서드도 제공한다. 하지만 결정 트리, 논리 회귀, K-Means, PCA와 같은 머신러닝 메서드는 제공하지 않는다. 이에 비해, 사이킷런(Scikit-learn)은 데이터 마이닝과 머신러닝을 위한 라이브러리다. 딥러닝이나 강화 학습을 다루지 않지만 지도 학습, 비지도 학습에 관련된 다양한 메서드를 제공하기 때문에 간단하게 학습 알고리즘을 사용하고자 한다면 사이킷런이 사용하기 쉽다는 장점이 있다.

  • Data Normalization은 무엇이고 왜 필요한가요?
  • 알고있는 Activation Function에 대해 알려주세요. (Sigmoid, ReLU, LeakyReLU, Tanh 등)
  • 오버피팅일 경우 어떻게 대처해야 할까요?

더 다양하고 많은 훈련 데이터를 모은다. 그러면 자연스럽게 많은 데이터의 feature들을 볼 수 있다. 한 종류의 데이터를 다양하게 불린다는 측면에서 Data Augmentation도 비슷한 방법. 모델의 크기를 축소한다. 즉 모델에 있는 학습 parameter(즉, 가중치)의 수를 줄이는 것. 너무 많은 parameter가 있으면 훈련 데이터에 대해 너무 잘 학습되어서 오버피팅이 발생하므로. 이때 parameter 수는 layer의 수와 각 layer의 노드 수에 의해 결정됨. Dropout을 추가한다. Dropout을 적용하면 훈련하는 동안 무작위로 층의 일부 출력값을 제외시킨다(0으로 만든다). 노이즈를 추가함으로써 훈련 데이터에 대한 너무 좋은 기억을 강제로 삭제시키는 것. Regularization을 추가한다. Regularization은 가중치의 성장을 제한하는, 즉 가중치를 감소시키는 방향으로 그 효과가 나타난다. 가중치의 성장을 제한한다는 것은 기존 학습에 큰 영향을 끼칠 수 있는 데이터를 ’지양’하겠다는 의미. 따라서, 데이터 셋에서 볼 수 있는 일반적인 패턴이 아닌, 몇몇 독특하면서 희소한 패턴을 가지는 데이터에 대한 영향을 덜 받겠다는 것이다. 그러한 데이터의 대표적인 예시로 노이즈와 이상치가 있다. Regularization의 대표적인 예시로 L1 규제와 L2 규제가 있다. 두 Regularization 방법 모두 loss function에 가중치의 크기를 포함시키는 것이다. L1 규제: 가중치의 크기에 상관없이 대상 가중치에서 상수값을 뺀다. 대체적으로 불필요한 가중치의 값을 0으로 만들게 됨. 즉, 중요한 가중치만을 취하기 때문에 sparse한 모델을 만드는데에 적합하다. L2 규제(weight decay): 가중치의 값을 고려해서 대상 가중치에서 값을 뺀다. 즉, 어느 정도 튀는 값에 대응할 수 있지만, 그렇다고 가중치의 값을 0으로 만들지는 않는다. 따라서 이상치나 노이즈가 있는 데이터에 대한 학습을 할 때 좋다. 특히 선형 모델의 일반화에도 좋다.

  • 하이퍼 파라미터는 무엇인가요?
  • Weight Initialization 방법에 대해 말해주세요. 그리고 무엇을 많이 사용하나요?
  • 볼츠만 머신은 무엇인가요?
  • 요즘 Sigmoid 보다 ReLU를 많이 쓰는데 그 이유는?

Vanishing Gradient Problem. sigmoid 의 미분값은 0~0.25 사이이기에 전달되는 weight 가 발산하거나 곡선의 기울기가 0이 되어버림. ReLU의 미분값은 0 혹은 1이라 이 문제에서 자유로움.

  • Non-Linearity라는 말의 의미와 그 필요성은?
  • ReLU로 어떻게 곡선 함수를 근사하나?
  • ReLU의 문제점은?
  • Bias는 왜 있는걸까?
  • Gradient Descent에 대해서 쉽게 설명한다면?
  • 왜 꼭 Gradient를 써야 할까? 그 그래프에서 가로축과 세로축 각각은 무엇인가? 실제 상황에서는 그 그래프가 어떻게 그려질까?
  • GD 중에 때때로 Loss가 증가하는 이유는?
  • 중학생이 이해할 수 있게 더 쉽게 설명 한다면?
  • Back Propagation에 대해서 쉽게 설명 한다면?
  • Local Minima 문제에도 불구하고 딥러닝이 잘 되는 이유는?
  • GD가 Local Minima 문제를 피하는 방법은?
  • 찾은 해가 Global Minimum인지 아닌지 알 수 있는 방법은?
  • Training 세트와 Test 세트를 분리하는 이유는?
  • Validation 세트가 따로 있는 이유는?
  • Test 세트가 오염되었다는 말의 뜻은?
  • Regularization이란 무엇인가?
  • Batch Normalization의 효과는?
  • Dropout의 효과는?
  • BN 적용해서 학습 이후 실제 사용시에 주의할 점은? 코드로는?
  • GAN에서 Generator 쪽에도 BN을 적용해도 될까?
  • SGD, RMSprop, Adam에 대해서 아는대로 설명한다면?
  • SGD에서 Stochastic의 의미는?
  • 미니배치를 작게 할때의 장단점은?
  • 모멘텀의 수식을 적어 본다면?
  • 간단한 MNIST 분류기를 MLP+CPU 버전으로 numpy로 만든다면 몇줄일까?
  • 어느 정도 돌아가는 녀석을 작성하기까지 몇시간 정도 걸릴까?
  • Back Propagation은 몇줄인가?
  • CNN으로 바꾼다면 얼마나 추가될까?
  • 간단한 MNIST 분류기를 TF, Keras, PyTorch 등으로 작성하는데 몇시간이 필요한가?
  • CNN이 아닌 MLP로 해도 잘 될까?
  • 마지막 레이어 부분에 대해서 설명 한다면?
  • 학습은 BCE loss로 하되 상황을 MSE loss로 보고 싶다면?
  • 만약 한글 (인쇄물) OCR을 만든다면 데이터 수집은 어떻게 할 수 있을까?
  • 딥러닝할 때 GPU를 쓰면 좋은 이유는?
  • 학습 중인데 GPU를 100% 사용하지 않고 있다. 이유는?
  • GPU를 두개 다 쓰고 싶다. 방법은?
  • 학습시 필요한 GPU 메모리는 어떻게 계산하는가?
  • TF, Keras, PyTorch 등을 사용할 때 디버깅 노하우는?
  • 뉴럴넷의 가장 큰 단점은 무엇인가? 이를 위해 나온 One-Shot Learning은 무엇인가?

컴퓨터 비전 - OpenCV 라이브러리만을 사용해서 이미지 뷰어(Crop, 흑백화, Zoom 등의 기능 포함)를 만들어주세요 - 딥러닝 발달 이전에 사물을 Detect할 때 자주 사용하던 방법은 무엇인가요? - Fatser R-CNN의 장점과 단점은 무엇인가요? - dlib은 무엇인가요? - YOLO의 장점과 단점은 무엇인가요? - 제일 좋아하는 Object Detection 알고리즘에 대해 설명하고 그 알고리즘의 장단점에 대해 알려주세요 - 그 이후에 나온 더 좋은 알고리즘은 무엇인가요? - Average Pooling과 Max Pooling의 차이점은? - Deep한 네트워크가 좋은 것일까요? 언제까지 좋을까요? - Residual Network는 왜 잘될까요? Ensemble과 관련되어 있을까요? - CAM(Class Activation Map)은 무엇인가요? - Localization은 무엇일까요? - 자율주행 자동차의 원리는 무엇일까요? - Semantic Segmentation은 무엇인가요? - Visual Q&A는 무엇인가요? - Image Captioning은 무엇인가요? - Fully Connected Layer의 기능은 무엇인가요? - Neural Style은 어떻게 진행될까요? - CNN에 대해서 아는대로 얘기하라 - CNN이 MLP보다 좋은 이유는? - 어떤 CNN의 파라미터 개수를 계산해 본다면? - 주어진 CNN과 똑같은 MLP를 만들 수 있나? - 풀링시에 만약 Max를 사용한다면 그 이유는? - 시퀀스 데이터에 CNN을 적용하는 것이 가능할까?

자연어 처리 - One Hot 인코딩에 대해 설명해주세요 - POS 태깅은 무엇인가요? 가장 간단하게 POS tagger를 만드는 방법은 무엇일까요? - 문장에서 “Apple”이란 단어가 과일인지 회사인지 식별하는 모델을 어떻게 훈련시킬 수 있을까요? - 뉴스 기사에 인용된 텍스트의 모든 항목을 어떻게 찾을까요? - 음성 인식 시스템에서 생성된 텍스트를 자동으로 수정하는 시스템을 어떻게 구축할까요? - 잠재론적, 의미론적 색인은 무엇이고 어떻게 적용할 수 있을까요? - 영어 텍스트를 다른 언어로 번역할 시스템을 어떻게 구축해야 할까요? - 뉴스 기사를 주제별로 자동 분류하는 시스템을 어떻게 구축할까요? - Stop Words는 무엇일까요? 이것을 왜 제거해야 하나요? - 영화 리뷰가 긍정적인지 부정적인지 예측하기 위해 모델을 어떻게 설계하시겠나요? - TF-IDF 점수는 무엇이며 어떤 경우 유용한가요? - 한국어에서 많이 사용되는 사전은 무엇인가요? - Regular grammar는 무엇인가요? regular expression과 무슨 차이가 있나요? - RNN에 대해 설명해주세요 - LSTM은 왜 유용한가요? - Translate 과정 Flow에 대해 설명해주세요 - n-gram은 무엇일까요? - PageRank 알고리즘은 어떻게 작동하나요? - depedency parsing란 무엇인가요? - Word2Vec의 원리는? - 그 그림에서 왼쪽 파라메터들을 임베딩으로 쓰는 이유는? - 그 그림에서 오른쪽 파라메터들의 의미는 무엇일까? - 남자와 여자가 가까울까? 남자와 자동차가 가까울까? - 번역을 Unsupervised로 할 수 있을까?

강화학습

  • MDP는 무엇일까요?
  • 가치함수는 무엇일까요? 수식으로도 표현해주세요
  • 벨만 방정식은 무엇일까요? 수식으로도 표현해주세요
  • 강화학습에서 다이나믹 프로그래밍은 어떤 의미를 가질까요? 한계점은 무엇이 있을까요?
  • 몬테카를로 근사는 무엇일까요? 가치함수를 추정할 때 어떻게 사용할까요?
  • Value-based Reinforcement Learning과 Policy based Reinforcement Learning는 무엇이고 어떤 관계를 가질까요?
  • 강화학습이 어려운 이유는 무엇일까요? 그것을 어떤 방식으로 해결할 수 있을까요?
  • 강화학습을 사용해 테트리스에서 고득점을 얻는 프로그램을 만드려고 합니다. 어떻게 만들어야 할까요?

GAN

  • GAN에 대해 아는대로 설명해주세요
  • GAN의 단점은 무엇인가요?
  • LSGAN에 대해 설명해주세요
  • GAN이 왜 뜨고 있나요?
  • Auto Encoder에 대해서 아는대로 얘기하라
  • MNIST AE를 TF나 Keras등으로 만든다면 몇줄일까?
  • MNIST에 대해서 임베딩 차원을 1로 해도 학습이 될까?
  • 임베딩 차원을 늘렸을 때의 장단점은?
  • AE 학습시 항상 Loss를 0으로 만들수 있을까?
  • VAE는 무엇인가?
  • 간단한 MNIST DCGAN을 작성한다면 TF 등으로 몇줄 정도 될까?
  • GAN의 Loss를 적어보면?
  • D를 학습할때 G의 Weight을 고정해야 한다. 방법은?
  • 학습이 잘 안될때 시도해 볼 수 있는 방법들은?

추천 시스템

  • 추천 시스템에서 사용할 수 있는 거리는 무엇이 있을까요?
  • User 베이스 추천 시스템과 Item 베이스 추천 시스템 중 단기간에 빠른 효율을 낼 수 있는 것은 무엇일까요?
  • 성능 평가를 위해 어떤 지표를 사용할까요?
  • Explicit Feedback과 Implicit Feedback은 무엇일까요? Impicit Feedback을 어떻게 Explicit하게 바꿀 수 있을까요?
  • Matrix Factorization은 무엇인가요? 해당 알고리즘의 장점과 단점은?
  • SQL으로 조회 기반 Best, 구매 기반 Best, 카테고리별 Best를 구하는 쿼리를 작성해주세요
  • 추천 시스템에서 KNN 알고리즘을 활용할 수 있을까요?
  • 유저가 10만명, 아이템이 100만개 있습니다. 이 경우 추천 시스템을 어떻게 구성하시겠습니까?
  • 딥러닝을 활용한 추천 시스템의 사례를 알려주세요
  • 두 추천엔진간의 성능 비교는 어떤 지표와 방법으로 할 수 있을까요? 검색엔진에서 쓰던 방법을 그대로 쓰면 될까요? 안될까요?
  • Collaborative Filtering에 대해 설명한다면?
  • Cold Start의 경우엔 어떻게 추천해줘야 할까요?
  • 고객사들은 기존 추천서비스에 대한 의문이 있습니다. 주로 매출이 실제 오르는가 하는 것인데, 이를 검증하기 위한 방법에는 어떤 것이 있을까요? 위 관점에서 우리 서비스의 성능을 고객에게 명확하게 인지시키기 위한 방법을 생각해봅시다.

데이터베이스

  • PostgreSQL의 장점은 무엇일까요?
  • 인덱스는 크게 Hash 인덱스와 B+Tree 인덱스가 있습니다. 이것은 무엇일까요?
  • 인덱스 Scan 방식은 무엇이 있나요?
  • 인덱스 설계시 NULL값은 고려되야 할까요?
  • Nested Loop 조인은 무엇일까요?
  • Windows 함수는 무엇이고 어떻게 작성할까요?
  • KNN 알고리즘을 쿼리로 구현할 수 있을까요?
  • MySQL에서 대량의 데이터(500만개 이상)를 Insert해야하는 경우엔 어떻게 해야할까요?
  • RDB의 char와 varchar의 차이는 무엇일까요?
  • 구글의 BigQuery, AWS의 Redshift는 기존 RDB와 무슨 차이가 있을까요? 왜 빠를까요?
  • 쿼리의 성능을 확인하기 위해 어떤 쿼리문을 작성해야 할까요?
  • MySQL이 요새 느리다는 신고가 들어왔습니다. 첫번째로 무엇을 확인하시고 조정하시겠나요?
  • 동작하는 MySQL에 Alter table을 하면 안되는 이유를 설명해주세요. 그리고 대안을 설명해주세요
  • 빡세게 동작하고 있는 MySQL을 백업뜨기 위해서는 어떤 방법이 필요할까요?

데이터 시각화

  • 네트워크 관계를 시각화해야 할 경우 어떻게 해야할까요?
  • Tableau같은 BI Tool은 어느 경우 도입하면 좋을까요?
  • “신규/재방문자별 지역별(혹은 일별) 방문자수와 구매전환율”이나 “고객등급별 최근방문일별 고객수와 평균구매금액”와 같이 4가지 이상의 정보를 시각화하는 가장 좋은 방법을 추천해주세요
  • 구매에 영향을 주는 요소의 발견을 위한 관점에서, 개인에 대한 쇼핑몰 웹 활동의 시계열 데이터를 효과적으로 시각화하기 위한 방법은 무엇일까요? 표현되어야 하는 정보(feature)는 어떤 것일까요? 실제시 어떤 것이 가장 고민될까요?
  • 파이차트는 왜 구릴까요? 언제 구린가요? 안구릴때는 언제인가요?
  • 히스토그램의 가장 큰 문제는 무엇인가요?
  • 워드클라우드는 보기엔 예쁘지만 약점이 있습니다. 어떤 약점일까요?
  • 어떤 1차원값이, 데이터가 몰려있어서 직선상에 표현했을 때 보기가 쉽지 않습니다. 어떻게 해야할까요?

시스템 엔지니어링

  • 지속적인 Cron 작업이 필요합니다. (dependency가 있는 작업들도 존재합니다) 어떻게 작업들을 관리할까요?
  • 처음 서버를 샀습니다. 어떤 보안적 조치를 먼저 하시겠습니까?
  • SSH로의 brute-force attack을 막기 위해서 어떤 조치를 취하고 싶으신가요?
  • 프로세스의 CPU 상태를 보기 위해 top을 했습니다. user,system,iowait중에 뭐를 제일 신경쓰시나요? 이상적인 프로그램이라면 어떻게 저 값들이 나오고 있어야 할까요?
  • iowait이 높게 나왔다면, 내가 해야하는 조치는 무엇인가요? (돈으로 해결하는 방법과 소프트웨어로 해결하는 방법을 대답해주세요)
  • 동시에 10개의 컴퓨터에 라이브러리를 설치하는 일이 빈번히 발생합니다. 어떤 해결책이 있을까요?
  • screen과 tmux중에 뭘 더 좋아하시나요?
  • vim입니까. emacs입니까. 소속을 밝히세요.
  • 가장 좋아하는 리눅스 배포판은 뭡니까. 왜죠?
  • 관리하는 컴퓨터가 10대가 넘었습니다. 중요한 모니터링 지표는 뭐가 있을까요? 뭐로 하실건가요?
  • GIT의 소스가 있고, 서비스 사용중인 웹서버가 10대 이상 넘게 있습니다. 어떻게 배포할건가요?

분산처리

  • Apache Beam에 대해 아시나요? 기존 하둡과 어떤 차이가 있을까요?
  • 좋게 만들어진 MapReduce는 어떤 프로그램일까요? 데이터의 Size 변화의 관점에서 설명할 수 있을까요?
  • 여러 MR작업의 연쇄로 최종결과물이 나올때, 중간에 작업이 Fail날수 있습니다. 작업의 Fail은 어떻게 모니터링 하시겠습니까? 작업들간의 dependency는 어떻게 해결하시겠습니까?
  • 분산환경의 JOIN은, 보통 디스크, CPU, 네트워크 중 어디에서 병목이 발생할까요? 이를 해결하기 위해 무엇을 해야 할까요?
  • 암달의 법칙에 대해 말해봅시다. 그러므로 왜 shared-nothing 구조로 만들어야 하는지 설명해봅시다.
  • shared-nothing 구조의 단점도 있습니다. 어떤 것이 해당할까요?
  • Spark이 Hadoop보다 빠른 이유를 I/O 최적화 관점에서 생각해봅시다.
  • 카산드라는 망한것 같습니다. 왜 망한것 같나요? 그래도 활용처가 있다면 어디인것 같나요.
  • TB 단위 이상의 기존 데이터와 시간당 GB단위의 신생 로그가 들어오는 서비스에서 모든 가입자에게 개별적으로 계산된 실시간 서비스(웹)를 제공하기 위한 시스템 구조를 구상해봅시다.
  • 대용량 자료를 빠르게 lookup해야 하는 일이 있습니다. (100GB 이상, 100ms언더로 특정자료 찾기). 어떤 백엔드를 사용하시겠나요? 느린 백엔드를 사용한다면 이를 보완할 방법은 뭐가 있을까요?
  • 데이터를 여러 머신으로 부터 모으기 위해 여러 선택지가 있을 수 있습니다. (flume, fluentd등) 아예 소스로부터 kafka등의 메시징 시스템을 바로 쓸 수도 있습니다. 어떤 것을 선호하시나요? 왜죠?

웹 아키텍쳐

  • 트래픽이 몰리는 상황입니다. AWS의 ELB 세팅을 위해서 웹서버는 어떤 요건을 가져야 쉽게 autoscale가능할까요?
  • 왜 Apache보다 Nginx가 성능이 좋을까요? node.js가 성능이 좋은 이유와 곁들여 설명할 수 있을까요?
  • node.js는 일반적으로 빠르지만 어떤 경우에는 쓰면 안될까요?
  • 하나의 IP에서 여러 도메인의 HTTPS 서버를 운영할 수 있을까요? 안된다면 왜인가요? 또 이걸 해결하는 방법이 있는데 그건 뭘까요?
  • 개발이 한창 진행되는 와중에도 서비스는 계속 운영되어야 합니다. 이를 가능하게 하는 상용 deploy 환경은 어떻게 구현가능한가요? WEB/WAS/DB/Cluster 각각의 영역에서 중요한 변화가 수반되는 경우에도 동작 가능한, 가장 Cost가 적은 방식을 구상하고 시나리오를 만들어봅시다.

서비스 구현

  • 크롤러를 파이썬으로 구현할 때 BeautifulSoup과 Selenium의 장단점은 무엇일까요?
  • 빈번한 접속으로 우리 IP가 차단되었을 때의 해결책은? (대화로 푼다. 이런거 말구요)
  • 당장 10분안에 사이트의 A/B 테스트를 하고 싶다면 어떻게 해야 할까요? 타 서비스를 써도됩니다.
  • 신규 방문자와 재 방문자를 구별하여 A/B 테스트를 하고 싶다면 어떻게 해야 할까요?
  • R의 결과물을 python으로 만든 대시보드에 넣고 싶다면 어떤 방법들이 가능할까요?
  • 쇼핑몰의 상품별 노출 횟수와 클릭수를 손쉽게 수집하려면 어떻게 해야 할까요?
  • 여러 웹사이트를 돌아다니는 사용자를 하나로 엮어서 보고자 합니다. 우리가 각 사이트의 웹에 우리 코드를 삽입할 수 있다고 가정할 때, 이것이 가능한가요? 가능하다면, 그 방법에는 어떤 것이 있을까요?
  • 고객사 혹은 외부 서버와의 데이터 전달이 필요한 경우가 있습니다. 데이터 전달 과정에서 보안을 위해 당연히(plain text)로 전송하는 것은 안됩니다. 어떤 방법이 있을까요?

대 고객 사이드

  • 고객이 궁금하다고 말하는 요소가 내가 생각하기에는 중요하지 않고 다른 부분이 더 중요해 보입니다. 어떤 식으로 대화를 풀어나가야 할까요?
  • 현업 카운터 파트와 자주 만나며 실패한 분석까지 같이 공유하는 경우와, 시간을 두고 멋진 결과만 공유하는 케이스에서 무엇을 선택하시겠습니까?
  • 고객이 질문지 리스트를 10개를 주었습니다. 어떤 기준으로 우선순위를 정해야 할까요?
  • 오프라인 데이터가 결합이 되어야 해서, 데이터의 피드백 주기가 매우 느리고 정합성도 의심되는 상황입니다. 우리가 할 수 있는 액션이나 방향 수정은 무엇일까요?
  • 동시에 여러개의 A/B테스트를 돌리기엔 모수가 부족한 상황입니다. 어떻게 해야할까요?
  • 고객사가 과도하게 정보성 대시보드만을 요청할 경우, 어떻게 대처해야 할까요?
  • 고객사에게 위클리 리포트를 제공하고 있었는데, 금주에는 별다른 내용이 없었습니다. 어떻게 할까요?
  • 카페24, 메이크샵 같은 서비스에서 데이터를 어떻게 가져오면 좋을까요?
  • 기존에 같은 목적의 업무를 수행하던 조직이 있습니다. 어떻게 관계 형성을 해 나가야 할까요. 혹은 일이 되게 하기 위해서는 어떤 부분이 해소되어야 할까요.
  • 인터뷰나 강의에 활용하기 위한 백데이터는 어느 수준까지 일반화 해서 사용해야 할까요?
  • 고객사가 우리와 일하고 싶은데 현재는 capa가 되지 않습니다. 어떻게 대처해야 할까요?

개인정보

  • 어떤 정보들이 개인정보에 해당할까요? ID는 개인정보에 해당할까요? 이를 어기지 않는 합법적 방법으로 식별하고 싶으면 어떻게 해야할까요?
  • 국내 개인 정보 보호 현황에 대한 견해는 어떠한지요? 만약 사업을 진행하는데 장애요소로 작용한다면, 이에 대한 해결 방안은 어떤 것이 있을까요?
  • 제3자 쿠키는 왜 문제가 되나요?

Reference

하용호님 자료 남세동님 자료 Data Science Interview Questions & Detailed Answers Deep Learning Interview Questions and Answers Must know questions deeplearning : 객관식 딥러닝 문제 My deep learning job interview experience sharing Natural Language Processing Engineer Interview Questions

카일스쿨 유튜브 채널을 만들었습니다. 데이터 사이언스, 성장, 리더십, BigQuery 등을 이야기할 예정이니, 관심 있으시면 구독 부탁드립니다 :)

이 글이 도움이 되셨다면 추천 클릭을 부탁드립니다 :)