En İyi 50 Veri Bilimi Mülakat Soruları ve Cevapları

Aşağıda, yeni başlayanlar ve deneyimli Veri Bilimcisi için iş görüşmelerinde sıkça sorulan sorular bulunmaktadır.

1. Veri Bilimi Nedir?

Veri Bilimi, verilen ham verilerden ortak gizli kalıpları bulmanıza yardımcı olan algoritmalar, araçlar ve makine öğrenme tekniğinin bir birleşimidir.

2. Veri Biliminde lojistik regresyon nedir?

Lojistik Regresyon, logit modeli olarak da adlandırılır. Tahmin değişkenlerinin doğrusal bir kombinasyonundan ikili sonucu tahmin etmek için bir yöntemdir.

3. Örnekleme sırasında oluşabilecek üç tür yanlılığı belirtin

Örnekleme sürecinde, üç tür önyargı vardır:

  • seçim yanlılığı
  • Kapsama önyargısı altında
  • Hayatta kalma yanlılığı

4. Karar Ağacı algoritmasını tartışın

Karar ağacı, popüler bir denetimli makine öğrenimi algoritmasıdır. Esas olarak Regresyon ve Sınıflandırma için kullanılır. Bir veri kümesini daha küçük alt kümelere ayırmaya izin verir. Karar ağacı hem kategorik hem de sayısal verileri işleyebilir.

5. Ön olasılık ve olasılık nedir?

Ön olasılık, veri kümesindeki bağımlı değişkenin oranıdır, olabilirlik ise belirli bir gözlemciyi başka bir değişkenin varlığında sınıflandırma olasılığıdır.

6. Öneri Sistemlerini Açıkla?

Bilgi filtreleme tekniklerinin bir alt sınıfıdır. Kullanıcıların bir ürüne verebileceği tercihleri ​​veya derecelendirmeleri tahmin etmenize yardımcı olur.

7. Doğrusal bir model kullanmanın üç dezavantajını belirtin

Doğrusal modelin üç dezavantajı şunlardır:

  • Hataların doğrusallığı varsayımı.
  • Bu modeli ikili veya sayım sonuçları için kullanamazsınız
  • Çözemediği çok fazla aşırı takma sorunu var

8. Neden yeniden örnekleme yapmanız gerekiyor?

Yeniden örnekleme aşağıda verilen durumlarda yapılır:

  • Bir veri noktası kümesinden rastgele çizim yaparak veya erişilebilir veri alt kümeleri olarak kullanarak örnek istatistiklerin doğruluğunu tahmin etme
  • Gerekli testler yapılırken veri noktalarında etiketlerin değiştirilmesi
  • Rastgele alt kümeler kullanarak modelleri doğrulama

9. Python'da Veri Analizi ve Bilimsel Hesaplamalar için kullanılan kütüphaneleri listeleyin.

  • bilim
  • pandalar
  • matplotlib
  • Dizi
  • Bilim Kiti
  • deniz doğumu

10. Güç Analizi Nedir?

Güç analizi, deneysel tasarımın ayrılmaz bir parçasıdır. Belirli bir güvence düzeyine sahip bir nedenden belirli bir boyutun etkisini bulmak için gereken örnek boyutunu belirlemenize yardımcı olur. Ayrıca, belirli bir olasılığı bir örnek boyutu kısıtlamasında dağıtmanıza da olanak tanır.

11. İşbirlikçi filtrelemeyi açıklayın

Bakış açıları, çoklu veri kaynakları ve çeşitli aracılar arasında işbirliği yaparak doğru kalıpları aramak için kullanılan işbirlikçi filtreleme.

12. Önyargı nedir?

Önyargı, bir makine öğrenimi algoritmasının aşırı basitleştirilmesi nedeniyle modelinizde ortaya çıkan bir hatadır.' Yetersizliğe yol açabilir.

13. Naive Bayes algoritmasında 'Naive' tartışılsın mı?

Naive Bayes Algoritması modeli, Bayes Teoremine dayanmaktadır. Bir olayın olasılığını tanımlar. Belirli bir olayla ilgili olabilecek koşulların ön bilgisine dayanır.

14. Doğrusal Regresyon Nedir?

Doğrusal regresyon, bir 'A' değişkeninin puanının, ikinci bir 'B' değişkeninin puanından tahmin edildiği bir istatistiksel programlama yöntemidir. B yordayıcı değişken, A ise ölçüt değişkeni olarak adlandırılır.

15. Beklenen değer ile ortalama değer arasındaki farkı belirtin

Aralarında çok fazla fark yoktur, ancak bu terimlerin her ikisi de farklı bağlamlarda kullanılmaktadır. Bir olasılık dağılımını tartışırken ortalama değere genellikle atıfta bulunulurken, beklenen değere rastgele bir değişken bağlamında atıfta bulunulur.

16. A/B Testi yapmanın amacı nedir?

AB testi, A ve B olmak üzere iki değişkenle rastgele deneyler yapmak için kullanılır. Bu test yönteminin amacı, bir stratejinin sonucunu en üst düzeye çıkarmak veya artırmak için bir web sayfasındaki değişiklikleri bulmaktır.

17. Topluluk Öğrenmesi Nedir?

Topluluk, modelin kararlılığı ve tahmin gücü üzerinde doğaçlama yapmak için çeşitli öğrenenleri bir araya getirme yöntemidir. İki tür Topluluk öğrenme yöntemi vardır:

Torbalama

Torbalama yöntemi, benzer öğrenicileri küçük örnek popülasyonlar üzerinde uygulamanıza yardımcı olur. Daha yakın tahminler yapmanıza yardımcı olur.

Artırma

Hızlandırma, son sınıflandırmaya bağlı olarak bir gözlemin ağırlığını ayarlamanıza izin veren yinelemeli bir yöntemdir. Yükseltme, önyargı hatasını azaltır ve güçlü tahmine dayalı modeller oluşturmanıza yardımcı olur.

18. Özdeğer ve Özvektörü Açıklayın

Özvektörler doğrusal dönüşümleri anlamak içindir. Veri bilimcisinin bir kovaryans matrisi veya korelasyon için özvektörleri hesaplaması gerekir. Özdeğerler, sıkıştırma, çevirme veya germe yoluyla belirli doğrusal dönüşüm eylemlerinin kullanıldığı yönlerdir.

19. Çapraz doğrulama terimini tanımlayın

Çapraz doğrulama, istatistiksel analiz sonuçlarının Bağımsız bir veri kümesi için nasıl genelleştirileceğini değerlendirmek için bir doğrulama tekniğidir. Bu yöntem, hedefin tahmin edildiği ve bir modelin ne kadar doğru bir şekilde başarılacağının tahmin edilmesi gereken arka planlarda kullanılır.

20. Veri analitiği projesinin adımlarını açıklayın

Bir analitik projesinde yer alan önemli adımlar şunlardır:

  • İş sorununu anlayın
  • Verileri keşfedin ve dikkatlice inceleyin.
  • Eksik değerleri bularak ve değişkenleri dönüştürerek verileri modelleme için hazırlayın.
  • Modeli çalıştırmaya başlayın ve Büyük veri sonucunu analiz edin.
  • Modeli yeni veri seti ile doğrulayın.
  • Modeli uygulayın ve belirli bir dönem için modelin performansını analiz etmek için sonucu izleyin.

21. Yapay Sinir Ağlarını Tartış

Yapay Sinir ağları (YSA), makine öğreniminde devrim yaratan özel bir algoritma setidir. Değişen girdilere göre uyum sağlamanıza yardımcı olur. Böylece ağ, çıktı kriterlerini yeniden tasarlamadan mümkün olan en iyi sonucu üretir.

22. Geri Yayılım Nedir?

Geri yayılım, sinir ağı eğitiminin özüdür. Bir önceki çağda elde edilen hata oranına bağlı olarak bir sinir ağının ağırlıklarını ayarlama yöntemidir. Doğru ayarlama, hata oranlarını azaltmanıza ve genellemeyi artırarak modeli güvenilir hale getirmenize yardımcı olur.

23. Rastgele Orman Nedir?

Rastgele orman, her türlü regresyon ve sınıflandırma görevini gerçekleştirmenize yardımcı olan bir makine öğrenme yöntemidir. Ayrıca eksik değerleri ve aykırı değerleri tedavi etmek için kullanılır.

24. Seçim yanlılığına sahip olmanın önemi nedir?

Seçim Yanlılığı, analiz edilecek bireyler veya gruplar veya veriler seçilirken belirli bir rastgeleleştirme yapılmadığında ortaya çıkar. Verilen örneğin, analiz edilmesi amaçlanan popülasyonu tam olarak temsil etmediğini göstermektedir.

25. K-araç kümeleme yöntemi nedir?

K-ortalama kümeleme önemli bir denetimsiz öğrenme yöntemidir. K kümeleri adı verilen belirli bir küme kümesini kullanarak verileri sınıflandırma tekniğidir. Verilerdeki benzerliği bulmak için gruplama için konuşlandırılır.

26. Veri Bilimi ve Veri Analitiği arasındaki farkı açıklayın

Veri Bilimcilerinin, bir veri analistinin gerçek dünyadaki iş senaryolarına uygulayabileceği değerli içgörüler elde etmek için verileri dilimlemeleri gerekir. İkisi arasındaki temel fark, veri bilimcilerinin iş analistinden daha fazla teknik bilgiye sahip olmasıdır. Ayrıca, veri görselleştirme için gereken iş anlayışına ihtiyaç duymazlar.

27. p-değerini açıklayınız?

İstatistikte bir hipotez testi yaptığınızda, bir p değeri, sonuçlarınızın gücünü belirlemenize olanak tanır. 0 ile 1 arasında sayısal bir sayıdır. Değere bağlı olarak, belirli sonucun gücünü belirtmenize yardımcı olacaktır.

28. Derin öğrenme terimini tanımlayın

Derin Öğrenme, makine öğreniminin bir alt türüdür. Yapay sinir ağları (YSA) adı verilen yapıdan ilham alan algoritmalarla ilgilenir.

29. Hava durumunu tahmin etmek için sosyal medyayı kullanmak için veri toplama ve analiz etme yöntemini açıklayın.

Facebook, twitter, Instagram'ın API'lerini kullanarak sosyal medya verilerini toplayabilirsiniz. Örneğin, tweeter için her tweet'ten tweet tarihi, retweetler, takipçi listesi gibi bir özellik oluşturabiliriz. Ardından hava durumunu tahmin etmek için çok değişkenli bir zaman serisi modeli kullanabilirsiniz.

30. Veri biliminde algoritmayı ne zaman güncellemeniz gerekiyor?

Aşağıdaki durumda bir algoritmayı güncellemeniz gerekir:

  • Veri modelinizin altyapıyı kullanarak veri akışları olarak gelişmesini istiyorsunuz
  • Temel alınan veri kaynağı değişiyor

    Durağan olmayan ise

31. Normal Dağılım Nedir?

Normal dağılım, normal bir eğri boyunca veya bir çan eğrisi şeklinde yayılan bir sürekli değişken kümesidir. İstatistikte faydalı olan sürekli bir olasılık dağılımı olarak düşünebilirsiniz. Normal dağılım eğrisini kullanırken değişkenleri ve aralarındaki ilişkileri analiz etmek yararlıdır.

32. Metin analizi için en iyi dil hangisidir? R veya Python?

Python, pandalar olarak bilinen zengin bir kütüphaneden oluştuğu için metin analitiği için daha uygun olacaktır. R, bu özelliği sunmazken, üst düzey veri analiz araçlarını ve veri yapılarını kullanmanızı sağlar.

33. Veri Bilimcileri tarafından istatistik kullanmanın faydalarını açıklayın

İstatistikler, Veri bilimcisinin müşterinin beklentisi hakkında daha iyi bir fikir edinmesine yardımcı olur. İstatistik yöntemini kullanarak Veri Bilimciler, tüketici ilgisi, davranışı, katılımı, elde tutma vb. hakkında bilgi edinebilir. Ayrıca, belirli çıkarımları ve tahminleri doğrulamak için güçlü veri modelleri oluşturmanıza yardımcı olur.

34. Çeşitli Derin Öğrenme Çerçevelerini adlandırın

  • Pytorch
  • Microsoft Bilişsel Araç Seti
  • TensorFlow
  • Kahve
  • zincirleme
  • Zor

35.Otomatik Kodlayıcıyı Açıklayın

Otomatik kodlayıcılar öğrenen ağlardır. Girdileri daha az sayıda hatayla çıktılara dönüştürmenize yardımcı olur. Bu, çıktının girdiye mümkün olduğunca yakın olacağı anlamına gelir.

36. Boltzmann Makinesini Tanımlayın

Boltzmann makineleri basit bir öğrenme algoritmasıdır. Eğitim verilerinde karmaşık düzenlilikleri temsil eden özellikleri keşfetmenize yardımcı olur. Bu algoritma, verilen problem için ağırlıkları ve miktarı optimize etmenizi sağlar.

37. Veri Temizlemenin neden gerekli olduğunu ve temiz verileri korumak için hangi yöntemi kullandığınızı açıklayın

Kirli veriler genellikle herhangi bir organizasyonun beklentisine zarar verebilecek yanlış iç bilgilere yol açar. Örneğin, hedefli bir pazarlama kampanyası yürütmek istiyorsanız. Ancak, verilerimiz size yanlış bir şekilde belirli bir ürünün hedef kitleniz tarafından talep göreceğini söylüyor; kampanya başarısız olacak.

38. Çarpık Dağılım ve düzgün dağılım nedir?

Veriler grafiğin herhangi bir tarafında dağıtılırsa çarpık dağılım meydana gelirken, veriler aralıkta eşit olduğunda tekdüze dağılım tanımlanır.

39. Statik bir modelde yetersiz donatım ne zaman oluşur?

Eksik uydurma, istatistiksel bir model veya makine öğrenimi algoritması, verilerin altında yatan eğilimi yakalayamadığında meydana gelir.

40. Takviyeli öğrenme nedir?

Takviyeli Öğrenme, durumların eylemlere nasıl eşleneceğine dair bir öğrenme mekanizmasıdır. Nihai sonuç, ikili ödül sinyalini artırmanıza yardımcı olacaktır. Bu yöntemde, bir öğrenciye hangi eylemi yapması gerektiği söylenmez, bunun yerine hangi eylemin maksimum ödül sunduğunu keşfetmesi gerekir. Bu yöntem ödül/ceza mekanizmasına dayanmaktadır.

41. Yaygın olarak kullanılan algoritmaları adlandırın.

Veri bilimcisi tarafından en sık kullanılan dört algoritma şunlardır:

  • Doğrusal regresyon
  • Lojistik regresyon
  • Rastgele Orman
  • KNN

42. Kesinlik nedir?

Kesinlik, en yaygın olarak kullanılan hata ölçüsüdür ve sınıflandırma mekanizmasıdır. Aralığı 0 ile 1 arasındadır, burada 1 %100'ü temsil eder

43. Tek değişkenli analiz nedir?

Hiçbir özniteliğe aynı anda uygulanan bir analiz, tek değişkenli analiz olarak bilinir. Boxplot yaygın olarak kullanılan, tek değişkenli bir modeldir.

44. Bulgularınıza yönelik zorlukların üstesinden nasıl gelirsiniz?

Bulduğum zorlukların üstesinden gelmek için tartışmayı teşvik etmek, Liderlik göstermek ve farklı seçeneklere saygı duymak gerekir.

45. Veri biliminde küme örnekleme tekniğini açıklayın

Genele yayılmış hedef popülasyonu incelemek zor olduğunda bir küme örnekleme yöntemi kullanılır ve basit rastgele örnekleme uygulanamaz.

46. ​​Doğrulama Seti ile Test Seti arasındaki farkı belirtin

Bir Doğrulama seti, inşa edilen modelin fazla takılmasını önlemenize yardımcı olan parametre seçimi için kullanıldığı için çoğunlukla eğitim setinin bir parçası olarak kabul edilir.

Eğitimli bir makine öğrenimi modelinin performansını test etmek veya değerlendirmek için bir Test Seti kullanılırken.

47. Binom Olasılık Formülü terimini açıklayınız?

'Binom dağılımı, meydana gelme olasılığı π olan bağımsız olaylar için N denemede olası her başarı olasılığını içerir.'

48. Geri çağırma nedir?

Geri çağırma, gerçek pozitif oranın gerçek pozitif orana karşı oranıdır. 0 ile 1 arasında değişir.

49. Normal dağılımı tartışın

Normal dağılım, ortalama, medyan ve mod eşit olduğu için eşit olarak dağıtılır.

50. Bir veri seti üzerinde çalışırken önemli değişkenleri nasıl seçebilirsiniz? Açıklamak

Aşağıdaki değişken seçimi yöntemlerini kullanabilirsiniz:

  • Önemli değişkenleri seçmeden önce ilişkili değişkenleri kaldırın
  • Doğrusal regresyon kullanın ve bu p değerlerine bağlı değişkenleri seçin.
  • Geri, İleri Seçim ve Kademeli Seçimi Kullanın
  • Xgboost, Random Forest kullanın ve değişken önem tablosunu çizin.
  • Verilen özellik kümesi için bilgi kazancını ölçün ve buna göre en iyi n özelliği seçin.

51. Sürekli ve kategorik değişken arasındaki korelasyonu yakalamak mümkün müdür?

Evet, sürekli ve kategorik değişkenler arasındaki ilişkiyi yakalamak için kovaryans analizi tekniğini kullanabiliriz.

52. Kategorik bir değişkeni sürekli bir değişken olarak ele almak, daha iyi bir tahmine dayalı modelle sonuçlanır mı?

Evet, kategorik değer, yalnızca değişken doğası gereği sıralı olduğunda sürekli bir değişken olarak düşünülmelidir. Bu yüzden daha iyi bir tahmin modelidir.