Soʻnggi uch yil ichida insoniyat oʻzining butun tarixi davomidagidan koʻproq maʼlumotni ishlab chiqardi. Ushbu muammoni (“axborot portlashi” deb ataladi) hal qilishda maʼlumot tahlilchilari (data-scientist)ning oʻrni katta. Ular maʼlumotlarni oʻrganadi va matematik jihatdan toʻgʻri qaror qabul qilishga imkon beradigan qimmatli qonuniyatlarni topadi. Maʼlumot tahlilchilari qoʻllaydigan yondashuvlarning aksariyati matematika, statistika va dasturlashga asoslangan. Moliya va konsaltingdan marketing va logistikagacha boʻlgan hamma joyda maʼlumot tahlilchisi kerak. Maʼlumotlarni qanday boshqarishni bilasizmi? SkillFactory va N+1 buni aniqlashga yordam berish uchun quyidagi roʻyxatni tuzdi.
nplus1.ru
1. Statistika
Barcha maʼlumotlarni tahlil qilishning asosi statistik yondashuvdir. Maʼlumot tahlilchisi doimiy ravishda statistik gipotezalarni shakllantiradi, maʼlumotlarni tahlil qilishning yangi yondashuvlarini ishlab chiqadi va ixtiro qiladi, statistik usullar yordamida ulardan maʼlumot oladi. Bunday usullardan biri p-qiymatni, yaʼni nol gipoteza toʻgʻri boʻlganda, tasodifiy qiymatning bir xil yoki undan koʻproq miqdorda taqsimotlash ehtimolini baholashdir.
2. Ehtimollar nazariyasi
Maʼlumotlarni tahlil qilishning ilmiy asosi ehtimollik nazariyasidir. Bu tanlangan modelning sifatini va olingan maʼlumotlarni baholashga, shuningdek, xulosalarning toʻgʻriligini matematik jihatdan qatʼiy isbotlashga imkon beradi. Maʼlumotlarni tahlil qilishda tanga yoki oshiq otishdan koʻra ancha murakkab ehtimollik modellari qoʻllanadi.
3. Nazoratsiz oʻrganish va klasterlash
Sunʼiy intellektdan foydalanish maʼlumotlarni tahlil qilishning asosiy usullaridan biridir. Bu “nazoratsiz oʻrganish” yoki “oʻqituvchisiz oʻrganish” deb ataladi. Ushbu usullar sinfining bir qismi sifatida faqat tahlil qilingan maʼlumotlar toʻplamini algoritmga kiritish kifoya. Shundan soʻng algoritm mustaqil ravishda asosli natija berishi kerak. Shu tarzda klasterlash amalga oshiriladi. Klasterlash deganda maʼlumotlarni bir-biriga oʻxshash elementlarni oʻz ichiga olgan holda kichik guruhlarga ajratishni tushunish kerak.
nplus1.ru
4. Nazorat ostida va mustahkam oʻrganish
Sunʼiy intellektning yana bir tarmogʻi bu “nazorat ostida oʻrganish va mustahkam oʻrganish” supervised va reinforcement learʼning usullaridir. Bu usulning nazoratsiz oʻrganishdan asosiy farqi qoʻshimcha maʼlumotlar mavjudligi hisoblanadi. Qoʻshimcha maʼlumotlar sifatida trening toʻplamlari yoki oʻquv algoritmining toʻgʻriligini tekshiradigan ayrim muhit (masalan, boshqa algoritm)larni tushunish kerak. Ushbu usullarni yaxshi bilgan maʼlumot tahlilchisi deyarli har qanday maʼlumotlar bilan ishlashga va ulardan mazmunli natija olishga qodir.
5. Dasturlash
Ixtiro qilingan algoritmlarni amaliyotga tatbiq eta olishi kerak. Zamonaviy maʼlumotlar boʻyicha eng mashhur dasturlash tili bu Python hisoblanadi. Uning soddaligi va moslashuvchanligi murakkab algoritmlarni tez amalga oshirish imkonini beradi. Data science uchun asosiy Python funksiyalari “numpy” va “pandas”dir. Sunʼiy intellekt modellarini qurish uchun “keras” va “pytorch”, shuningdek, “seaborn” va “matplotlib” esa vizualizatsiya uchun ishlatiladi. Agar bularning barchasi sizga shunchaki harflar toʻplami boʻlib koʻrinayotgan boʻlsa, unda nima qilish kerakligini allaqachon sezgandirsiz.
6. Maʼlumotlar bazalari va SQL tili
Maʼlumotlar qayerdadir saqlanishi kerak. Agar siz maʼlumot ilmi (data science) bilan shugʻullanishni istasangiz, turli maslahatlar beradigan va qulay interfeysga ega Microsoft Excel haqida unuting va maʼlumotlarni saqlash tizimlari haqida oʻrganishni boshlang. Ularni saqlash uchun ishlatiladigan asosiy til bu SQLʼdir. Bu til relyatsion maʼlumotlar bazalarini shakllantirish imkonini beruvchi deklarativ dasturlash tili hisoblanadi.
7. “Mahsulotni oʻylab” fikrlash
Har qanday mahsulotning asosiy vazifasi foydalanuvchiga qiymat keltirishdir. Shuning uchun ishlab chiqishda “mahsulotni oʻylab” fikrlashning umumiy metodologiyasiga amal qilish kerak. Maʼlum bir vazifa haqida emas, balki yakuniy mahsulot haqida oʻylash maqsadga muvofiqdir. Loyihani boshlashdan avval siz ushbu mahsulot nima uchun ishlab chiqarilayotganini, undan kim foydalanishini va foydalanuvchining qanday noyob muammosini hal qilishini tushunishingiz kerak.
8. Maʼlumotlarga asoslangan (Data-driven) yondashuv
Maʼlumotlarga asoslangan yondashuv tobora ommalashib bormoqda. Unga koʻra, barcha asosiy qarorlar maʼlumotlarga va ularning matematik jihatdan qatʼiy talqiniga asoslanishi kerak. Maʼlumot tahlilchisi oʻrganib chiqilgan maʼlumotlarga nisbatan sezgir va obyektiv boʻlishi, ularni tushunishi va birinchi navbatda sezgi yoki shaxsiy tajribaga emas, balki raqamlarning qatʼiy tiliga amal qilishi kerak.
nplus1.ru
9. Jamoada ishlash
Ish jarayonida eng kam baholanadigan omillardan biri bu xodimda “yumshoq koʻnikmalar” (soft skills) yoki inson xatti-harakatlarida aks etadigan kasbga oid koʻnikmalarning bor yoki yoʻqligidir. Ish beruvchilar jamoa bilan muloqot qila oladigan, vazifalarni toʻgʻri bajara oladigan va belgilangan muddatlarga rioya qiladigan hissiy jihatdan yetuk, bosimlarga chidamli va ijodkor xodimlarni yollashni maʼqul koʻradi. Ushbu koʻnikmalar maʼlumotlar ilmi sohasida katta loyihalar ustida ishlayotganda bosimni taqsimlash va jamoada hissiy taranglikni kamaytirish uchun juda muhim oʻrin tutadi.
10. Vazifalarni boshqarish metodologiyalari
Vazifalarni boshqarishni toʻgʻri rejalashtirish maʼlumotlar tahlilchisi uchun zaruriy mahoratdir. Shaxs yolgʻiz ishlashi yoki uning boʻysunuvida jamoa boʻlishidan qatʼi nazar, vazifalarning tuzilishi juda aniq va tushunarli boʻlishi kerak. Bunga vazifalarni tashkil qilish usullari, tegishli ish yuklamasi va oqilona oʻrnatilgan aloqalar bilan oʻz vaqtida natijalarga erishishga yoʻnaltirilgan vazifalarni boshqarish metodologiyalari yordam berishi mumkin. Shuning uchun, agar siz “Scrum”ni “Kanban”dan va “Agile”ni “Waterfall”dan ajrata olmasangiz, foydali ish koʻrsatkichingiz haqida oʻylab koʻrishingiz lozim.
Muallif: Ruslan Gumerov. Ushbu maqola nplus1.ru saytidagi “Маленький аналитик в мире больших данных. Чеклист на вход в профессию дата-сайентиста” nomli maqolaning tarjimasi.
Muqova surat: unsplash.com