Data mining Izdvajanje informacije iz skupa podataka i transformacija u jasnu strukturu za buduće korišćenje Data Mining koristi/prati isti opšti pristup.

Slides:



Advertisements
Сличне презентације
Računarstvo i informatika
Advertisements

Prof. Dr Biljana Abolmasov
ARITMETIČKO LOGIČKA JEDINICA
- PREDAVANJE 9 - Nikola Zubić Novi Sad,
Konto, kontni okvir, kontni plan
Građevinski fakultet u Beogradu, školska 2018/19 godina
Програмски језик Parallaxis
Изборни предмети -докторске студије-
Показивачи у програмском језику C Дамјан Илић; Е32 Габриела Миленковић
Наставни планови за информатичко образовање у основним и средњим школама Републике Србије Даниела Минић Алексић 24. јануар, 2015.
ISTICANJE KROZ MALI OTVOR
Digitalna obrada signala u FPGA
Nelinearni efekti usled konačnog broja bita
ISPITIVANJE KVALITETA SOFTVERSKI GENERISANIH SEGMENATA U OBLASTI VREMENSKE SLOŽENOSTI ALGORITAMA ZA AUTOMATIZOVANO SASTAVLJANJE ISPITA     Đorđe Pešić,
ANALITIČKA METODA ZA KINEMATIČKU ANALIZU – METODA KOMPLEKSNOG BROJA
Statistika cena.
Ponašanje potrošača.
BREGASTI MEHANIZMI.
Hierarchical Clustering
Klasifikacija tekstualnih dokumenata
Menadžment kvaliteta – vježbe broj 2: Obrasci za prikupljanje podataka
Microsoft Access uvod u baze podataka.
Целобројно и реално дељење
7. Алтернатор – улога.
OSNOVNI ELEMENTI PLC KONTROLERA
OPERA.
ПРИКАЗ ИЗБОРНОГ ПРЕДМЕТА: ЕЛЕМЕНТИ ТЕОРИЈЕ АЛГОРИТАМА
СТРАХ ОД ОДГОВАРАЊА → Упознавање компоненти емоционалних реакција страха у испитној ситуацији у функцији редуковања страха. → Задаци: - Освестити све компоненте.
СТАБИЛИЗАТОРСКЕ (ЦЕНЕРОВЕ) ДИОДЕ
КОМПЈУТЕРСКА СИМУЛАЦИЈА И ВЕШТАЧКА ИНТЕЛИГЕНЦИЈА
Rješavanje jednadžbi 2.
5 NAREDBE.
Digitalna obrada slike
PREZENTACIJA PODATAKA
Сабирање и одузимње преко 1000
Притисак чврстих тела.
Универзитет у Београду
Техничка школа Шабац Предмет: рачунарство и информатика
Сазнавање у настави Видови сазнања:
Strukturni (međusektorski) modeli
Др Наташа Папић-Благојевић
BAZE PODATAKA.
Стручно усавршавање у установи
- мерења у хидротехници – Тема: Калибрација сонди за притисак
Bezbednost u MySql-u.
Statistika ekonomske aktivnosti
POSLOVNE MREŽE U DIGITALNOJ EKONOMIJI
Др Ката Шкарић Јовановић
СТРАХ ОД ОДГОВАРАЊА → Упознавање компоненти емоционалних реакција страха у испитној ситуацији у функцији редуковања страха. → Задаци: - Освестити све компоненте.
Mihailo Micev Prof. dr Vladan Vujičić Doc. dr Martin Ćalasan
NEURONSKE MREŽE 2. predavanje
NetLogo – novo okruženje za podučavanje informatike
DINAMIČKO ISPITIVANJE REGULACIONE SKLOPKE TRANSFORMATORA – SIMULACIJE I IDENTIFIKACIJE POTENCIJALNIH KVAROVA Autori: Aleksandar Boričić & Danilo Laban.
Предавања 2 мр Наташа Папић-Благојевић
Relacione baze –primer modelovanja baze
Izlazne karakteristike asinhrone mašine pri različitim frekvencijama
Структура програма у Паскалу
Анализа структуре.
DINAMIKA NASELJAVANJA I NESTAJANJA VRSTA NA OSTRVIMA
Algoritmi Vladimir Filipović
ПРАВОПИСНИ РЕЧНИЦИ И СЛУЖЕЊЕ ЊИМА.
Prof. dr Vlado Simeunović OSNOVE RAČUNARSKE TEHNIKE vlado
Управљање инвестицијама
V SAVJETOVANJE CRNOGORSKOG KOMITETA CIGRE
Rešavanje problema pomoću računara
Sadržaj predavanja Uvod u postupak procjene Metodologija procjene
Синтакса програмских језика и опис синтаксе
Транскрипт презентације:

Data mining Izdvajanje informacije iz skupa podataka i transformacija u jasnu strukturu za buduće korišćenje Data Mining koristi/prati isti opšti pristup Ali je neke probleme je teško formalizovati, tako da je potreban posebni tretman Primer: Nađi sve mačke na datim slikama – šta je matematička definicija mačke? Ideja: Formalizacija pomoću pozitivnih i negativnih primera – naš skup podataka

Data mining Problem 1: skupljanje i preprocesiranje podataka – slike sa tegom “mačka” na internetu Problem 2: Nejasno kakvo znanje naši podaci tačno sadrže, mogu biti zajedno mačke i psi MORAMO DA “ISKOPAVAMO” PODATKE I ZNANJE KOJE JE U NJIMA

Data mining Interdisciplinarna oblast Računarstvo Statistika Specifične oblasti primene Nama interesantne implementacije i algoritmi

Data mining Problemi Data Mininga Teorijski metod za rešavanje problema Teorijski algoritam za implementaciju metoda Implementacija

Data mining Naći Primer klasifikacija Dato Skup mogućih klasa na primer Skup primera/podataka za treniranje Model sa parametrom Naći tako da predviđa klasu za dato

Data mining Ako je binarna klasifikacija Ako je regresija U fokusu binarna klasifikacija ili

Data mining Notacija Ulazni prostor može biti gotovo bilo šta Posmatraju se d-dimenzionalni vektori Kratak zapis

Data mining Klasifikacija Teorijski metod za rešavanje problema Teorijski aloritam za implementaciju metoda Implementacija

Data mining Metod K najbližih suseda K-NN Ideja Potreban metod za predviđanje Slični odbirci i verovatno imaju istu oznaku (labelu), tj. pripadaju istoj klasi Ideja Prvo pojavljivanje odbirka funkcija udaljenosti Računanje za k najbližih suseda Predviđanje najčešće oznake u S Ako S ima jednak broj pozitivnih i negativnih primera, uzima se slučajna klasa

Data mining Metod K najbližih suseda K-NN U stvari ne postoji model već se podaci direktno koriste Dva parametra opisuje udaljenost između podataka, recimo Euklidovo rastojanje K modeluje broj suseda koji se posmatraju Može da se koristi i za regresiju

Data mining Metod K najbližih suseda K-NN

Data mining Metod K najbližih suseda K-NN

Data mining Metod K najbližih suseda K-NN

Data mining Klasifikacija K-NN Teorijski algoritam za implementaciju metoda Implementacija

Data mining Metod K najbližih suseda K-NN Naivni algoritam novi podatak, pojavljuje se po prvi put Računanje O(d) Pretraga O(K) Najgori slučaj za svaki novi podatak

Vreme treniranja raste, ali su upiti brži Data mining Metod K najbližih suseda K-NN Inteligentiji algoritam Izdvajanje modela jednom, pa korišćenje Izdvajanje možda sporo, ali primena brza Često Naivni K-NN algoritam ne računa model, već radi sa podacima direktno – model se računa vrlo brzo Primena zato jako spora, računa se sa svim podacima Ali je dovoljno gledati samo podatke “blizu” Ideja predobrada da se dobiju strukture podataka, što omogućava brzo dohvatanje suseda. Brza pretraga za najbližim susedom Vreme treniranja raste, ali su upiti brži

Data mining Metod K najbližih suseda K-NN Postoje mnogi algoritmi koji koriste ovaj pristup (predobradu) U proseku Vreme izvršavanja ne zavisi samo od metoda, već i od algoritma

Data mining Klasifikacija K-NN Stabla korišćenjem grube sile, hešovanje Implementacija

Data mining Metod K najbližih suseda K-NN Implementacija takođe utiče na vreme izvršavanja U obzir se mora uzeti platforma Obično koristimo platformu/jezik koji poznajemo Ali, pojedine platforme/hardveri su bolji za pojedine poslove (GPU za matrična/vektorska množenja) Zato se metod i algoritam biraju u zavisnosti od sistema

Data mining Klasifikacija K-NN Stabla korišćenjem grube sile, hešovanje Sistem i jezik

Data mining Merenje kvaliteta modela Kvalitet predviđanja zavisi i od algoritma, implementacije i podataka Celobrojne operacije su brze, ali manje tačnosti od operacija u sistemu sa pokretnom tačkom Postoji mnogo različitih modela, još više algoritama, i još više implementacija K-NN grubom silom, indeksiranje, približni K-NN Poređenje specifičnih metoda je teško Zato poređenje performansi izračunatih modela Neki metodi rade dobro za neke probleme, ali ne postoji metod koji radi dobro za sve probleme!

Data mining Merenje kvaliteta modela Kvalitet modela Koliko dobro predstavlja podatke za treniranje? Mogu li se garantovati nova predviđanja? Kako model upštava nove podatke? K-NN uopšte ne objašnjava podatke, samo ih čuva Pretpostavlja sličnost na osnovu funkcije udaljenosti – nema garancije, posebno ako funkcija udaljenosti nije odgovarajuća U binarnoj klasifikaciji postoje dve mogućnosti, 0 ili 1 – po dva moguća tačna i pogrešna predviđanja Matrica konfuzije Tačnost Tačnost nam važi samo za podatke koje već znamo, ništa ne garantuje za nove podatke!

Data mining Merenje kvaliteta modela Najbolji model ima Acc = 1, najgori Acc = 0 Ako se uzme k=1, Acc = 1, savršeno Ali to je samo pamćenje, nema učenja Kako se naš model snalazi sa novim, neviđenim podacima? Ideja Podeliti podatke na podatke za učenje i podatke za testiranje Tako su novi podaci za model Kako podeliti podatke ?

Data mining Podela podataka Test/Train Leave-One-Out Na primer 80% za treniranje i 20% za testiranje Brzo i lako za računanje, ali osetljivo na “loše” podele Kvalitet modela može biti precenjen ili potcenjen Leave-One-Out Svaki podatak se koristi jednom za testiranje, dok se treniranje vrši sa preostalim podacima. Usrednjavanje rezultata. Računa se N modela, ali je zato neosetljiv na “loše” podele Obično nepraktično

Data mining Podela podataka K-fold Cross Validation (k-tostruka unakrsna validacija) Podela podataka na k grupa. Svaka grupa se koristi po jednom za testiranje, a preostali podaci za treniranje. Usrednjavanje rezultata Neosetljiv na “loše” podele. Obično k=10.

Data mining Rezime, koncepti Klasifikacija je jedan zadatak data mining-a Podaci za treniranje se koriste za definisanje i rešavanje zadatka Metod je opšti pristup/ideja kako rešiti zadatak Algoritam je način za realizaciju metoda Model formira znanje izdvojeno iz podataka Tačnost meri kvalitet modela u odnosu na date podatke Vreme izvršavanja i kvalitet modela zavise od metoda, algoritma i implementacije K-NN je jedan od metoda za rešavanje problema klasifikacije, sa mnogo različitih algoritama i implementacija