Отпремање презентације траје. Молимо да сачекате

Отпремање презентације траје. Молимо да сачекате

Data mining Izdvajanje informacije iz skupa podataka i transformacija u jasnu strukturu za buduće korišćenje Data Mining koristi/prati isti opšti pristup.

Сличне презентације


Презентација на тему: "Data mining Izdvajanje informacije iz skupa podataka i transformacija u jasnu strukturu za buduće korišćenje Data Mining koristi/prati isti opšti pristup."— Транскрипт презентације:

1 Data mining Izdvajanje informacije iz skupa podataka i transformacija u jasnu strukturu za buduće korišćenje Data Mining koristi/prati isti opšti pristup Ali je neke probleme je teško formalizovati, tako da je potreban posebni tretman Primer: Nađi sve mačke na datim slikama – šta je matematička definicija mačke? Ideja: Formalizacija pomoću pozitivnih i negativnih primera – naš skup podataka

2 Data mining Problem 1: skupljanje i preprocesiranje podataka – slike sa tegom “mačka” na internetu Problem 2: Nejasno kakvo znanje naši podaci tačno sadrže, mogu biti zajedno mačke i psi MORAMO DA “ISKOPAVAMO” PODATKE I ZNANJE KOJE JE U NJIMA

3 Data mining Interdisciplinarna oblast
Računarstvo Statistika Specifične oblasti primene Nama interesantne implementacije i algoritmi

4 Data mining Problemi Data Mininga
Teorijski metod za rešavanje problema Teorijski algoritam za implementaciju metoda Implementacija

5 Data mining Naći Primer klasifikacija Dato
Skup mogućih klasa na primer Skup primera/podataka za treniranje Model sa parametrom Naći tako da predviđa klasu za dato

6 Data mining Ako je binarna klasifikacija Ako je regresija
U fokusu binarna klasifikacija ili

7 Data mining Notacija Ulazni prostor može biti gotovo bilo šta
Posmatraju se d-dimenzionalni vektori Kratak zapis

8 Data mining Klasifikacija Teorijski metod za rešavanje problema
Teorijski aloritam za implementaciju metoda Implementacija

9 Data mining Metod K najbližih suseda K-NN Ideja
Potreban metod za predviđanje Slični odbirci i verovatno imaju istu oznaku (labelu), tj. pripadaju istoj klasi Ideja Prvo pojavljivanje odbirka funkcija udaljenosti Računanje za k najbližih suseda Predviđanje najčešće oznake u S Ako S ima jednak broj pozitivnih i negativnih primera, uzima se slučajna klasa

10 Data mining Metod K najbližih suseda K-NN
U stvari ne postoji model već se podaci direktno koriste Dva parametra opisuje udaljenost između podataka, recimo Euklidovo rastojanje K modeluje broj suseda koji se posmatraju Može da se koristi i za regresiju

11 Data mining Metod K najbližih suseda K-NN

12 Data mining Metod K najbližih suseda K-NN

13 Data mining Metod K najbližih suseda K-NN

14 Data mining Klasifikacija K-NN
Teorijski algoritam za implementaciju metoda Implementacija

15 Data mining Metod K najbližih suseda K-NN Naivni algoritam
novi podatak, pojavljuje se po prvi put Računanje O(d) Pretraga O(K) Najgori slučaj za svaki novi podatak

16 Vreme treniranja raste, ali su upiti brži
Data mining Metod K najbližih suseda K-NN Inteligentiji algoritam Izdvajanje modela jednom, pa korišćenje Izdvajanje možda sporo, ali primena brza Često Naivni K-NN algoritam ne računa model, već radi sa podacima direktno – model se računa vrlo brzo Primena zato jako spora, računa se sa svim podacima Ali je dovoljno gledati samo podatke “blizu” Ideja predobrada da se dobiju strukture podataka, što omogućava brzo dohvatanje suseda. Brza pretraga za najbližim susedom Vreme treniranja raste, ali su upiti brži

17 Data mining Metod K najbližih suseda K-NN
Postoje mnogi algoritmi koji koriste ovaj pristup (predobradu) U proseku Vreme izvršavanja ne zavisi samo od metoda, već i od algoritma

18 Data mining Klasifikacija K-NN
Stabla korišćenjem grube sile, hešovanje Implementacija

19 Data mining Metod K najbližih suseda K-NN
Implementacija takođe utiče na vreme izvršavanja U obzir se mora uzeti platforma Obično koristimo platformu/jezik koji poznajemo Ali, pojedine platforme/hardveri su bolji za pojedine poslove (GPU za matrična/vektorska množenja) Zato se metod i algoritam biraju u zavisnosti od sistema

20 Data mining Klasifikacija K-NN
Stabla korišćenjem grube sile, hešovanje Sistem i jezik

21 Data mining Merenje kvaliteta modela
Kvalitet predviđanja zavisi i od algoritma, implementacije i podataka Celobrojne operacije su brze, ali manje tačnosti od operacija u sistemu sa pokretnom tačkom Postoji mnogo različitih modela, još više algoritama, i još više implementacija K-NN grubom silom, indeksiranje, približni K-NN Poređenje specifičnih metoda je teško Zato poređenje performansi izračunatih modela Neki metodi rade dobro za neke probleme, ali ne postoji metod koji radi dobro za sve probleme!

22 Data mining Merenje kvaliteta modela Kvalitet modela
Koliko dobro predstavlja podatke za treniranje? Mogu li se garantovati nova predviđanja? Kako model upštava nove podatke? K-NN uopšte ne objašnjava podatke, samo ih čuva Pretpostavlja sličnost na osnovu funkcije udaljenosti – nema garancije, posebno ako funkcija udaljenosti nije odgovarajuća U binarnoj klasifikaciji postoje dve mogućnosti, 0 ili 1 – po dva moguća tačna i pogrešna predviđanja Matrica konfuzije Tačnost Tačnost nam važi samo za podatke koje već znamo, ništa ne garantuje za nove podatke!

23 Data mining Merenje kvaliteta modela
Najbolji model ima Acc = 1, najgori Acc = 0 Ako se uzme k=1, Acc = 1, savršeno Ali to je samo pamćenje, nema učenja Kako se naš model snalazi sa novim, neviđenim podacima? Ideja Podeliti podatke na podatke za učenje i podatke za testiranje Tako su novi podaci za model Kako podeliti podatke ?

24 Data mining Podela podataka Test/Train Leave-One-Out
Na primer 80% za treniranje i 20% za testiranje Brzo i lako za računanje, ali osetljivo na “loše” podele Kvalitet modela može biti precenjen ili potcenjen Leave-One-Out Svaki podatak se koristi jednom za testiranje, dok se treniranje vrši sa preostalim podacima. Usrednjavanje rezultata. Računa se N modela, ali je zato neosetljiv na “loše” podele Obično nepraktično

25 Data mining Podela podataka
K-fold Cross Validation (k-tostruka unakrsna validacija) Podela podataka na k grupa. Svaka grupa se koristi po jednom za testiranje, a preostali podaci za treniranje. Usrednjavanje rezultata Neosetljiv na “loše” podele. Obično k=10.

26 Data mining Rezime, koncepti
Klasifikacija je jedan zadatak data mining-a Podaci za treniranje se koriste za definisanje i rešavanje zadatka Metod je opšti pristup/ideja kako rešiti zadatak Algoritam je način za realizaciju metoda Model formira znanje izdvojeno iz podataka Tačnost meri kvalitet modela u odnosu na date podatke Vreme izvršavanja i kvalitet modela zavise od metoda, algoritma i implementacije K-NN je jedan od metoda za rešavanje problema klasifikacije, sa mnogo različitih algoritama i implementacija


Скинути ppt "Data mining Izdvajanje informacije iz skupa podataka i transformacija u jasnu strukturu za buduće korišćenje Data Mining koristi/prati isti opšti pristup."

Сличне презентације


Реклама од Google