Data mining Izdvajanje informacije iz skupa podataka i transformacija u jasnu strukturu za buduće korišćenje Data Mining koristi/prati isti opšti pristup.

Slides:

Advertisements

Сличне презентације

Računarstvo i informatika

Advertisements

Prof. Dr Biljana Abolmasov

ARITMETIČKO LOGIČKA JEDINICA

- PREDAVANJE 9 - Nikola Zubić Novi Sad,

Konto, kontni okvir, kontni plan

Građevinski fakultet u Beogradu, školska 2018/19 godina

Програмски језик Parallaxis

Изборни предмети -докторске студије-

Показивачи у програмском језику C Дамјан Илић; Е32 Габриела Миленковић

Наставни планови за информатичко образовање у основним и средњим школама Републике Србије Даниела Минић Алексић 24. јануар, 2015.

ISTICANJE KROZ MALI OTVOR

Digitalna obrada signala u FPGA

Nelinearni efekti usled konačnog broja bita

ISPITIVANJE KVALITETA SOFTVERSKI GENERISANIH SEGMENATA U OBLASTI VREMENSKE SLOŽENOSTI ALGORITAMA ZA AUTOMATIZOVANO SASTAVLJANJE ISPITA Đorđe Pešić,

ANALITIČKA METODA ZA KINEMATIČKU ANALIZU – METODA KOMPLEKSNOG BROJA

Statistika cena.

Ponašanje potrošača.

BREGASTI MEHANIZMI.

Hierarchical Clustering

Klasifikacija tekstualnih dokumenata

Menadžment kvaliteta – vježbe broj 2: Obrasci za prikupljanje podataka

Microsoft Access uvod u baze podataka.

Целобројно и реално дељење

7. Алтернатор – улога.

OSNOVNI ELEMENTI PLC KONTROLERA

ПРИКАЗ ИЗБОРНОГ ПРЕДМЕТА: ЕЛЕМЕНТИ ТЕОРИЈЕ АЛГОРИТАМА

СТРАХ ОД ОДГОВАРАЊА → Упознавање компоненти емоционалних реакција страха у испитној ситуацији у функцији редуковања страха. → Задаци: - Освестити све компоненте.

СТАБИЛИЗАТОРСКЕ (ЦЕНЕРОВЕ) ДИОДЕ

КОМПЈУТЕРСКА СИМУЛАЦИЈА И ВЕШТАЧКА ИНТЕЛИГЕНЦИЈА

Rješavanje jednadžbi 2.

Digitalna obrada slike

PREZENTACIJA PODATAKA

Сабирање и одузимње преко 1000

Притисак чврстих тела.

Универзитет у Београду

Техничка школа Шабац Предмет: рачунарство и информатика

Сазнавање у настави Видови сазнања:

Strukturni (međusektorski) modeli

Др Наташа Папић-Благојевић

Стручно усавршавање у установи

- мерења у хидротехници – Тема: Калибрација сонди за притисак

Bezbednost u MySql-u.

Statistika ekonomske aktivnosti

POSLOVNE MREŽE U DIGITALNOJ EKONOMIJI

Др Ката Шкарић Јовановић

СТРАХ ОД ОДГОВАРАЊА → Упознавање компоненти емоционалних реакција страха у испитној ситуацији у функцији редуковања страха. → Задаци: - Освестити све компоненте.

Mihailo Micev Prof. dr Vladan Vujičić Doc. dr Martin Ćalasan

NEURONSKE MREŽE 2. predavanje

NetLogo – novo okruženje za podučavanje informatike

DINAMIČKO ISPITIVANJE REGULACIONE SKLOPKE TRANSFORMATORA – SIMULACIJE I IDENTIFIKACIJE POTENCIJALNIH KVAROVA Autori: Aleksandar Boričić & Danilo Laban.

Предавања 2 мр Наташа Папић-Благојевић

Relacione baze –primer modelovanja baze

Izlazne karakteristike asinhrone mašine pri različitim frekvencijama

Структура програма у Паскалу

Анализа структуре.

DINAMIKA NASELJAVANJA I NESTAJANJA VRSTA NA OSTRVIMA

Algoritmi Vladimir Filipović

ПРАВОПИСНИ РЕЧНИЦИ И СЛУЖЕЊЕ ЊИМА.

Prof. dr Vlado Simeunović OSNOVE RAČUNARSKE TEHNIKE vlado

Управљање инвестицијама

V SAVJETOVANJE CRNOGORSKOG KOMITETA CIGRE

Rešavanje problema pomoću računara

Sadržaj predavanja Uvod u postupak procjene Metodologija procjene

Синтакса програмских језика и опис синтаксе

Транскрипт презентације:

Data mining Izdvajanje informacije iz skupa podataka i transformacija u jasnu strukturu za buduće korišćenje Data Mining koristi/prati isti opšti pristup Ali je neke probleme je teško formalizovati, tako da je potreban posebni tretman Primer: Nađi sve mačke na datim slikama – šta je matematička definicija mačke? Ideja: Formalizacija pomoću pozitivnih i negativnih primera – naš skup podataka

Data mining Problem 1: skupljanje i preprocesiranje podataka – slike sa tegom “mačka” na internetu Problem 2: Nejasno kakvo znanje naši podaci tačno sadrže, mogu biti zajedno mačke i psi MORAMO DA “ISKOPAVAMO” PODATKE I ZNANJE KOJE JE U NJIMA

Data mining Interdisciplinarna oblast Računarstvo Statistika Specifične oblasti primene Nama interesantne implementacije i algoritmi

Data mining Problemi Data Mininga Teorijski metod za rešavanje problema Teorijski algoritam za implementaciju metoda Implementacija

Data mining Naći Primer klasifikacija Dato Skup mogućih klasa na primer Skup primera/podataka za treniranje Model sa parametrom Naći tako da predviđa klasu za dato

Data mining Ako je binarna klasifikacija Ako je regresija U fokusu binarna klasifikacija ili

Data mining Notacija Ulazni prostor može biti gotovo bilo šta Posmatraju se d-dimenzionalni vektori Kratak zapis

Data mining Klasifikacija Teorijski metod za rešavanje problema Teorijski aloritam za implementaciju metoda Implementacija

Data mining Metod K najbližih suseda K-NN Ideja Potreban metod za predviđanje Slični odbirci i verovatno imaju istu oznaku (labelu), tj. pripadaju istoj klasi Ideja Prvo pojavljivanje odbirka funkcija udaljenosti Računanje za k najbližih suseda Predviđanje najčešće oznake u S Ako S ima jednak broj pozitivnih i negativnih primera, uzima se slučajna klasa

Data mining Metod K najbližih suseda K-NN U stvari ne postoji model već se podaci direktno koriste Dva parametra opisuje udaljenost između podataka, recimo Euklidovo rastojanje K modeluje broj suseda koji se posmatraju Može da se koristi i za regresiju

Data mining Metod K najbližih suseda K-NN

Data mining Metod K najbližih suseda K-NN

Data mining Metod K najbližih suseda K-NN

Data mining Klasifikacija K-NN Teorijski algoritam za implementaciju metoda Implementacija

Data mining Metod K najbližih suseda K-NN Naivni algoritam novi podatak, pojavljuje se po prvi put Računanje O(d) Pretraga O(K) Najgori slučaj za svaki novi podatak

Vreme treniranja raste, ali su upiti brži Data mining Metod K najbližih suseda K-NN Inteligentiji algoritam Izdvajanje modela jednom, pa korišćenje Izdvajanje možda sporo, ali primena brza Često Naivni K-NN algoritam ne računa model, već radi sa podacima direktno – model se računa vrlo brzo Primena zato jako spora, računa se sa svim podacima Ali je dovoljno gledati samo podatke “blizu” Ideja predobrada da se dobiju strukture podataka, što omogućava brzo dohvatanje suseda. Brza pretraga za najbližim susedom Vreme treniranja raste, ali su upiti brži

Data mining Metod K najbližih suseda K-NN Postoje mnogi algoritmi koji koriste ovaj pristup (predobradu) U proseku Vreme izvršavanja ne zavisi samo od metoda, već i od algoritma

Data mining Klasifikacija K-NN Stabla korišćenjem grube sile, hešovanje Implementacija

Data mining Metod K najbližih suseda K-NN Implementacija takođe utiče na vreme izvršavanja U obzir se mora uzeti platforma Obično koristimo platformu/jezik koji poznajemo Ali, pojedine platforme/hardveri su bolji za pojedine poslove (GPU za matrična/vektorska množenja) Zato se metod i algoritam biraju u zavisnosti od sistema

Data mining Klasifikacija K-NN Stabla korišćenjem grube sile, hešovanje Sistem i jezik

Data mining Merenje kvaliteta modela Kvalitet predviđanja zavisi i od algoritma, implementacije i podataka Celobrojne operacije su brze, ali manje tačnosti od operacija u sistemu sa pokretnom tačkom Postoji mnogo različitih modela, još više algoritama, i još više implementacija K-NN grubom silom, indeksiranje, približni K-NN Poređenje specifičnih metoda je teško Zato poređenje performansi izračunatih modela Neki metodi rade dobro za neke probleme, ali ne postoji metod koji radi dobro za sve probleme!

Data mining Merenje kvaliteta modela Kvalitet modela Koliko dobro predstavlja podatke za treniranje? Mogu li se garantovati nova predviđanja? Kako model upštava nove podatke? K-NN uopšte ne objašnjava podatke, samo ih čuva Pretpostavlja sličnost na osnovu funkcije udaljenosti – nema garancije, posebno ako funkcija udaljenosti nije odgovarajuća U binarnoj klasifikaciji postoje dve mogućnosti, 0 ili 1 – po dva moguća tačna i pogrešna predviđanja Matrica konfuzije Tačnost Tačnost nam važi samo za podatke koje već znamo, ništa ne garantuje za nove podatke!

Data mining Merenje kvaliteta modela Najbolji model ima Acc = 1, najgori Acc = 0 Ako se uzme k=1, Acc = 1, savršeno Ali to je samo pamćenje, nema učenja Kako se naš model snalazi sa novim, neviđenim podacima? Ideja Podeliti podatke na podatke za učenje i podatke za testiranje Tako su novi podaci za model Kako podeliti podatke ?

Data mining Podela podataka Test/Train Leave-One-Out Na primer 80% za treniranje i 20% za testiranje Brzo i lako za računanje, ali osetljivo na “loše” podele Kvalitet modela može biti precenjen ili potcenjen Leave-One-Out Svaki podatak se koristi jednom za testiranje, dok se treniranje vrši sa preostalim podacima. Usrednjavanje rezultata. Računa se N modela, ali je zato neosetljiv na “loše” podele Obično nepraktično

Data mining Podela podataka K-fold Cross Validation (k-tostruka unakrsna validacija) Podela podataka na k grupa. Svaka grupa se koristi po jednom za testiranje, a preostali podaci za treniranje. Usrednjavanje rezultata Neosetljiv na “loše” podele. Obično k=10.

Data mining Rezime, koncepti Klasifikacija je jedan zadatak data mining-a Podaci za treniranje se koriste za definisanje i rešavanje zadatka Metod je opšti pristup/ideja kako rešiti zadatak Algoritam je način za realizaciju metoda Model formira znanje izdvojeno iz podataka Tačnost meri kvalitet modela u odnosu na date podatke Vreme izvršavanja i kvalitet modela zavise od metoda, algoritma i implementacije K-NN je jedan od metoda za rešavanje problema klasifikacije, sa mnogo različitih algoritama i implementacija