Ifi6057labx

Sisukord

1 Masinõppe katsetamine

Masinõppe katsetamine

Uuri, mis on masinõppe abil klassifitseerimine. Vt. näiteks AIMA, 18.3 ja 18.7; Machine learning "Hello World"

Kodutöö teemaks on e-mailides pahatahtlike (i.k. phishing) linkide ära tundmine. Selleks on kasutada andmed [1], kus üksikud kahtlased atribuudid (näit. URL pikkus) on juba tuvastatud. Kodutöös tuleb langetada üksikute atribuutide pealt lõppotsus - kas link on pahatahtlik, kahtlane või ohutu.

Vali üks masinõppeks sobiv tarkvarapakett ning katseta klassifitseerimise meetodeid nagu otsustuspuu või närvivõrgud. Jaota õppimisandmed kaheks - treeningandmed ja testandmed. Nii saad klassifitseerimise edukust testida. Võib kasutada ka krossvalideerimist.

Katsetamine peaks sisaldama mingit võrdlust - proovi erinevaid meetodeid üksteise vastu, ühte meetodit erinevate parameetritega või erinevate atribuutide (i.k feature) mõju tulemusele. Tulemuste kohta tuleb teha detailne raport.

Vahendid

Kursuse õpiku jaoks on koostatud spetsiaalsed teegid (näit aima-python ja aima-java), mis implementeerivad õpikus toodud algoritme. Paraku on masinõppe osa nendes teekides ebaühtlane ja poolik. Seega oleks soovitus võtta üks kahest meinstriim paketist - mõlemad peaks olema omas valdkonnas kõige populaarsemad ja hästi dokumenteeritud:

http://scikit-learn.org/stable/index.html - Python
http://www.cs.waikato.ac.nz/ml/weka/ - Java

Andmete kirjeldus

Kõik atribuudid (ja lõplik klassifikatsioon) omavad järgnevaid väärtusi:

1 - Legitiimne
0 - kahtlane
-1 - Pahatahtlik või iseloomulik pahatahtlikule URL-ile

Atribuudid:

SFH kas veebilehel olevad vormid suunavad uuele domeenile
popUpWidnow kas veebilehel on pop-up aknaid
SSLfinal_State kas HTTPS on kasutuses ja kas sertifikaat on usaldusväärne
Request_URL kas veebileht laadib pilte ja muid komponente teiselt domeenilt
URL_of_Anchor kas veebileht sisaldab palju linke teisele domeenile
web_traffic kas veebilehe külastatavus on kõrge, keskmine või madal (Alexa ranking)
URL_Length ülipikk, pikk või tavaline URL
age_of_domain domeeni on vana või värskelt registreeritud
having_IP_Address URL sisaldab IP aadressi

Väli Result sisaldab lõplikku klassifikatsiooni treenimiseks ja testimiseks.

Näide:

 ...
 1,-1,1,0,-1,-1,0,1,0,-1
 1,-1,0,-1,-1,-1,0,1,0,1
 1,0,1,1,1,-1,1,1,0,-1
 1,1,1,-1,1,1,-1,-1,0,-1
 ...

Raport

Raport on PDF formaadis ja sisaldab:

Sissejuhatus. Valitud meetod. Mis eksperiment teostatakse (mida võrreldi millega ja ei tee paha panna kirja ka, miks just nii).
Eksperimendi kirjeldus. Kuidas andmeid eeltöödeldi. Mismoodi katsetati. Kirjelduse põhjal peaks olema võimalik katseid samamoodi järgi teha.
Tulemused. Sisaldab erinevate katsete võrdlust (vt. ülalpool). Lisa siia vähemalt üks õppimiskõvera graafik (ei pea nii peene resolutsiooniga olema, piisab ~10-st erinevast treeningsisendi suurusest).

(Pilt võetud S. Russelli slaididelt)

Kokkuvõte.

Esitamine

Töö saadetakse õppejõule aadressil priit at whitedb.org hiljemalt 27. novembriks. Vaja on saata raport, mis peab iseseisvalt võimaldama aru saada, mida tehti ja mis tulemus oli. Tähtajaks esitatud nõuetele vastav töö saab kuni 15 punkti, hilinemise korral lähevad punktid alla (iga päeva eest -1 punkti). Üle 14 päeva hilinenud tööd vastu ei võeta.

Viited

1. Abdelhamid et al., Phishing Detection based Associative Classification Data Mining. Expert Systems With Applications (ESWA), 41 (2014) 5948-5959

Ifi6057labx

Sisukord

Masinõppe katsetamine

Vahendid

Andmete kirjeldus

Raport

Esitamine

Viited

Navigeerimismenüü

Personaalsed tööriistad

Nimeruumid

Variandid

vaatamisi

Veel

Otsing

Navigeerimine

Kasulikku

Tööriistad