Ifi6057labx

Allikas: Lambda


Masinõppe katsetamine

Uuri, mis on masinõppe abil klassifitseerimine. Vt. näiteks AIMA, 18.3 ja 18.7; Machine learning "Hello World"

Kodutöö teemaks on e-mailides pahatahtlike (i.k. phishing) linkide ära tundmine. Selleks on kasutada andmed [1], kus üksikud kahtlased atribuudid (näit. URL pikkus) on juba tuvastatud. Kodutöös tuleb langetada üksikute atribuutide pealt lõppotsus - kas link on pahatahtlik, kahtlane või ohutu.

Vali üks masinõppeks sobiv tarkvarapakett ning katseta klassifitseerimise meetodeid nagu otsustuspuu või närvivõrgud. Jaota õppimisandmed kaheks - treeningandmed ja testandmed. Nii saad klassifitseerimise edukust testida. Võib kasutada ka krossvalideerimist.

Katsetamine peaks sisaldama mingit võrdlust - proovi erinevaid meetodeid üksteise vastu, ühte meetodit erinevate parameetritega või erinevate atribuutide (i.k feature) mõju tulemusele. Tulemuste kohta tuleb teha detailne raport.

Vahendid

Kursuse õpiku jaoks on koostatud spetsiaalsed teegid (näit aima-python ja aima-java), mis implementeerivad õpikus toodud algoritme. Paraku on masinõppe osa nendes teekides ebaühtlane ja poolik. Seega oleks soovitus võtta üks kahest meinstriim paketist - mõlemad peaks olema omas valdkonnas kõige populaarsemad ja hästi dokumenteeritud:

Andmete kirjeldus

Kõik atribuudid (ja lõplik klassifikatsioon) omavad järgnevaid väärtusi:

  • 1 - Legitiimne
  • 0 - kahtlane
  • -1 - Pahatahtlik või iseloomulik pahatahtlikule URL-ile

Atribuudid:

  • SFH kas veebilehel olevad vormid suunavad uuele domeenile
  • popUpWidnow kas veebilehel on pop-up aknaid
  • SSLfinal_State kas HTTPS on kasutuses ja kas sertifikaat on usaldusväärne
  • Request_URL kas veebileht laadib pilte ja muid komponente teiselt domeenilt
  • URL_of_Anchor kas veebileht sisaldab palju linke teisele domeenile
  • web_traffic kas veebilehe külastatavus on kõrge, keskmine või madal (Alexa ranking)
  • URL_Length ülipikk, pikk või tavaline URL
  • age_of_domain domeeni on vana või värskelt registreeritud
  • having_IP_Address URL sisaldab IP aadressi

Väli Result sisaldab lõplikku klassifikatsiooni treenimiseks ja testimiseks.

Näide:

 ...
 1,-1,1,0,-1,-1,0,1,0,-1
 1,-1,0,-1,-1,-1,0,1,0,1
 1,0,1,1,1,-1,1,1,0,-1
 1,1,1,-1,1,1,-1,-1,0,-1
 ...


Raport

Raport on PDF formaadis ja sisaldab:

  • Sissejuhatus. Valitud meetod. Mis eksperiment teostatakse (mida võrreldi millega ja ei tee paha panna kirja ka, miks just nii).
  • Eksperimendi kirjeldus. Kuidas andmeid eeltöödeldi. Mismoodi katsetati. Kirjelduse põhjal peaks olema võimalik katseid samamoodi järgi teha.
  • Tulemused. Sisaldab erinevate katsete võrdlust (vt. ülalpool). Lisa siia vähemalt üks õppimiskõvera graafik (ei pea nii peene resolutsiooniga olema, piisab ~10-st erinevast treeningsisendi suurusest).

Learningrate.png (Pilt võetud S. Russelli slaididelt)

  • Kokkuvõte.

Esitamine

Töö saadetakse õppejõule aadressil priit at whitedb.org hiljemalt 27. novembriks. Vaja on saata raport, mis peab iseseisvalt võimaldama aru saada, mida tehti ja mis tulemus oli. Tähtajaks esitatud nõuetele vastav töö saab kuni 15 punkti, hilinemise korral lähevad punktid alla (iga päeva eest -1 punkti). Üle 14 päeva hilinenud tööd vastu ei võeta.

Viited

1. Abdelhamid et al., Phishing Detection based Associative Classification Data Mining. Expert Systems With Applications (ESWA), 41 (2014) 5948-5959