Iti0210lab15

Allikas: Lambda

Lineaarsed mudelid

Sissejuhatus

Kasutame lineaarset mudelit, et sensorite andmete pealt tuvastada, kas ruumis viibib inimene või mitte [1]. Ülesandes tuleb kirjutada lihtne programm, mis suudab treeningandmed lineaarse mudeliga sobitada ja siis testandmetega kontrollida, kui täpne leitud mudel on. Eesmärgiks saada aru, kuidas töötab:

  • lineaarse mudeli treenimine gradient descent meetodiga
  • klassifitseerimine (logistiline regressioon)

Logistiline regressioon on muuhulgas kasutuses tänapäevaste sügavate närvivõrkude viimases kihis.

Ettevalmistus

Andmed treenimiseks ja testimiseks:

Sisendandmete kirjeldus (veergude kaupa):

Temperature, in Celsius 
Relative Humidity, % 
Light, in Lux 
CO2, in ppm 
Humidity Ratio, Derived quantity from temperature and relative humidity, in kgwater-vapor/kg-air 
Occupancy, 0 or 1, 0 for not occupied, 1 for occupied status

Selles harjutuses võiks kasutada NumPy paketti. Kui arvutis on juba Anaconda, pole vaja midagi installida.

Andmete laadimine:

import numpy as np

train = np.loadtxt("train.csv", delimiter=",")
test = np.loadtxt("test.csv", delimiter=",")

Skaleerime kohe andmed (kui ei kasuta NumPy-t, siis idee on väärtused läbi jagada sama veeru maksimumiga, tekivad numbrid vahemikus [0, 1]).

Numpy 2-mõõtmelise massiivi indeksid on A[i,j], kusjuures võib kasutada ka : - kõik väärtused ja tavalises Pythoni stiilis from:to, mis valib mingi lõigu.

def normalize(X):
    return X / np.max(np.abs(X), axis=0)

X = normalize(train[:,:5])  # columns 0..4
y = normalize(train[:,5])   # column 5  (classification, 0 or 1)

Massiiv X on meil nüüd 2-mõõtmeline, kus sees kõik sensoriandmed, iga rida üks mõõtmine. y on, kas samal ajal inimene oli ruumis või mitte, väärtused 1 ja 0. NumPy massiivide suurust saab vaadata nii: X.shape

NumPy cheat sheet

Treenimine ja testimine

Kasutame stohhastilist (tähendab, juhuslikkusel põhinevat) gradientmeetodit (SGD).

def fit_sgd(X, y, niter=100, alpha=0.01):
    # initialize weights vector w

    # loop niter times
        # select random sample from X
        #    (and corresponding value in y)
        # let's say X[n], y[n]

        # calculate the estimate yhat from X[n] and weights

        # calculate error y[n]-yhat

        # update w_0
        # for each weight w_i in w_1, ...
            # update w_i

    return w    # weights vector

Vajalikud valemid:

Iti0210 lab15linear.png

Õppimise kiiruse alpha võib valida vahemikus 0.001...0.5 ja vaadata, mis juhtub.

Kuidas me teame, et treenimine on lõppenud?

Üks variant oleks lihtsalt katsetada, kui hea meie meetod on:

def test_model(w, X, y, threshold=0.5):
    yhat = w[0] + (w[1:] * X).sum(axis=1)      # value from linear model
    ypred = (yhat > threshold).astype(int)     # prediction (is somebody in the room?)
    ytrue = (ypred == y).astype(int)           # compare to true value
    return ytrue.sum() / y.shape[0]            # true count / total count

X_test = normalize(test[:,:5])
y_test = normalize(test[:,5])
print(test_model(w, X_test, y_test))

Kasvata iteratsioonide arvu, kuni ennustustäpsus enam ei parane.

Number, mis tagastatakse, on testjuhtude protsent, kus me leidsime sensoriandmete põhjal õigesti, kas inimene on ruumis või mitte.

Kavalam viis oleks jälgida, kuidas täpsuse kadu (SSE loss) kahaneb treenimise ajal. Kui see enam ei kahane, pole mõtet treenida. Antud funktsiooni on mõtet kasutada mingi arvu tsüklite järel, mitte igas treeningtsüklis:

def sse_loss(w, X, y):
    yhat = w[0] + (w[1:] * X).sum(axis=1)
    err = y - yhat
    return np.square(err).sum()

Logistiline mudel

Muudame, kuidas mudel ennustuse 1 või 0 arvutab ja kuidas treenitakse:

Iti0210 lab15logistic.png

Selleks, et logistilist mudelit kasutada, tuleks muuta:

  1. yhat arvutamist fit_sgd() funktsioonis
  2. Samas muuta kaalude õppimise valemit
  3. yhat arvutamist test_model() funktsioonis
  4. Kui kasutad sse_loss() funktsiooni, siis ka seal yhat arvutust

Logistiline regressioon SSE kaofunktsiooniga võib õppida üsna aeglaselt. Väike trikk, mida võib teha: Kasuta kaalude uuendamiseks sama gradiendi valemit, nagu lineaarse regressiooni juures (ehk siis, muuda tagasi selliseks nagu enne oli).

See tähendab sisuliselt, et me ei kasuta enam SSE-d, vaid valisime uue viisi kadu (loss) arvutada.

Viited

Candanedo, L. M., & Feldheim, V. (2016). Accurate occupancy detection of an office room from light, temperature, humidity and CO2 measurements using statistical learning models. Energy and Buildings, 112, 28-39.