Osztályozás feladat


Tartalomjegyzék:

VISSZA

USPS adatbázis (United States Postal Services) rövidített változata az usps.mat állományban található. Az eredeti adatbázis mintegy 7200 tanulási és 2000 teszt-adatot tartalmaz. Egy adat - pont - egy kézzel írott számjegy 16x16-os bit-térképe (lásd a PDF dokumentumot)

A nagy adatbázisból csak a négyesek és hetesek kerültek bele a kisebb adatbázisba.

Feladat

Bináris osztályozás: válasszuk el a négyeseket (4) a hetesektől (7).

  1. Implementáljunk egy osztályozási algoritmust:
    • Döntési fa;
    • Neurális háló;
    • SVM ...
  2. Értékeljük az algoritmust a következők szerint:
    • osztályozási hiba tanulási adatokon;
    • osztályozási hiba teszt adatokon; (10% alatti)
    • tanulási idő
  3. Vizsgáljuk meg a rosszul osztályozott "pontokat";

Az értékelésnél a programot többször futtassuk: különböző kezdőértékeket vegyünk az általnuk választott modell paramétereinek (ha a végeredmény függ a kezdőértéktől) illetve az adatok sorrendjének (szintén csak akkor, ha ettől változik az eredmény).

Feladat értékelése: Program + dokumentáció

Adatok

test_data 256x290 double array
test_label 1x290 double array
train_data 256x400 double array
train_label 1x400 double array
Az adatok az usps.mat file-ban vannak MATLAB formátumban.
Más formátum is generálható - írjatok levelet és közzéteszem (ascii....).

Programok

A program írásánál használhatunk létező programkódot illetve programozási környezetet.

Javasolt a Matlab használata és a NETLAB programcsomagé.

File-ok

A könyvtárban a következő file-ok vannak:
usps.pdf
a feladat leírása PDF formátumban.

Adat-fileok

Az alábbi file-ok a tanuló- illetve teszt-adatok értékeit tartalmazzák soronkénti kódolásban (lásd a vis.m matlab függvényt):
train_data.asc.gz
tanuló adathalmaz -- a karakterek;
train_label.asc.gz
tanuló adathalmaz -- az értékük;
test_data.asc.gz
teszt adathalmaz -- a karakterek;
test_label.asc.gz
teszt adathalmaz -- az értékük;

VISSZA
Levélcím: Lehel _dot_ Csato _at_ cs _dot_ ubbcluj _dot_ ro