Feladatok

  1. Titanic utasok - gyakorláshoz

    Adatok: http://www.cs.utoronto.ca/~delve/data/titanic/desc.html

    A fenti címen a Titanic targikus útjának utaslistájából készített kivonat található, négy attribútummal. A feladat olyan modell építése, amely alkalmas a megadott adatok alapján annak előrejelzésére, hogy valaki túléli-e a katasztrófát vagy sem, valamint a kapott eredmények elemzése, értelmezése.
  2. Szívbetegség osztályozás

    Adatok: http://www.liacc.up.pt/ML/statlog/datasets/heart/heart.doc.html

    A fenti címen megtalálható adathalmaz 270 emberen elvégzett vizsgálatok eredményeit tartalmazza, melyből 120-an valamely szívbetegséggel küzdenek. A feladat az ismert 13 attribútum alapján annak előrejelzése, hogy egy adott ember szívbeteg-e vagy sem. Építsünk több típusú (neurális háló alapú, döntési fa, regresszió) modelleket, ezeknek több, finomított, újraparaméterezett változatát, majd hasonlítsuk össze ezek működését, hatékonyságát.
  3. Hitelelbírálás

    Adatok: http://www.liacc.up.pt/ML/statlog/datasets/german/german.doc.html

    A fenti adathalmaz 1000 banki megfigyelést tartalmaz hitelelezésre vonatkozóan. A feladat olyan modell felépítése, ami képes előre jelezni az adott 20 attribútum alapján, hogy érdemes-e kihelyezni a hitelt. Építsünk több típusú (neurális háló alapú, döntési fa, regresszió) modelleket, ezeknek több, finomított, újraparaméterezett változatát, majd hasonlítsuk össze működésüket. Vonjuk össze a legjobb modelleket, és értékeljük a kombinált modell működését, mutassunk rá a hatékonyság növekedésére.
  4. KDD Cup 98

    Adatok: http://kdd.ics.uci.edu/databases/kddcup98/kddcup98.html

    A fenti linken egy olyan adatbázist találunk, amely közvetlen levélben való megkeresésekkel történő reklámra adott reakciókat méri (volt, illetve nem volt). A feladat olyan modell építése, amely képes előre jelezni a megadott attribútumok alapján azt, hogy egy adott személy reagál-e közvetlen levélben való megkeresésre. Építsünk több típusú (neurális háló alapú, döntési fa, regresszió) modelleket, ezeknek több, finomított, újraparaméterezett változatát, majd hasonlítsuk össze működésüket. Válaszzunk ki a legjobban működő modellt, egy feltételezett hasznossági mátrixszal (ami alapján meg tudjuk mondani a különböző típusú tévedéseink és találataink költségeit).
  5. PKDD'99 üzleti adatok

    Adatok: http://lisp.vse.cz/pkdd99/Challenge/chall.htm

    A fenti url üzleti adathalmazaiban található egy "Transaction" nevű állomány, amely az ügyfelek időrendbe rendezett tranzakcióit tartalmazza. A feladat gyakori sorozatok keresése "operation" mező alapján, tehát a tranzakciók típusai között, adott számlákra vetítve. Értelmezzük az eredményül kapott sorozatokat.
  6. FIMI adatok

    Adatok: http://fimi.cs.helsinki.fi/data/

    Töltsünk le a fenti címről három szabadon választott adathalmazt asszociációs szabály kereséshez. Hasonlítsuk össze a három adathalmazt alapvető statisztikái szerint (kosarak száma, rekordszám, kosárméretek eloszlása, kosáron belüli azonos termékek), valamint készítsük el az a gyakoriság diagramot, ami azt ábrázolja, hogy adott támogatottsággal a termékek hány százaléka rendelkezik (célszerű ehhez a támogatottságot bin-ekbe sorolni). Ezek után keressük meg adathalmazonként a gyakori termékhalmazokat.

Formai követelmények