Priporočena, 2024

Izbira Urednika

Razlika med klasifikacijo in regresijo

Klasifikacija in regresija sta dve glavni problemi napovedi, ki se običajno obravnavata v Data mining. Prediktivno modeliranje je tehnika razvoja modela ali funkcije z uporabo zgodovinskih podatkov za napovedovanje novih podatkov. Pomembna razlika med klasifikacijo in regresijo je v tem, da klasifikacija objektov vhodnih podatkov preslika v nekaj diskretnih oznak. Po drugi strani pa regresija mapira vhodni podatkovni objekt na neprekinjeno realno vrednost.

Primerjalna tabela

Podlaga za primerjavoRazvrstitevRegresija
Osnovno
Odkritje modela ali funkcij, kjer se preslikava objektov opravi v vnaprej definirane razrede.Izdelan model, v katerem se preslikava objektov izvede v vrednosti.
Vključuje napovedovanjeDiskretne vrednostiStalne vrednosti
AlgoritmiOdločitveno drevo, logistična regresija itd.Regresijsko drevo (Random forest), Linearna regresija itd.
Narava predvidenih podatkovNeurejenoNaročeno
Metoda izračunaMerilna natančnostMerjenje korenske kvadratne napake

Opredelitev klasifikacije

Klasifikacija je proces iskanja ali odkrivanja modela (funkcije), ki pomaga pri ločevanju podatkov v več kategoričnih razredov. Pri razvrščanju se ugotovi pripadnost skupini problemu, kar pomeni, da se podatki razvrščajo pod različne oznake glede na nekatere parametre, nato pa so oznake napovedane za podatke.

Izvedene modele lahko prikažemo v obliki pravil "IF-THEN", odločitvenih dreves ali nevronskih mrež itd. Drevo odločanja je v bistvu diagram poteka, ki spominja na drevesno strukturo, kjer vsak notranji vozel prikazuje preskus atributa, in njene veje prikazujejo rezultat testa. Proces klasifikacije obravnava probleme, pri katerih je podatke mogoče razdeliti na dve ali več diskretnih oznak, z drugimi besedami, dve ali več disjunktnih množic.

Vzemimo primer, recimo, da želimo predvideti možnost dežja v nekaterih regijah na podlagi nekaterih parametrov. Potem bi obstajali dve oznaki dežja in brez dežja, pod katerim se lahko razvrstijo različne regije.

Opredelitev regresije

Regresija je proces iskanja modela ali funkcije za razlikovanje podatkov v neprekinjenih realnih vrednostih, namesto z uporabo razredov. Matematično, s problemom regresije, poskušamo najti približek funkcije z najmanjšim odstopanjem napake. Pri regresiji se predvideva, da bo odvisnost od številk odvisna od podatkov.

Regresijska analiza je statistični model, ki se uporablja za napoved številskih podatkov namesto oznak. Lahko tudi identificira gibanje distribucije, odvisno od razpoložljivih podatkov ali preteklih podatkov.

Vzemimo podoben primer tudi v regresiji, kjer z nekaterimi parametri najdemo možnost dežja v določenih regijah. V tem primeru obstaja verjetnost, povezana z dežjem. Tukaj ne uvrščamo regij znotraj dežja in brez oznak za dež, temveč jih razvrščamo s pripadajočo verjetnostjo.

Ključne razlike med klasifikacijo in regresijo

  1. Proces klasifikacije modelira funkcijo, s katero se podatki napovedujejo v diskretnih oznakah razredov. Po drugi strani pa je regresija proces oblikovanja modela, ki predvideva stalno količino.
  2. Algoritmi za razvrščanje vključujejo drevo odločanja, logistično regresijo itd. Nasprotno sta regresijska drevesa (npr. Random forest) in linearna regresija primeri regresijskih algoritmov.
  3. Klasifikacija napoveduje neurejene podatke, medtem ko regresija napoveduje urejene podatke.
  4. Regresija se lahko oceni z uporabo korenske kvadratne napake. Nasprotno, klasifikacija se ocenjuje z merilno natančnostjo.

Zaključek

Tehnika klasifikacije zagotavlja napovedni model ali funkcijo, ki s pomočjo zgodovinskih podatkov predvideva nove podatke v diskretnih kategorijah ali oznakah. Nasprotno pa regresijska metoda modelira funkcije z neprekinjenim vrednotenjem, kar pomeni, da podatke predvideva v neprekinjenih številskih podatkih.

Top