Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Was sind eigentlich Regression, Clustering und ...

Was sind eigentlich Regression, Clustering und Classification?

Christine Koppelt

January 23, 2019
Tweet

More Decks by Christine Koppelt

Other Decks in Technology

Transcript

  1. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 1/16

    Was sind eigentlich Was sind eigentlich Regression, Clustering und Regression, Clustering und Classi ication? Classi ication? Christine Koppelt, Christoph Wiemers Christine Koppelt, Christoph Wiemers Code Days, 23. Januar 2019 Code Days, 23. Januar 2019
  2. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 2/16

    Data Science Work low Data Science Work low OSEMN Modell OSEMN Modell Obtain Scrub Explore Model iNterpret
  3. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 3/16

    Machine Learning Machine Learning Machine Learning Supervised learning Unsupervised learning Reinforcement learning Clustering Regression Classi ication
  4. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 4/16

    Erstellung eines Modells Erstellung eines Modells gelabelte Daten Test Set Training Set Model Building Test Model Predictions ausgewählte Merkmale
  5. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 5/16

    Herausforderungen: Daten Herausforderungen: Daten Zu wenig Daten Nicht repräsentative Daten Schlechte Datenqualität Irrelevante Merkmale
  6. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 6/16

    Herausforderungen: Algorithmen Herausforderungen: Algorithmen Over itting Modell bildet zu ällige Details aus den Trainingsdaten ab Ergebnisse werden ür Testdaten deutlich schlechter Under itting Modell zu einfach, zu wenige Parameter
  7. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 7/16

    Produktivbetrieb Produktivbetrieb Wird ein Modell längere Zeit verwendet, sollte Concept Drift untersucht werden Überwachung der Daten, statistische Kenngrößen Kenngrößen der trainierten Modelle überwachen Modelle mit neuen Daten trainieren Datenanalyse um neue Ein lussgrößen zu entdecken
  8. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 9/16

    „Regressionsanalysen sind statistische Analyseverfahren, die zum Ziel haben, Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen zu modellieren. Sie werden insbesondere verwendet, wenn Zusammenhänge quantitativ zu beschreiben oder Werte der abhängigen Variablen zu prognostizieren sind.” – Wikipedia
  9. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 10/16

    Einsatzbeispiele Einsatzbeispiele Vorhersage Bevölkerungswachstum Lebenserwartung
  10. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 11/16

    Überblick Algorithmen Überblick Algorithmen Verfahren Linear Polynomial Logistic
  11. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 12/16

    Einfache Lineare Regression Einfache Lineare Regression Finde eine lineare Funktion bei welcher der Abstand der Punkte zur Funktion minimal ist Eine unabhängige Variable: y = + x b 0 b 1
  12. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 13/16

    Charakteristika Charakteristika Vorteile Einfach zu verstehen Nachteile Reagiert emp indlich auf Ausreißer Beschränkt auf zwei Variablen Nur ür einfache Beziehungen geeignet
  13. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 14/16

    Verallgemeinerungen Verallgemeinerungen mehrere Variablen: Multiple Regression Polynom: Polynomiale Regression y = + + + … + β 0 x 1 β 1 x 2 β 2 x K β K y = + x + + + ⋯ + β 0 β 1 β 2 x 2 β 3 x 3 β n x n
  14. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 15/16

    Logistic Regression Logistic Regression Vorhersage der Wahrscheinlichkeit, ob ein Ereignis eintritt Nutzung der Logistischen Funktion
  15. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 16/16

    Charakteristika Charakteristika Vorteile Braucht wenig Rechenresourcen Einfach zu implementieren Features müssen nicht skaliert/normalisiert werden Nachteile Tendiert zu Over itting
  16. „Eine Klassifikation ist eine planmäßige Sammlung von abstrakten Klassen, die

    zur Abgrenzung und Ordnung verwendet werden. Die einzelnen Klassen werden in der Regel mittels Klassifizierung – das heißt durch die Einteilungen von Objekten anhand bestimmter übereinstimmender Merkmale – gewonnen.” Wikipedia
  17. Länge Farbe Form 8cm Rot rund 16cm Gelb länglich 7cm

    Rot rund 15cm Gelb länglich Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Nam liber tempor cum soluta nobis eleifend option congue nihil imperdiet doming id quod mazim placerat facer possim assum. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Textdokument Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Nam liber tempor cum soluta nobis eleifend option congue nihil imperdiet doming id quod mazim placerat facer possim assum. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Textdokument Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis at vero eros et accumsan et iusto odio dignissim qui blandit praesent luptatum zzril delenit augue duis dolore te feugait nulla facilisi. Nam liber tempor cum soluta nobis eleifend option congue nihil imperdiet doming id quod mazim placerat facer possim assum. Lorem ipsum dolor sit amet, consectetuer adipiscing elit, sed diam nonummy nibh euismod tincidunt ut laoreet dolore magna aliquam erat volutpat. Ut wisi enim ad minim veniam, quis nostrud exerci tation ullamcorper suscipit lobortis nisl ut aliquip ex ea commodo consequat. Duis autem vel eum iriure dolor in hendrerit in vulputate velit esse molestie consequat, vel illum dolore eu feugiat nulla facilisis. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Textdokument
  18. Länge Farbe Form 8cm Rot rund 16cm Gelb länglich 7cm

    Rot rund 15cm Gelb länglich Länge Farbe Form 8 1 1 16 2 2 7 1 1 15 2 2 Ziffer Form 1 Rund 2 Lang Ziffer Farbe 1 Rot 2 Gelb alle Merkmale sind in numerische Werte überführt
  19. Länge Farbe Form 8cm Rot rund 16cm Gelb länglich 7cm

    Rot rund 15cm Gelb länglich Länge Farbe Form 8 1 1 16 2 2 7 1 1 15 2 2 alle Daten sind gelabelt Länge Farbe Form Label 8 1 1 1 16 2 2 2 7 1 1 1 15 2 2 2 Ziffer Wert 1 Apfel 2 Banane
  20. Binärklassifzierer • Lineare Klassifikationen • Support Vector Machines Klassifizierer für

    mehrere Klassen • Naive Bayes-Klassifikatoren • Neuronale Netze • Random Forests
  21. Eigenschaften von Random Forest • keinerlei Skalierung oder Zentrierung der

    Datenpunkte notwendig • flexibler Machine-Learning Algorithmus • funktioniert effizient bei großen Datenmengen • bei großen Datenmengen produziert er 
 sehr genaue Vorhersagen
  22. Eigenschaften von Random Forest • fast kein Overfitting • wenig

    Trainingszeit • wenig anfällig für fehlende Datensätze
  23. Was ist ein Entscheidungsbaum? ⚽ ⚽ ⚽ wahr split ∅<

    7 falsch ⚽ ⚽ falsch wahr split ∅< 12 ⚽ ⚽ = = = 6.5 11.5 22 Entropie verkleinern
  24. Wie sieht unser Baum aus? ∅ in cm Farbe Label

    8 10 2.8 1 12 7 2 2.5 8 3 Farbe rot? Durchmesser > 9
  25. Wie funktioniert eine Entscheidung? Länge in cm Label 9 10

    2.8 1 12 7 2 2.5 6 3 Länge <= 2 zu hohe Entropie
  26. Wie funktioniert eine Entscheidung? Länge in cm Label 9 10

    2.8 1 12 7 2 2.5 6 3 Länge < 9 zu hohe Entropie
  27. Wie funktioniert eine Entscheidung? Länge in cm Label 9 10

    2.8 1 12 7 2 2.5 6 3 Länge < 4 ausgewogene Entropie
  28. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 2/7

    Unter Clusteranalysen versteht man Verfahren zur Entdeckung von Ähnlichkeitsstrukturen in (großen) Datenbeständen. Die so gefundenen Gruppen von „ähnlichen“ Objekten werden als Cluster bezeichnet, die Gruppenzuordnung als Clustering. – Wikipedia
  29. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 3/7

    Einsatzbeispiele Einsatzbeispiele Kundensegmentierung Empfehlungssysteme
  30. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 4/7

    Überblick Algorithmen Überblick Algorithmen Verfahren hierarchisch partitionierend divisiv agglomerativ Austausch- verfahren iterative Minimal- distanz- verfahren
  31. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 5/7

    k-Means k-Means Aus einer Menge von ähnlichen Datensätzen wird eine Anzahl von k Gruppen gebildet k wird vorgegeben Initial werden k Clusterzentren zu ällig ausgewählt Iterative Optimierung Anhand einer Kostenfunktion
  32. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 6/7

    Charakteristika Charakteristika Vorteile Vergleichsweise schnell Cluster haben eine ähnliche Dichte Nachteile Größe von k schwierig vorhersehbar Reagiert emp indlich auf Ausreißer
  33. 3/22/2019 Was sind eigentlich Regression, Clustering und Classification? http://localhost:8000/?print-pdf#/ 7/7

    Zusammenfassung Zusammenfassung Regression Classi ication Clustering BewertungKostenfunktionGenauigkeit Kostenfunktion Output Zahlenwert Zugehörigkeit zu Kategorie Clusterzugehörigkeit Umfangreiches Themengebiet, viele Algorithmen Sehr gute Unterstützung durch Libraries Auch ür Visualisierung
  34. Danke! Fragen? www.innoq.com innoQ Deutschland GmbH Krischerstr. 100 40789 Monheim

    am Rhein Germany +49 2173 3366-0 Ohlauer Str. 43 10999 Berlin Germany Ludwigstr. 180E 63067 Offenbach Germany Kreuzstr. 16 80331 München Germany Gewerbestr. 11 CH-6330 Cham Switzerland +41 41 743 01 11 Albulastr. 55 8048 Zürich Switzerland innoQ Schweiz GmbH Christine Koppelt [email protected] @ckoppelt Christoph Wiemers [email protected] @magicwiemers @ckoppelt @ckoppelt