Was ist Data Mining? - Fußball-Ergebnis-Vorhersagen

Fussball Ergebnis Vorhersagen mittels Data Mining

Sinn & Zweck des Data Mining: Beim Data Mining geht es darum, aus großen Datenmengen (versteckte, nicht triviale) Zusammenhänge abzuleiten, die man für die (ex post) Analyse und (ex ante) Vorhersage sehr gewinnbringend einsetzen kann.

Vergleichbare Ergebnisse können mit Standard-Statistikprogrammen idR. gar nicht, oder aber nur über extremen Zeitaufwand errechnet werden. Konkrete Anwendungsbeispiele gibt es für nahezu jedes Unternehmen – auch für Ihres! Aus der Erfahrung lässt sich dabei festhalten, dass der durch Data Mining generierte Mehrwert steigt, je nicht-trivialer und „überraschender“ die Ergebnisse sind, da Ihnen diese Erkenntnisse wichtige relative Wettbewerbsvorteile sichern können.

Im Gegensatz zu einfacheren, schwerpunktmäßig linear arbeitenden Statistikprogrammen nutzt Data-Mining (bei Easy.Data.Mining im Hintergrund, für den Anwender verborgen) einen komplexen, multivariaten Ansatz. Data-Mining-Ergebnisse werden dabei u.a. in Muster oder Cluster eingeteilt, welche sehr unterschiedliche Kombinationen von Charakteristika aufweisen können.

Als fiktives, anschauliches Initialbeispiel des Data-Mining könnte man hier eine KfZ-Versicherung sehen, die mit Data-Mining-Software feststellt, dass Kunden mit der Kombination „rotes Autos + Haustier + Berufgruppe XYZ“ deutlich weniger Unfälle verursachen, während es ein zweites (wohlgemerkt anders geartetes Kunden-Cluster) gibt, in welchem deutlich mehr Unfälle verursacht werden, und welches (offensichtlich anders) charakterisiert ist durch die Kombination „Hausnr. kleiner 23 + Alter größer 35 + Familienstand ledig“.

Im Gegensatz zu herkömmlichen Statistik-Programmen errechnet Data-Mining also in nur einem Vorgang die relevanten Treiber-Attribute für alle Cluster/ Muster – welche in aller Regel ungleich (und damit viel wertvoller) sind als die Gesamtdurchschnittsbetrachtung einer statistischen Untersuchung der Gesamtdatenmenge.

Eine zugleich elegante und sehr praktische Eigenschaft von Data-Mining-Programmen wie Data.Mining.Fox ist, dass die Qualität der mathematischen Vorhersagen mit Ihren eigenen Daten getestet werden kann – und zwar noch bevor Sie einen potenziell risikoreichen Feldversuch starten müssen. Dazu wird das Vorhersagemodel mit einem Teil Ihrer historischen Daten berechnet, und dann auf einen zweiten Teil Ihre Daten angewandt (für welchen Sie die Ergebnisse zunächst „verstecken“). Sie können dann die berechneten Ergebnisse mit den Ihnen vorliegenden („versteckten“) Realergebnissen vergleichen.

Mithilfe von Data-Mining kann man also allgemein formuliert valide (ex-post) Analysen bzw. (ex-ante) Modelle für Vorhersagen erstellen, welche für ein beliebiges (Ziel-) Attribut (in obigem Bsp. die Schadensklasse) die relativen Abhängigkeiten der anderen Attribute berechnet – bzw. umgekehrt betrachtet: Data-Mining berechnet, durch welche Kombination von Attributen das Zielattribut bestimmt wird, und mit welcher Wahrscheinlichkeitsausprägung das Zielattribut in jedem Muster/ Cluster eine bestimmte Ausprägung annehmen wird.

Funktionsweise des Data Mining
In der Praxis kann man Data-Mining anschaulich anhand von einfachen, exemplarischen Datentabellen erklären: Wenn man eine Tabelle hat, in der jede Zeile für einen Datensatz (der z.B. jeweils einen Kunden beschreibt) und jede Spalte für ein Attribut steht, so kann man ein Modell erstellen für die Vorhersage eines bestimmten Ziel-Attributs auf der Basis der restlichen Größen.

Beispiel:

Kunden-Nr.	Einkommen	Familienstand	eigene Immobilie	Kundenwert
0001	2700	ledig	ja	210
0002	3600	verheiratet	nein	320
0003	2400	verwitwet	ja	190
…	…	…	…	.

Nach der Erstellung eines Vorhersagemodells für das Attribut ‚Kundenwert‘ kann man Vorhersagen erstellen für Kunden, von denen man a-priori nur die ersten drei Spaltenwerte kennt.

Im Data-Mining können Tabellenspalten als Attribute sowohl Zahlenwerte als auch Texte enthalten. Außerdem sind Daten in der Praxis häufig unvollständig. Leere Tabellenfelder berücksichtigt Data.Mining.Fox aber auf eine mathematisch korrekte Art und Weise automatisch, das vorherige Ersetzen leerer Tabellenfelder durch den Benutzer ist daher nicht nötig. Dadurch ist unser Data-Mining-Programm sehr geeignet für Datentabellen, wie sie in der Praxis auftreten: sehr groß, aber nicht immer in 100%iger Qualität.

Das Data-Mining unterscheidet zwischen zwei Arten von Vorhersagemodellen:

Klassifikationsmodelle: diese Vorhersagemodelle entstehen, wenn die vorherzusagende Spalte nicht-numerische Werte enthält.
Regressionsmodelle: diese entstehen typischerweise, wenn die vorherzusagende Spalte numerische Werte enthält.

Beispiele bezogen auf obige Datentabelle:

	vorherzusagende Spalte:	die Vorhersage ergibt:
Klassifikation:	‚eigene Immobilie‘	Wahrscheinlichkeiten für ‚ja‘ und ’nein‘
Regression:	‚Kundenwert‘	eine Zahl

FAQ:

? Brauche ich als Anwender Data-Mining-Vorkenntnisse?
> Sie werden es kaum glauben mögen – aber die Antwort heißt nein! Ein gesundes analytisches Verständis in Kombination mit der in unsere Data.Mining.Fox® Software eingebauten Dokumentation, sowie ein hinreichendes Verständis Ihrer Unternehmensdaten reichen bei Data.Mining.Fox® aus.

? Jemand hat mir gesagt, dass ich vor dem Gebrauch von Data-Mining-Software eine hohe Datenqualität sicherstellen muss – am besten via groß angelegtem Datenqualitäts-Projekt und Data Warehouse-Aufbau. Stimmt das?
> Nein, nicht zwinged. Beide Projekte machen durchaus Sinn, kosten aber viel Geld und Zeit. Data.Mining.Fox® bietet hier integrierte und v.a. auch automatisierte Funktionalitäten, die z.B. selbst bei fehlenden Datenfeldern valide Resultate ermöglichen – und zwar ohne jeweils alle fehlerhaften Datensätze ganz zu verwerfen (d.h. die verbliebene Information fehlerhafter Datensätze wird bestmöglich berücksichtigt).

? Muss ich Daten vor der Anwendung von Data.Mining.Fox® mittels Skalierung oder Sampling bearbeiten, um z.B. auszugleichen, dass manche Felder große und andere sehr kleine Werte enthalten, oder dass ich von einem Zielwert eine Ausprägung A (z.B. Nicht-Käufer) ganz oft und eine Ausprägung B (Käufer) viel seltener habe?
> Nein, das übernimmt Data.Mining.Fox® ganz automatisch. Und im Gegenteil: mit der manuellen Daten-Manipulation würden Sie u.U. sogar die Ergebnisse massiv verfälschen.

? Ich habe gehört, dass ich gar nicht alle Daten mittels Data-Mining analysieren darf, selbst wenn ich Sie in meiner Datenbank gespeichert habe – das kann doch nicht sein, oder?
> Doch! Sie sollten sich gut erkundigen, welche Daten Ihrer Kunden o.ä. Sie in welcher Weise analysieren dürfen. Das hängt im einzelnen davon ab, in welchem Land Sie unter welchen AGB wann mit wem wie zu den Daten gekommen sind. Daten sollten auf alle Fälle frei von persönlichen Daten und Informationen sein. Die Daten sollten lediglich in anonymisierter oder pseudonymisierter Form vorliegen damit Sie nicht gegen Datenschutz-Richtlinien und -Gesetze verstoßen. Wir empfehlen Ihnen, sich im Zweifel rechtlich von einem Experten in Sachen Datenschutz beraten zu lassen.

? Ist der Algorithmus hinter Data.Mining.Fox® der beste, den es gibt?
> Das möchten wir so nicht behaupten. Wenn man die Resourcen Zeit, Geld und Personal nicht berücksichtigt, dann lassen sich selbst ohne Data-Mining-Software hervorragende Ergebnisse errechnen. Überall da, wo aber eine oder mehrere dieser Resourcen knapp sind, erbringt der Algorithmus von Easy.Data.Mining™ sehr große Vorteile im Hinblick auf die Qualität der Ergebnisse, welche Sie in wenig Zeit und geringem Aufwand erzielen können. Ein impliziter Vorteil ist dabei, dass sich hinter Data.Mining.Fox® nicht nur einer, sondern mehrere mathematische Konstrukte befinden, welche Ihnen die Aufgabe abnehmen, den besten Algorithmus für Ihr jeweiliges Problem selbst zu suchen.

? Was verbirgt sich hinter dem Algorithmus der Easy.Data.Mining™?
> Data.Mining.Fox® nutzt eine intelligente Kombination aus multivariatem Ansatz, Entscheidungsbäumen und genetischen Algorithmen – unser GMDT™ (Genetic Multivariate Decision Trees). Dieses Kern-Prinzip wird durch weitere Kritierien ergänzt – z.B. durch Schutzfaktoren gegen Over-Fitting, Konfidenzberechnungen, usw.

? Kann ich die Windows-Version von Data.Mining.Fox® auch auf einer VM (Virtual Machine) laufen lassen?
> Ja. Zu beachten ist dabei u.a. nur, dass z.B. bei einer Windows-Version von Data.Mining.Fox® auf einer VM eines Apple Mac nicht auf die Java-Version von Mac zugegriffen werden kann, d.h. der Java-Ordner (z.B. „jre1.6.0“ für Windows) muss in den Installations-Ordner kopiert werden (oder es muss alternativ Java für Windows komplett installiert werden). Außerdem kommt es bisweilen zu einer Fehlermeldung, die beim Start besagt, dass MSVCR71.dll nicht gefunden werden kann; um dieses Windows-Problem zu beheben (Anm.: dies hat nichts mit Easy.Data.Mining™ zu tun), muss diese dll aus dem Internet heruntergeladen werden und in den Ordner Windows/System32 kopiert werden.

? Bei allen diesen tollen Möglichkeiten bei Easy.Data.Mining™ kann ich also mit dem einfach bedienbaren Programm Data.Mining.Fox® alle meine unternehmerischen Probleme lösen, oder?
> Leider nicht ganz. Auch bei den besten Programmen sitzt ein wesentlicher Teil der Intelligenz weiterhin vor dem Computer: Ihre Mitarbeiter. Data.Mining.Fox® kann hier weit mehr automatisieren als viele andere Produkte, aber wenn ohne analytisches Verständis und v.a. ohne ein Verständnis für Ihr Geschäftsdaten vorgegangen wird, dann kann es auch mit Data.Mining.Fox® u.U. zu falschen Entscheidungen kommen.

? Wir vermissen die Produkteigenschaft XYZ in Data.Mining.Fox® – können Sie uns hier unkompliziert helfen?
> Wir sind für solche Vorschläge immer sehr dankbar. Und wenn es sich um ein Feature handelt, welches ein vernünftiges Verhältnis von Aufwand und Mehrwert aufweist und für andere Anwender sinnvoll ist, werden wir uns umgehend an die Umsetzung machen. Sollte es etwas Ausgefallenes sein, werdem wir zusammen mit Ihnen aber bestimmt trotzdem eine Lösung finden, die Ihnen weiterhilft.