Eine kurze Geschichte der künstlichen Intelligenz
Ein paar Worte zu schlauen Computern und lernender SoftwareUm die verschiedenen Begriffe Artificial Intelligence, Machine Learning, Data Mining und Data Science herrscht häufig eine gewisse Begriffsunklarheit. Gerade durch das große Wachstum der Anwendung von Techniken des Machine Learning im Alltag vieler Menschen und bahnbrechende Fortschritte wie den Sieg von Googles AlphaGo im Brettspiel Go gegen professionelle menschliche Spieler gelangt die Thematik – von einem gewissen Hauch an Mystik („Es ist die höchste Stufe, die zu vergeben ist, sie grenze ‚nahezu an Göttlichkeit‘.“1) umgeben – immer öfter in die Medien (z. B. 1 2). Dieser Artikel soll daher die grundlegenden Begriffe einordnen und voneinander abgrenzen, sowie einen kleinen Einblick in maschinelles Lernen bieten.
Geschichtliche Entwicklung
Artificial Intelligence (AI), oder deutsch „Künstliche Intelligenz (KI)“, ist ein eigenständiges Forschungsgebiet, das etwa seit Mitte des letzten Jahrhunderts existiert. John McCarthy erklärte in den 1950ern, es sei das Ziel von KI, „intelligentes menschliches Verhalten durch Computerprogramme (künstlich) nachzubilden“.3 KI ist somit ein Querschnittsthema von Kognitionswissenschaften, technischer Informatik und Wirtschaftswissenschaften bis hin zu Philosophie.4 Einer der Pioniere der künstlichen Intelligenz und der lernenden Maschinen war Arthur L. Samuels, der 1959 ein Programm entwickelte, das das Spiel „Dame“ erlernen konnte.5
In den Anfangsjahren fokussierte sich die Forschung stark auf symbolische KI: Das „menschliche Wissen“ solle als „homogene, formale Darstellungsform“ zur Informationsverarbeitung bereitgestellt werden, deren Modellierung Ziel der symbolischen KI ist.6 Wissensbasierte Systeme wie Theorembeweiser und Expertensysteme waren Ergebnis dieser Forschungen.
Ein zweiter Ansatz der KI ist der Konnektivismus. Inspiriert durch die Hirnforschung in den 1940er Jahren wurde versucht, Wissensverarbeitung nach Vorbild des menschlichen Gehirns mit „einer großen Anzahl hochgradig vernetzter (relativ einfach strukturierter) Neuronen“6 zu modellieren. Neuronale Netze sind eine seit den 80er Jahren populärer werdende Umsetzung dieses Ansatzes.7 Neben der Anwendung auf verschiedene spezielle Probleme ist auch die Umsetzung eines menschlichen Gehirns als neuronales Netz erklärtes Ziel der Forschung.8 Gerade in der aktuellen Forschung wird stark auf neuronale Netze gesetzt, die mit Konzepten wie Deep Learning, Convolutions und Rekurrenz in einem breiten Anwendungsfeld viele gute Resultate produzieren. So findet sich eine kuratierte Liste der meist zitierten aktuellen Artikel und Papers fortlaufend aktualisiert in 9.
In den 1990er Jahren wurden Multiagentensysteme aus mehreren kooperierenden Programmen erforscht,3 sowie Fortschritte im Bereich des statistischen Lernens gemacht. Im Gegensatz zum biologischen Ansatz neuronaler Netze wurde dort ein stärker mathematischer Ansatz zum Lösen von Problemen des maschinellen Lernens verwendet.3 10 Heute findet KI Anwendung in vielen Bereichen von Robotik bis Wirtschaft.4
Machine Learning, Data Mining und Data Science
Machine Learning, oder deutsch „maschinelles Lernen“, beschreibt die Verfahren, mit denen sich Software Wissen oder Verhaltensweisen aneignen kann, mit dem bzw. mit Hilfe derer sie dann intelligent agieren kann. Tom Mitchell definiert Machine Learning als „the study of computer algorithms that improve automatically over experience“.11 Ein lernendes Computerprogramm definiert er wie folgt:
„A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.“12
Die wichtigste Aufgabe des Machine Learnings ist daher die Erstellung oder Auswahl geeigneter Lernalgorithmen für ein spezielles Lernproblem, aber auch die Auswahl von Trainingsdaten und der Einsatz von Wissen über die Problemstellung als Hilfe für das lernende Programm.12
Data Mining bezeichnet den „Prozess des Gewinnens von Wissen aus Daten sowie dessen Darstellung und Anwendung“,11 beziehungsweise auch eine Reihe von „Verfahren zur Analyse großer Datenbestände“ zur Extraktion von Strukturen als Entscheidungshilfe.13 Es wird häufig synonym zu Machine Learning verwendet, lässt sich jedoch eher als Anwendung der analysierenden Techniken des Machine Learning auf große Datenmengen im Kontext praktischer Problemstellungen verstehen.11 Data Mining ist Teil des „Knowledge Discovery in Databases“-Prozesses, der sich von Machine Learning insofern abgrenzen lässt, als dass er einige Teilbereiche des Machine Learning wie die „Nutzung von Lernverfahren zur Erzielung von Adaptivität“,3 also die Erstellung von Modellen, die auch in unbekannten Situationen gute Resultate liefern, nicht betrachtet, dafür aber einen stärkeren Fokus auf Skalierbarkeit für die Anwendung auf große Datenmengen legt.3 11
Data Science ist der modernste Begriff in diesem Kontext. Er wurde 2001 von William S. Cleveland vorgeschlagen, um die Erweiterung der Statistik um Methoden aus der Informatik („Computer Science“) zu beschreiben.14 Nutzen sollte das neue Gebiet der Data Science in erster Linie der „practicing data analyst“, der bislang, so Cleveland, von den Fortschritten im Data Mining noch nicht profitieren konnte.14 Das Thema hat schnell viel Aufmerksamkeit erregen können, bereits 2002 wurde die erste Fachzeitschrift, das „Data Science Journal“ gegründet.15 Heute gibt es viele Studiengänge in der Ausbildung zum Data Scientist, einem Beruf, der von Wirtschaftszeitschriften als Top-Beruf der kommenden Jahre gehandelt wird.16
Lerntypen des Machine Learning
Die Methoden des maschinellen Lernens zerfallen in drei große Kategorien entsprechend der Art und Weise, wie gelernt wird.
Unsupervised Learning
Bei unüberwachtem Lernen oder Unsupervised Learning ist es das Ziel, Muster und Zusammenhänge in Daten zu finden, ohne dass zusätzliches Feedback oder weitere, manuell erstellte Informationen zu den Daten notwendig sind.3 4 Dazu gehören vor allem das Lernen von Assoziationen, das zum Beispiel für Warenkorbanalysen verwendet wird, aber auch Clustering, bei dem ähnliche Objekte automatisiert zu Gruppen zusammengefasst werden. Mit dem gelernten Wissen können dann zum Beispiel im Falle der Warenkorbanalyse individuelle Kaufvorschläge gemacht werden („Kunden, die A kaufen, kaufen auch…“).
Reinforcement Learning
Als Verstärkungslernen oder Reinforcement Learning werden Verfahren beschrieben, bei denen ein System aus Belohnung und Bestrafung definiert wird, die einen Lernprozess auslösen. Belohnung und Bestrafung werden dabei aus Umweltvariablen abgeleitet, die auf Aktionen des lernenden Systems reagieren.3 So kann beispielsweise ein Schach-Programm mittels Verstärkungslernen trainiert werden, indem es gegen Menschen, wichtiger aber gegen andere Schach-Programme spielt – Siege zählen als Belohnung, Niederlagen als Bestrafung. Durch Simulation vieler Spiele kann das Programm so sehr schnell trainiert werden.4
Supervised Learning
Überwachtes Lernen oder Supervised Learning ist die häufigste Anwendung für Maschinelles Lernen.3 Hierbei wird durch Analyse von Eingabe-Ausgabe-Paaren, den Trainingsdaten, eine allgemeine Regel abgeleitet, die die Software später auf neue Eingabe-Fälle anwenden kann. Man kann hier zwischen zwei großen Feldern unterscheiden: Bei einer endlichen Menge an Ausgabewerten spricht man von Klassifizierung, bei numerischen Ausgabewerten von Regression.4
Zeit Online. Googles Go-Computer wird nach drei Siegen besondere Ehre zuteil. März 2016. Link (besucht am 14. 03. 2017). ↩︎ ↩︎
Michael Moorstedt. Software, die kein Mensch mehr versteht. November 2015. Link (besucht am 14. 03. 2017). ↩︎
Günther Görz, Hrsg. Handbuch der Künstlichen Intelligenz. 5., überarbeitete und aktualisierte Auflage. München: Oldenbourg, 2014. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
Stuart Russel; Peter Norvig. Künstliche Intelligenz: Ein moderner Ansatz. 3., aktualisierte Auflage. München: Pearson, 2012. ↩︎ ↩︎ ↩︎ ↩︎ ↩︎
A. L. Samuel. „Some Studies in Machine Learning Using the Game of Checkers“. In: IBM Journal of Research and Development 3.3 (1959), S. 210–229. DOI: 10.1147/rd.33.0210. ↩︎
Hubert B. Keller. Maschinelle Intelligenz: Grundlagen, Lernverfahren, Bausteine intelligenter Systeme. Braunschweig: Vieweg, 2000. ↩︎ ↩︎
Achim Zielesny. From Curve Fitting to Machine Learning: An Illustrative Guide to Scientific Data Analysis and Computational Intelligence. 2nd ed. 2016. Cham: Springer, 2016. ↩︎
Taras Kowaliw. Growing Adaptive Machines: Combining Development and Learning in Artificial Neural Networks. Hrsg. von Nicolas Bredèche und René Doursat. Berlin, Heidelberg: Springer, 2014. ↩︎
Terry T. Um. Awesome – Most Cited Deep Learning Papers. Link (besucht am 30. 03. 2017). ↩︎
Vladimir N. Vapnik. The nature of statistical learning theory. 2. ed. Statistics for engineering and information science. New York: Springer, 2000. ↩︎
Wolfgang Ertel. Grundkurs Künstliche Intelligenz: Eine praxisorientierte Einführung. 1. Auflage. Wiesbaden: Vieweg, 2008. ↩︎ ↩︎ ↩︎ ↩︎
Tom M. Mitchell. Machine Learning. New York, NY, USA: McGraw-Hill, 1997. ↩︎ ↩︎
Roland Grund. „Wertvolles Wissen entdecken und Risiken vermeiden – Data Mining in der Praxis“. In: Big Data – Systeme und Prüfungen. Berlin: Erich Schmidt Verlag, 2013. ↩︎
Haohan Wang; Bhiksha Raj. „On the Origin of Deep Learning“. In: CoRR abs/1702.07800 (2017). Link (besucht am 27. 03. 2017). ↩︎ ↩︎
Sarah Callaghan, Hrsg. Data Science Journal 1.1 (2002). ↩︎
Thomas H. Davenport; D. J. Patil. „Data Scientist: The Sexiest Job of the 21st Century“. In: Harvard Business Review (Oktober 2012). Link (besucht am 30. 03. 2017). ↩︎