Unterschied zwischen Data Science, Best Data Application Applications, AI, ML und DL und Technology Stack!

Was ist mit Daten?

Data Science ist eine multidisziplinäre Mischung aus Datenvergleich, Algorithmusentwicklung und Technologie zur Lösung analytisch komplexer Probleme.

Der Kernel der Daten. Rohdaten, die in einer Unternehmensdatenbank gespeichert und gespeichert werden. Aus dem Bergbau kann man viel lernen. Erweiterte Möglichkeiten, die wir damit schaffen. In der Informationswissenschaft geht es letztendlich darum, diese Daten auf kreative Weise zu nutzen, um geschäftlichen Wert zu schaffen.

Das Finden von Data Insight in einer Datenbank ist eine strategische Geschäftsentscheidung, die nur nach einer quantitativen Analyse der Daten getroffen werden kann, mit deren Hilfe Sie den Wert des Geschäfts ermitteln können. Suchen Sie mit algorithmischen Lösungen in der Produktion nach Daten aus einem Datenprodukt.

Best Practices in der Informationswissenschaft:

Nutzungsstatus und Geschäftszweck verstehen:

Dies ist der wichtigste Schritt für alle Data Science-Projekte, nämlich die Definition des Geschäftsziels, das Data Science erreichen soll. Dies erfordert ein klares Verständnis des Geschäfts und des erwarteten Ergebnisses des neuen Projekts. Dies wird Data Scientist helfen, sich auf die Herausforderungen vorzubereiten und die richtigen Methoden und Informationen zu integrieren, die sie benötigen, um das Ende des Geschäfts zu verstehen.

Identifizieren:

Etwa 60-70% der Zeit des Data Science-Projekts wird für die Aufbereitung und Verfeinerung von Daten aufgewendet. Die Daten liegen in verschiedenen Formen vor, die breit strukturiert, unstrukturiert und als halbstrukturiert klassifiziert sind. Wir müssen die Informationen identifizieren, die wir benötigen, oder die Anomalien in den Daten identifizieren und verstehen, dass die Informationen, die wir benötigen, ausreichen, um nützliche Informationen für geschäftliche Zwecke zu erhalten.

Brainstorming:

Die meisten erfolgreichen Data Science-Projekte haben eines gemeinsam: zwischen den Teammitgliedern. Das Team besteht aus Personen mit unterschiedlichem Hintergrund, die unterschiedliche und meist einzigartige Herausforderungen bei der Modellierung oder Datenaufbereitung / -verfeinerung oder der Domäne einer Person haben. Es ist immer nützlich, Brainstorming-Sitzungen unter Gruppenmitgliedern abzuhalten, um eine Entscheidung zu treffen.

Die Informationen sind:

Stellen Sie die Erwartung der Ergebnisse ein, dh machen Sie die Ergebnisse öffentlich. Dies kann den Erwartungen an Geschäftsziele widersprechen, aber es ist immer gut, Ihre Geschäftspartner über Erkenntnisse / Erkenntnisse zu informieren, und es kann mehr Perspektiven eröffnen, als Geschäftsleute erwarten.

Die notwendigen Werkzeuge finden:

Wenn dies eine Rechenaufgabe ist, erfordert das Verständnis von Bild-, Video- oder Audiodaten je nach Geschäftszweck ein hocheffizientes GPU-System und bietet je nach Geschwindigkeit der Datengenerierung die richtigen Tools. wirkt sich auch auf die Einstellung aus.

Berichterstattung & Aktionen:

Sobald Sie aus beschädigten Daten großartige Erkenntnisse gewonnen haben, ist der Wert aller Konzepte geringer, wenn er nicht für die Visualisierung des Geschäftswerts konvertiert wird. Je besser die Visualisierung des Geschäftswerts ist, desto besser ist der Aktionsplan für Geschäftsleute, die in der Lage sind, das Geschäft basierend auf visualisierten Daten anzupassen und sich an die Geschäftsanforderungen des Kunden anzupassen, den sie anziehen möchten. Verständnis ist der Rohkohlenstoff, der sich nach Visualisierungstechniken in einen abrasiven Diamanten verwandelt.

Überprüfen und überprüfen Sie regelmäßig:

Das Modell basiert auf einer Reihe unterschiedlicher Parameter, jedoch mit unterschiedlichen Daten im Zeitverlauf. Wenn wir dasselbe Modell in Bezug auf neue Daten verwenden, die im selben Zeitraum erhalten wurden, kann dieses Modell hinsichtlich der darin enthaltenen Erkenntnisse zusammenbrechen. Es ist immer ratsam, das Modell anhand neuer Daten zu testen und die Ergebnisse regelmäßig zu überprüfen / zu validieren und das Modell zu testen, um das Modell zu ändern, wenn die Leistung des Modells schlecht ist.

Unterschied zwischen AI, ML und DL:

Wie hat AI angefangen?

Alan Turing ist Mathematiker, Kryptograf, verschlüsselte Enigma-Maschine im Zweiten Weltkrieg, Logist, Philosoph, Kollege von Cambridge (22) und Langstreckenläufer. Er legte auch den Grundstein für moderne Computer und künstliche Intelligenz.

Seine Arbeit war in den 1950er Jahren weithin bekannt. Daraus entstand die Idee der "allgemeinen KI": Können Computer dieselben Eigenschaften des menschlichen Geistes haben, einschließlich Denken, Interaktion und Denken? Die Antwort war ein aufregendes „Nein“ (zumindest noch nicht).

Wir mussten uns also auf Technologien wie "Narrow AI" konzentrieren - Schach spielen, Ihre nächste Netflix-TV-Show empfehlen und Spam-E-Mails identifizieren. All dies zeigt Teile des menschlichen Geistes. Aber wie funktionieren sie? Das ist maschinelles Lernen.

KI braucht ML:

Eine hohe ML bedeutet normalerweise Algorithmen oder Modelle

Daten: Viele (bereinigte) Informationen mit persönlich identifizierenden Funktionen erhalten (z. B. "Alter", "Größe", "FICO", "Ist dies E-Mail-Spam?" Usw.)

Schulung: Verwenden Sie die Informationen, um die relative Bedeutung der einzelnen Funktionen anzupassen.

· Information: um etwas Neues vorherzusagen.

Beispiele für Spam-E-Mail-Vorhersagen: Google Google Mail sammelt viele Informationen darüber, was Spam ist und was nicht (sogenannte "Tag-Informationen"). Der Algorithmus identifiziert dann die gemeinsamen Merkmale von Spam-Nachrichten und Nicht-Spam-Nachrichten. Der Algorithmus verarbeitet dann unbekannte Daten (d. H. Neue E-Mails), um festzustellen, ob es sich um Spam handelt.

Bei ML müssen viele Personen eingreifen, z. B. manuell einen Spamfilter verteilen. Nicht-Spam-Nachrichten (z. B. Suche nach "Western Union" -Wörtern / Suche nach Links zu verdächtigen Websites usw.). Auch ist es in diesen Bildern nicht sehr klar.

ML <= {NLP, DL}:

Deep Learning (das sich wiederholende neuronale Netze, Faltungs-neuronale Netze usw. umfasst) ist eine Art Ansatz des maschinellen Lernens. Dies ist eine Erweiterung des neuronalen Netzwerks. Deep Learning (z. B. Trennung von Flugzeugbildern von Hundebildern) wird häufig zur Visualisierung verwendet. Deep Learning kann auch für NLP-Aufgaben verwendet werden. Es sollte beachtet werden, dass Deep-Learning-Algorithmen nicht nur textbezogen sind.

ML und NLP haben widersprüchliche Dinge, da maschinelles Lernen häufig für NLP-Aufgaben verwendet wird. LDA (Latent Dirichlet Allocation, ein Algorithmus zur Themenmodellierung) ist ein Beispiel für maschinelles Lernen, das nicht gesteuert wird.

NLP hat jedoch eine starke Komponente der Linguistik (im Bild nicht dargestellt), die ein Verständnis des Sprachgebrauchs erfordert. Die Kunst des Sprachverständnisses umfasst Humor, Scheinverständnis, bewusste Heuchelei und so weiter. Wenn wir verstehen, was es bedeutet, in Eile zu sein (ja, das stimmt!), Können wir es automatisch in einen Algorithmus für maschinelles Lernen codieren, um ähnliche Muster für uns zu finden. statistisch.

Damit ein NLP zum Abschluss kommt, müssen Sie die Sprache verstehen. Die Sprache ist für verschiedene Genres unterschiedlich (wissenschaftliche Artikel, Blogs und Twitter haben unterschiedliche Schreibstile). Daher besteht eine starke Komponente darin, die Daten manuell zu betrachten, um das zu erhalten, was Sie sagen möchten. die Person analysiert es. Sobald Sie festgestellt haben, was Sie als menschliches Denksystem tun (Hash-Tags ignorieren, lächelnde Gesichter verwenden, um Ihre Stimmung auszudrücken), können Sie diesen Prozess mithilfe eines ML-Ansatzes automatisieren und skalieren.

Technologie und Werkzeuge:

Die Anwendung des Maschinenbaus in verschiedenen Computerbereichen nimmt rasant zu, nicht nur aufgrund der billigen und leistungsstarken Hardware, sondern auch aufgrund der freien und Open-Source-Software, mit der maschinelles Lernen einfach implementiert werden kann. Mechaniker und Forscher entwickeln als Teil des Software-Engineering-Teams konsequent anspruchsvolle Produkte und kombinieren intelligente Algorithmen mit dem Endprodukt, um die Software zuverlässiger, schneller und nahtloser zu machen. Es gibt eine breite Palette von Open-Source-Systemen für maschinelles Lernen, mit denen Maschinenbauer maschinelle Lernsysteme erstellen, implementieren und warten, neue Projekte erstellen und neue effektive maschinelle Lernsysteme erstellen können.

Schauen wir uns einige der besten Open-Source-Software-Lern-Frameworks an.

Apache Spark Mlib:

Es ist eine Bibliothek für maschinelles Lernen, deren Hauptaufgabe darin besteht, das praktische maschinelle Lernen zugänglicher und einfacher zu machen. Es enthält allgemeine Lernalgorithmen und Dienstprogramme, einschließlich Klassifizierung, Regression, Clustering, Co-Filterung, Reduzierung der Skalierbarkeit sowie Optimierungsprimer auf niedriger Ebene und Piping-APIs auf hoher Ebene.

Spark MLlib wird in erster Linie als verteilte Datenbank für maschinelles Lernen auf Spark Core angesehen, die neunmal schneller ist als die von Apache Mahout verwendete festplattenbasierte Software, hauptsächlich aufgrund der verteilten Spark-Kernel-Speicherarchitektur.

TensorFlow:

TensorFlow ist eine Open-Source-Softwarebibliothek für maschinelles Lernen, die vom Google Brain Team entwickelt wurde, um verschiedene kognitive und sprachliche Aufgaben sowie maschinelles Lernen und anspruchsvolle Forschung in tiefen neuronalen Netzen durchzuführen. . Es ist das maschinelle Lernsystem der zweiten Generation von Google Brain und kann auf mehreren Prozessoren und GPUs arbeiten. TensorFlow ist in verschiedene Google-Produkte wie Spracherkennung, Google Mail, Google Fotos und sogar Suche eingebettet.

Accord.NET

Übereinstimmung.

Amazon Machine Learning (AML):

Amazon Machine Learning (AML) ist ein maschineller Lerndienst für Programmierer. Es verfügt über viele visuelle Tools und Assistenten, um hochentwickelte und intelligente Modelle für maschinelles Lernen zu erstellen, ohne komplexe ML-Algorithmen und -Technologien erlernen zu müssen. Durch AML kann die Softwarevorhersage mithilfe einer einfachen API ohne Verwendung eines speziellen Vorhersagecodes oder einer komplexen Infrastruktur erhalten werden.

Keras:

Keras ist eine in Python geschriebene Open-Source-Bibliothek für neuronale Netze. Es kann auf TensorFlow, Microsoft Cognitive Toolkit, Theano oder MXNet ausgeführt werden. Keras enthält viele häufig verwendete neuronale Netzwerkblöcke, z. B. Ebenen, Ziele, Aktivierungsfunktionen, Optimierungen und Tools, die die Bild- und Textverarbeitung erleichtern.

Es gibt viele andere Bibliotheken für maschinelles Lernen und Deep Learning, je nachdem, welche ausgewählt ist.

Lernen lernen:

Es gibt viele Quellen für das Erlernen der Datenwissenschaft, aber die Hauptanforderung besteht darin, die Programmiersprache zu lernen, um den Umgang mit Daten zu lernen.

Programmiersprache: Python, R, Java, SAS, MATLAB usw.

Für den Anfang:

Es wird empfohlen, Udemy, Coursera, Edx usw. vom maschinellen Lernen aus zu starten.

Da ich Kurse aus all diesen Ressourcen besucht habe, empfehle ich, dass ich, wenn jemand nicht an einem Mathematikkurs interessiert ist und sich für maschinelles Lernen interessiert, einen Kurs in maschinellem Lernen AZ ™: Handy-On Python belegen kann. Das Buch & R In Data Science erklärt, wie Python für grundlegende Lernalgorithmen für alle grundlegenden Algorithmen codiert wird.

Wenn jemand die mathematischen Konzepte hinter Algorithmen kennen möchte, empfehle ich Courseras Kurs "Einführung in das maschinelle Lernen". Weil der Autor viel Mühe darauf verwendet hat, die Mathematik hinter dem Algorithmus "Andrew Ng" zu erklären.

Für die wissenschaftliche Forschung:

Befolgen Sie für die Konzepte von Advance Machine Learning / Deep Learning die Tutorials und Lektionen, um die Grundkenntnisse von Machine Learning und Deep Learning zu erlernen.

Es ist notwendig, eine eingehende Untersuchung des eingehenden Lernens von Coursera zu beginnen, die Aufgaben für die Echtzeitnutzung umfasst. Wenn ein Kandidat diesen Kurs und alle Anwendungsfälle ohne externe Ressourcen absolvieren kann, kann er viele Aufgaben in Deep Learning erledigen.

Udemy bietet viele Kurse für eine Vielzahl von Anwendungsfällen an, die nicht zu einem bestimmten Thema gehören.

Es erfordert viel Lesen, um die Data Science-Praktiken zu beherrschen und dieselben Links zu finden:

Maschinenbau - https://web.stanford.edu/~hastie/Papers/ESLII.pdf

Für eingehende Studien - https://github.com/janishar/mit-deep-learning-book-pdf

Coursera - https://www.coursera.org/

Udemy - https://www.udemy.com/

Oxford - https://github.com/oxford-cs-deepnlp-2017/lectures

Analyse Vidhya - https://www.analyticsvidhya.com/

MachineLearningMastery - https://machinelearningmastery.com/

Hinweis:

Der Inhalt stammt aus einer Vielzahl von Blogs und Wikipedia-Artikeln, einige aus meinem alten Blog. Hier kombiniert, um einen Überblick über die Daten zu erhalten.