Drei neue mehrsprachige USE-Module kommen zu TensorFlow

Google ist einer der Pioniere der KI-Forschung und eine Vielzahl ihrer Projekte sorgten für Aufsehen. AlphaZero von Googles DeepMind Team war ein Durchbruch in der KI-Forschung, da das Programm komplizierte Spiele selbst lernen konnte (ohne menschliches Training und Intervention). Google hat auch hervorragende Arbeit geleistet in Programme zur Verarbeitung natürlicher Sprache (NLPs), was einer der Gründe für die Effizienz von Google Assistant beim Verstehen und Verarbeiten menschlicher Sprache ist.

Google hat kürzlich die Veröffentlichung von drei neuen VERWENDEN Sie mehrsprachige Module und mehr mehrsprachige Modelle zum Abrufen von semantisch ähnlichem Text bereitzustellen.

Die Sprachverarbeitung in Systemen hat einen langen Weg zurückgelegt, vom einfachen Syntaxbaumparsing bis hin zu großen Vektorassoziationsmodellen. Das Verstehen von Kontext in Texten ist eines der größten Probleme im NLP-Bereich und der Universal Sentence Encoder löst dies, indem er Text in hochdimensionale Vektoren umwandelt, was das Ranking und die Denotation von Text erleichtert.

Laut Google „Die drei neuen Module basieren alle auf einer semantischen Retrieval-Architektur, die typischerweise die Kodierung von Fragen und Antworten in separate neuronale Netze aufteilt, was es ermöglicht, innerhalb von Millisekunden unter Milliarden potenzieller Antworten zu suchen.“ Mit anderen Worten, dies hilft bei einer besseren Indexierung von Daten.

Alle drei mehrsprachigen Module werden mit einem Multitask-Dual-Encoder-Framework, ähnlich dem ursprünglichen USE-Modell für Englisch, wobei Techniken verwendet werden, die wir zur Verbesserung des Dual-Encoders mit additivem Softmax-Ansatz entwickelt haben. Sie sind nicht nur darauf ausgelegt, eine gute Transfer-Lernleistung aufrechtzuerhalten, sondern auch, um semantische Retrieval-Aufgaben gut auszuführen.“ Die Softmax-Funktion wird oft verwendet, um Rechenleistung zu sparen, indem man Vektoren exponentiert und dann jedes Element durch die Summe der Exponentialwerte dividiert.

Semantische Abrufarchitektur

„Die drei neuen Module bauen alle auf semantischen Retrieval-Architekturen auf, die typischerweise die Kodierung von Fragen und Antworten in separate neuronale Netze aufteilen, was es ermöglicht, innerhalb von Millisekunden unter Milliarden potenzieller Antworten zu suchen. Der Schlüssel zur Verwendung von Dual-Encodern für eine effiziente semantische Abfrage besteht darin, alle Kandidatenantworten auf erwartete Eingabeabfragen vorab zu kodieren und in einer Vektordatenbank zu speichern, die für die Lösung des Problems des nächsten Nachbarn optimiert ist, wodurch eine große Anzahl von Kandidaten schnell gesucht werden kann mit guter Präzision und Rückruf. “

Sie können diese Module von TensorFlow Hub herunterladen. Weitere Informationen finden Sie im vollständigen Blogpost von GoogleAI.

Facebook Twitter Google Plus Pinterest