So entwickeln Sie eine skalierbare Kategorisierungs-Engine für Open Banking

Open Banking ist auf die Verfügbarkeit von Finanzdaten angewiesen, die in vielen Formen und Größen ankommen. Das Hinzufügen von Bankverbindungen ist eine Sache, aber Kunden verlangen immer mehr vom Open Banking; um Bedeutung und Erkenntnisse aus Transaktionsdaten abzuleiten.

Ein Eckpfeiler davon ist die Möglichkeit, Transaktionen in Einnahmen- und Ausgabenkategorien zu kategorisieren. Durch die Erstellung und Nutzung solcher Dienste können unsere Kunden versuchen, das finanzielle Verhalten ihrer Kunden besser zu verstehen.

In dieser Kategorisierungsserie teilen wir die wichtigsten Tipps und die Herausforderungen, mit denen wir uns auf den Weg gemacht haben, die Kategorisierungs-Engine von Yapily zu entwickeln.

Das „Produkt“ hinter dem Produkt

Sie wissen nie, wie groß etwas ist, bis Sie anfangen, es zu bauen. Dies trifft definitiv zu, als wir unsere Reise zum Aufbau unserer Kategorisierungs-Engine antraten. Als relativ neuer Produktmanager für Machine Learning-Produkte war es für mich eine steile Lernkurve.

Bei der Entwicklung dieses Produkts ging es sowohl um die Entwicklung einzelner Teile eines größeren Systems als auch um das Endergebnis. Nach den ersten Scoping-Sitzungen fanden wir heraus, was wir eigentlich zum Designen brauchten:

  • Ein System zur Entwicklung von Transaktionskategorisierungsmodellen.
  • Unser erstes Modell: auf britische Einzelhandelstransaktionen abzielen.

Dieser erste Punkt ist besonders wichtig für ein Unternehmen wie Yapily – ein Finanzportal, das mehrere Märkte bedienen muss und daher Finanzdaten aus einer Vielzahl von Quellen verarbeiten muss. Die Anforderung besteht ebenso darin, einen skalierbaren Prozess aufzubauen, um mehrere Kategorisierungsmodelle für potenzielle zukünftige Herausforderungen bereitzustellen.

Da dies unser erster Schritt war, wurde schnell klar, dass der Erfolg davon abhängt, dass wir unsere Kernkompetenzen oder „Produkte hinter dem Produkt“ entwickeln, die zusammen mit unserem endgültigen Ergebnis – einer Kategorisierungsmaschine für britische Privatkundenbanken – wiederverwendet oder erweitert werden können.

  • Datenverarbeitung
  • Datenklassifizierung
  • Modelltraining

Datenverarbeitung:

Unsere erste Herausforderung war es, die Qualität der Daten der Banken zu variieren und einen Kernsatz von Funktionen zu finden, aus denen wir unsere Modelle für maschinelles Lernen aufbauen konnten. Da wir für unsere erste Veröffentlichung auf Großbritannien abzielten, trug die Open Banking Spec zur Lösung dieses Problems bei, aber angesichts der Anzahl optionaler Felder und der feinen Unterschiede zwischen den Rückgaben der einzelnen Banken war dies eine Herausforderung.

Die zweite Herausforderung bestand darin, personenbezogene Daten aus Transaktionsdaten zu entfernen, bevor wir sie klassifizierten. Sicherstellen, dass unseren internen Teams nur anonymisierte Daten zur Klassifizierung zugänglich sind.

Datenklassifizierung:

Nachdem wir sowohl mit manuellen als auch mit automatischen Methoden zur Klassifizierung von Transaktionen experimentiert hatten, wurde klar, dass manuell klassifizierte Daten unser Modell viel besser trainieren konnten. Angesichts der Größe der Aufgabe haben wir ein leichtgewichtiges Tool entwickelt, das es uns ermöglichte, Labeller aus „willigen“ Teilnehmern bei Yapily zu bündeln – und schließlich eine Reihe von Labeling Grand Prix bei der Arbeit durchzuführen, um Trainingssätze aus anonymisierten Transaktionsdaten zu erstellen.

Modelltraining:

Nachdem ich kürzlich “The Professor and the Madman” gesehen hatte (ich würde dies wärmstens als COVID Movie Fodder Mitte der Woche empfehlen, um einen Abend zu füllen), zeigte es auffallende Ähnlichkeiten zwischen ihrer Aufgabe und unserer. Im Film begibt sich eine Gruppe von Professoren auf die gewaltige Aufgabe, das erste englische Wörterbuch zu erstellen. Schnell kommen sie zu dem gleichen Schluss wie wir – „die Arbeit wäre nie fertig“.

„Das Erstellen einer Kategorisierungs-Engine ist ähnlich wie das Schreiben eines Wörterbuchs, seine Arbeit ist nie wirklich erledigt.“

Als wir unseren ersten Meilenstein erreicht hatten, wurde schnell klar, dass Modelle umgeschult und ständig optimiert werden müssen, jederzeit neue Händler auftauchen und neue Ausgabenkategorien auftauchen können. Infolgedessen musste das Data and Insights-Team in Tools investieren und entschied sich für Kubeflow, um uns bei der weiteren Verfeinerung unseres Modells zu unterstützen.

Was haben wir gelernt?

Für mich persönlich habe ich aus dieser Erfahrung drei wichtige Lehren gezogen:

Das Produkt eher als System mit Komponenten zu betrachten und die Prinzipien des Systemdenkens anzuwenden, half uns bei der Planung der Produkt-Roadmap für unsere erste Lieferung. Dies half uns auch, gemeinsame Komponenten zu identifizieren, die wir wieder verwenden könnten, falls Yapily sich entschloss, ein Kategorisierungsmodell für einen anderen Markt zu entwickeln.

Zweitens war die Entscheidung für eine Taxonomie, mit der wir Transaktionen in verschiedene Kategorien einteilen können, äußerst umstritten. Einige der häufigsten Probleme, auf die wir gestoßen sind:

  • Verschiedene Leute segmentieren ihre Ausgaben unterschiedlich.
  • Auch wenn den Leuten eine begrenzte Auswahl an Kategorien zur Verfügung gestellt wird, gibt es immer noch Unterschiede in der Kategorisierung von Transaktionen.
  • Die Organisation der Ausgaben in Kategorien ist schwierig, z.B. Wie kategorisiert man eine Fahrt zur Post?

Nach vielem Ausprobieren, Anpassen der Kartensortierübungen und vielen Tests kamen wir zu einer für uns sinnvollen Taxonomie.

Schließlich war die Bedeutung der Daten. Um das Thema der Filmreferenzen fortzusetzen, fasst Robert Downey Jr (als Sherlock Holmes) unser erstes wichtiges Lernen schön zusammen: „Daten, Daten, Daten – ohne Ton kann ich keine Ziegel herstellen“. Es war ein großes Problem, Daten von guter Qualität und Vielfalt zum Trainieren unseres Modells zu erhalten. Neben der Kontrolle der Transaktionsvielfalt hatten wir ein größeres Geschäftsproblem: Wie klassifizieren wir Daten maßstabsgetreu, nicht nur jetzt, sondern in Zukunft?

Die Antwort kam in Form der Entwicklung unseres Etikettierungstools zu einem eigenständigen Produkt, das es uns ermöglicht, ein Produkt zu entwickeln, das als Lösung eines Problems begann und meiner Meinung nach einen Wettbewerbsvorteil für Yapily darstellt.

Was kommt als nächstes?

Dies ist eine wirklich aufregende Zeit für Yapily und Data Science. Wenn Sie sich die Geschwindigkeit ansehen, mit der Banken Open Banking APIs in Großbritannien und Europa in Kombination mit der verbesserten Datenqualität im Vergleich zum Screen-Scraping produzieren - das space eignet sich wirklich für maschinelles Lernen und KI-Anreicherungen.

Der aus meiner Sicht spannendste Anwendungsfall liegt im Kreditbereich. Die Kombination aus hochwertigen Open Banking API-Daten und einem genauen Kategorisierungsmodell kann bei Kreditentscheidungen äußerst mächtig sein und stellt eine Win-Win-Situation dar: letztendlich

Kunden profitieren durch eine maßgeschneiderte Kreditentscheidung Unternehmen profitieren davon, dass sie selbstbewusster Kredite vergeben oder Kundensegmente bedienen können, die sie vorher nicht konnten

Was die Kategorisierung bei Yapily angeht, finde ich die Modellverfeinerung und deren Verwendung zu Anreicherungszwecken am interessantesten. Zu verstehen, wie oft eine Zahlung erfolgt und um welche Transaktionsart es sich handelt, ist nur ein Beispiel dafür, wie die Kombination von Anreicherungsdiensten echte Einblicke in unsere Kunden bieten kann.


Insights

With services now in mainstream consumer use, how are the bank’s APIs that underpin the ecosystem actually performing?
API

Mofe Salami

12th June 2020

2 min read

Mai 2020: Überwachung von Open Banking APIs

2020 markierte einen Meilenstein für Open Banking in Großbritannien, da über eine Million Nutzer Produkte und Dienstleistungen annahmen, die auf Open Banking basieren. Wie funktionieren die APIs der Bank, die das Ökosystem untermauern, bei Dienstleistungen, die jetzt von den Verbrauchern allgemein genutzt werden, tatsächlich?

The Yapily platform is now live in Germany!
API

Rebecca Danks

26th May 2020

2 min read

Die Yapily-Plattform ist in Deutschland live!

Open Banking verändert die Finanzdienstleistungen und Yapily hat es sich zur Aufgabe gemacht, die größte Abdeckung in ganz Europa und darüber hinaus zu bieten. Diese Woche konzentrieren wir uns auf unsere Integrationen mit Deutschland!


Build personalised financial experiences for your customers with Yapily. One platform. Limitless possibilities.

Get In Touch