Produktsuche im E-Commerce: Wer nichts findet, kauft nicht ein

Von Tracy Tang / Florian Schatz
Aktualisiert am 07.02.2024 | Lesezeit ca. Min.

Die Produktsuche beschreibt den Prozess, wie der Besucher eines Online-Shops nach für ihn relevanten Produkten in einem Online-Shop sucht – und wie er diese findet. Besonders im Onlinehandel ist eine gute Suchfunktion essenziell, denn wer nichts findet, kauft nichts und ist schnell bei der Konkurrenz.

Es gibt viele Wege, um die Besucher schnellstmöglich zu passenden und relevanten Produkten zu führen. Genutzt werden kann die Suchfunktion, die Navigation oder die Filter- und Sortierfunktion. Das zeigt, dass die Produktsuche vielfältig ist und sich unterschiedliche Nutzungsverhalten daraus ableiten lassen, obwohl die Produktsuche in erster Linie mit der Suchfunktion in Verbindung gebracht wird. Studien belegen, dass sowohl Online-Shops als auch Besucher eine gute Suchfunktion für sehr wichtig halten.

Das Sucherlebnis kann leicht durch Störfaktoren unterbrochen werden: So sorgen unbefriedigende oder fehlende Filter- und Sortiermöglichkeiten oder die fehlende Toleranz für Tippfehler schnell zu Frust beim Nutzer. Mit einem guten Sucherlebnis wird gleichzeitig das Einkaufserlebnis verbessert: Besucher finden schneller relevante Produkte, die Absprungrate sinkt und die Verweildauer steigt.

Wie bewerte ich als Shopbetreiber meine eigene Produktsuche?

Zurecht fragt man sich nun, ob es eine Möglichkeit gibt, die Produktsuche eines Online-Shops zu untersuchen und objektiv zu bewerten. Unser Shop-unabhängiges Verfahren zum systematischen Testen und Bewerten der Produktsuche ermöglicht es, die Suche von jedem Online-Shop zu bewerten – unabhängig vom Sortiment und der Größe des Angebots. Durch die Ermittlung eines Gesamtscores kann die Leistung besser beurteilt und ggf. für Vergleichszwecke mit Mitbewerbern verwendet werden.

Auf Basis dieses Gesamtscores können eine belegbare Beurteilung gefällt und Maßnahmen aus den Defiziten direkt abgeleitet werden.

Unser Bewertungssystem gibt konkret vor, wie getestet und bewertet werden soll. Dadurch kann sichergestellt werden, dass immer nach derselben Methodik gearbeitet wird. Die ausgewählten Kriterien stellen sicher, dass ein allgemeines Bild der Leistung vermittelt wird. Ein besonders wichtiger Punkt ist, dass das Bewertungssystem auf Faktoren beruht, die rein extern erhoben werden können.

Das bedeutet, dass aus Sicht des Besuchers bewertet wird und keine Zugänge zum Shopsystem, Analytics-Daten o. Ä. benötigt werden. Es ist natürlich sinnvoll, diese Kriterien als Betreiber eines Shops für sich auszuwerten, allerdings geht die Vergleichbarkeit mit Mitbewerbern verloren.

Produktsuche Screenshot
Abbildung 1: Schematischer Ablauf des Bewertungssystems
Produktsuche Screenshot
Abbildung 2: Ziele des Bewertungssystems

Das Bewertungssystem: Was wird bewertet und wie

Als erstes stellt sich die Frage, was bei der Suche im Shop bewertet werden soll, und vor allem, wie die Kriterien im Einzelnen zu bewerten sind. Um die Leistung der Produktsuche besser einschätzen zu können, werden verschiedene Bereiche, die zu untersuchen sind, bestimmt.

Im Folgenden sind dies die Kategorien Nutzbarkeit, Suchfunktionalität und Suchtrefferqualität. Somit können Stärken und Schwächen in diesen Kategorien direkt bestimmt werden.

Die Nutzbarkeit bzw. Usability beschäftigt sich mit dem Design und der Benutzerführung der Produktsuche. Der Schwerpunkt liegt darin, zu prüfen, ob die Suche und andere Funktionalitäten intuitiv sind und ohne Probleme genutzt werden können.

In der Kategorie Suchfunktionalität wird untersucht, ob unterstützende Funktionen wie u. a. die Sortierung und das Setzen von Filtern (sogenannte “Facettensuche”) angeboten werden, die den Besucher bei der Findung relevanter Treffer unterstützen sollen. Bei der Suchtrefferqualität wird untersucht, wie gut die Suche in der Lage ist, relevante Suchtreffer anzuzeigen.

Produktsuche Screenshot
Abbildung 3: Kategorien des Bewertungssystems

Die Datenerhebung

Um nun konkret die Suche zu bewerten, ist ein einheitliches Testverfahren mit Anweisungen zum Testen und Bewerten für jedes Kriterium nötig. Die Anweisungen helfen dem Tester dabei, immer nach einem festen Schema zu arbeiten. Es wurde so entwickelt, dass es Shop-unabhängig gilt und nicht auf einen konkreten Online-Shop oder eine Branche zugeschnitten ist.

Es werden passende Metriken festgelegt, damit ein Gesamtscore berechnet werden kann. Aufgrund des Umfangs (35 Kriterien) werden exemplarisch die verschiedenen Methoden für die Kategorien beschrieben und anhand von jeweils guten und schlechten Umsetzungen illustriert.

Die Bewertung der Nutzbarkeit der Produktsuche

Ein Auszug der relevanten Kriterien der Nutzbarkeit (in diesem Bereich insgesamt 15 Kriterien) und deren Messmethode sind in Tabelle 1 zu finden:

Kriterium Beschreibung Messmethode (Scoring)
Bedienung des Suchfeldes Kann das Suchfeld sowohl über die EnterTaste als auch über den Submit-Button abgeschickt werden? 100 %: Beides funktioniert

0 %: Eines von beiden funktioniert
Anzahl der Suchtreffer wird auf der Suchergebnisseite angezeigt Wird auf der Suchergebnisseite die Anzahl der Suchtreffer angezeigt (zum Beispiel “‘Hose’ (15)”? 100 %: Trefferzahl wird angezeigt

50 %: Trefferanzahl wird angezeigt, ist aber zu unauffällig
0 %: Keine Trefferzahl angezeigt

Beispielhaft soll untersucht werden, ob auf der Suchergebnisseite die Anzahl der Suchtreffer angezeigt wird. Sie gibt Auskunft darüber, wie viele Treffer gefunden wurden und ob die Suchanfrage zu allgemein formuliert worden ist. Es wird nach der folgenden Anweisung geprüft:

  1. Gib eine Suchanfrage in das Suchfeld ein und schicke diese ab.
  2. Prüfe, ob auf der Suchergebnisseite die Trefferanzahl angezeigt wird.

Dieses Kriterium wird dann wie folgt bewertet: Es wird mit einem Score von 100 % bewertet, wenn die Trefferzahl angezeigt wird und sich optisch hervorhebt (zum Beispiel durch Schriftfarbe, Textformatierung etc.). Ein Score von 50 % wird gegeben, wenn die Trefferzahl angezeigt wird, aber zu unauffällig ist und stärker hervorgehoben werden sollte. Die schlechteste Bewertung von 0 % erhält das Kriterium, wenn die Trefferzahl nicht angezeigt wird. Dieses Kriterium hat Douglas mit einem Score von 100 % erfüllt, denn die Trefferzahl ist groß und deutlich abzulesen (siehe Abbildung 4). Der Besucher kann direkt sehen, wie viele Treffer zur Suchanfrage gefunden wurden.

Produktsuche Screenshot Douglas
Abbildung 4: Die Trefferzahl (roter Kasten) wird groß und deutlich dargestellt

Wohingegen Zalando bei diesem Kriterium nur mittelmäßig abgeschnitten hat, denn die Trefferzahl wird zwar angezeigt, jedoch wird sie nicht genug hervorgehoben (siehe Abbildung 5). Dadurch kann sie von Besuchern leicht übersehen werden.

Produktsuche Screenshot Zalando Hose

Die Bewertung der Suchfunktionalität

In Tabelle 2 ist ein Auszug relevanter Kriterien der Suchfunktionalität (in diesem Bereich insgesamt 10 Kriterien) und deren Messmethode notiert.

Kriterium Beschreibung Messmethode (Scoring)
Automatische Sucherweiterung (ugs. Autosuggest) Werden Duplikate oder nicht verfügbare Produkte im Autosuggest vorgeschlagen? 100 %: Keine Duplikate und sinnvolle Vorschläge
50 %: Ein Duplikat, ansonsten sinnvolle Vorschläge
0 %: Mehrere Duplikate, Vorschläge nicht sinnvoll
Facettensuche (ugs. Filter) Lassen sich ausgewählte Facettenwerte sowohl einzeln als auch in der Gruppe entfernen? 00 %: Beides funktioniert 0 %: Nur eines von beiden funktioniert

Im Folgenden soll beispielhaft untersucht werden, ob ausgewählte Facettenwerte (ugs. auch “Filter” genannt) sowohl einzeln als auch gesammelt in einer Gruppe zurückgesetzt werden können – mit dem Ziel, die Ergebnismenge wieder in ihre Ursprungsform zu versetzen. Um dieses Kriterium zu prüfen, müssen auf einer Suchergebnisseite mindestens zwei Facettenwerte ausgewählt werden. Es wird überprüft, ob es Möglichkeiten gibt, die Auswahl rückgängig zu machen. Lässt sich die Auswahl sowohl einzeln als auch in der Gruppe entfernen, wird mit einem Score von 100 % bewertet. Wird nur eines davon angeboten, wird mit einem Score von 0 % bewertet.

Douglas konnte dieses Kriterium mit einem Score von 100 % erfüllen, denn es ist möglich, die ausgewählten Facettenwerte einzeln und in der Gruppe aufzuheben (siehe Abbildung 6).

Produktsuche Screenshot Douglas
Abbildung 6: Ausgewählte Facettenwerte lassen sich in der Gruppe (gelb markiert) und einzeln (orange markiert) entfernen

Wohingegen es bei Zalando nicht möglich ist, die ausgewählten Facettenwerte auch in der Gruppe aufzuheben (siehe Abbildung 7), was dazu führt, dass dieses Kriterium nicht erfüllt wurde.

Produktsuche Screenshot Zalando Hose
Abbildung 7: Ausgewählte Facettenwerte lassen sich nur einzeln aufheben

Die Bewertung der Suchtrefferqualität

Anhand der obigen Beispiele der Bewertung für die Nutzbarkeit und der Suchfunktionalität lässt sich erkennen, dass in beiden Kategorien die Bewertung nach Fällen erfolgt. Bei der Bewertung der Suchtrefferqualität können Metriken aus der Informationswissenschaft (engl. Information Retrieval), konkret der Average Precision3, zur Hilfe genommen werden.

Diese Metrik ermöglicht es, die Bewertung eines Suchergebnisses einer Suchanfrage in eine Zahl zu überführen, um somit die Relevanz für den Besucher messbar zu machen. Die Anwendung der Average Precision bringt einige Vorteile mit sich. Zum einen berücksichtigt sie das Ranking der Suchtreffer, denn auf einer Suchergebnisseite sollten alle Suchtreffer nach ihrer Relevanz sortiert werden.

Wird beispielsweise nach “Smartphone” gesucht, wird erwartet, dass Smartphones an den ersten Positionen erscheinen, nicht Zubehöre (zum Beispiel Ladekabel). Häufig werden nur die erste Seite oder gar die ersten Suchtreffer vom Besucher betrachtet. Deshalb ist es sinnvoll, die Treffer bis zu einer festgelegten Position zu analysieren. Auch das ist mit der Average Precision möglich. Entspricht der Average Precision-Wert 1,0 (bzw. 100 %), sagt dieser aus, dass entweder alle Treffer relevant sind oder dass die Sortierung ideal ist

Folgendes Beispiel beschreibt die Rechnung für ein fiktives Beispiel zur Suche nach “Bierglas”.

Suchergebnis mit den folgenden Suchtreffern:

Trinkglas Motiv 1 Bierglas Motiv 2 Bierglas Motiv 3 Trinkglas Motiv 4
Nicht relevant Relevant Relevant Nicht relevant

Precision an der Position 1: 0/1 = 0

Precision an der Position 2: 1/2 = 0,5

Precision an der Position 3: 2/3 = 0,67

Precision an der Position 4: 0/4 = 0

Der AP-Wert für das Suchergebnis beträgt: ( 0 + 0,5 + 0,67 + 0) / 2 = 0,585

Möchte man die Precision einer Menge von Suchanfragen bewerten, wird der Mean Average Precision benötigt. Das ist besonders hilfreich, wenn Suchanfragen einer Kategorie (zum Beispiel Produktnamen, Produktkategorien) bewertet werden sollen.

Um die Messung zu illustrieren, soll beispielhaft untersucht werden, ob die Suche unterschiedliche Suchtreffer anzeigt, wenn die Suchanfrage im Plural oder Singular formuliert wurde. Unterschiedliche Suchergebnisse, die in Form von anderen Suchtreffern oder abweichendem Ranking auftreten können, sind ungünstig, weil dadurch Produkte nicht wiedergefunden werden oder relevante Suchtreffer unentdeckt bleiben können. Als Suchanfrage bieten sich Produktkategorien oder Sortimente (zum Beispiel Socke/Socken, Raumduft/Raumdüfte) an.

Wurde eine geeignete Suchanfrage gefunden, wird sie in die Suche eingegeben und die Suchergebnisse werden miteinander verglichen. Dabei wird der im Plural formulierte Suchbegriff als Bewertungsbasis verwendet, weil die meisten Produktkategorien in dieser Form formuliert werden. Jeder einzelne Suchtreffer auf der Suchergebnisseite im Singular wird mit der Suchergebnisseite im Plural verglichen. Ist der gleiche Suchtreffer auf der gleichen Position zu sehen, wird dieser als relevant bewertet. Auf Basis dieser Relevanzbestimmung wird pro Suchanfrage die Average Precision berechnet. Aus den einzelnen Average Precisions wird daraufhin der Mean Average Precision berechnet, um zu beurteilen, wie gut die Suche Singular und Plural auswerten kann.

Der ausgerechnete Mean Average Precision-Wert kann nicht mit den Scores aus der Kategorie Nutzbarkeit und Suchfunktionalitäten verrechnet werden, weil sie sich in unterschiedlichen Bewertungsdimensionen aufhalten. Deshalb muss der Mean Average Precision in einen Score umgewandelt werden, um im späteren Verlauf einen Gesamtscore berechnen zu können. Beträgt der Mean Average Precision beispielsweise zwischen 1,00 und 0,9, kann ein Score von 100 % vergeben werden.

Bei diesem Kriterium konnte Douglas nicht überzeugen. So wurden unter der Suchanfrage “Raumduft” andere Suchtreffer angezeigt als unter “Raumdüfte” (siehe Abbildung 8).

Produktsuche Screenshot Zalando Raumdüfte
Produktsuche Screenshot Zalando Raumdüfte
Abbildung 8: Die Suchergebnisse zu den Suchanfragen “Raumduft” und “Raumdüfte” unterscheiden sich sowohl hinsichtlich der Produkte als auch des Rankings

Abbildung 9 illustriert die Rechnung des Average Precision für den Suchbegriff “Raumduft”

Produktsuche Screenshot Zalando Raumdüfte
Abbildung 9: Die Rechnung des Average Precision für den Suchbegriff “Raumduft”

Suchbegriff: “Raumduft“ Berechnung des Average Precision: Relevanzbestimmung auf Basis von “Raumdüfte”

Precision an der Position 1: 0/1 = 0

Precision an der Position 2: 0/2 = 0

Precision an der Position 3: 0/3 =0

Der Average Precision für das Suchergebnis beträgt: (0 + 0 + 0 + 0 + 0 + 0 + 0 + 0) / 8 = 0 = 0

Die Suchergebnisse zu den Suchanfragen “Raumduft” und “Raumdüfte” sind nicht identisch (Abbildung 8). Deshalb wurde ein Average Precision von 0 % erreicht.

Zalando hat in diesem Kriterium gut abgeschnitten, denn zu allen untersuchten Suchanfragen hat die Suche die gleichen Suchergebnisse angezeigt. Das Beispiel “Socke” und “Socken” illustriert das Ergebnis (siehe Abbildung 10).

Produktsuche Screenshot Zalando Socken
Produktsuche Screenshot Zalando Socken
Abbildung 10: Die Suchergebnisse zu den Suchanfragen “Socke” und “Socken” sind identisch.

Die Berechnung des Average Precision wird in Abbildung 11 illustriert.

Produktsuche Screenshot Zalando Socken
Produktsuche Screenshot Zalando Socken
Abbildung 11: Berechnung des Average Precision am Beispiel

Suchbegriff: “Socke“ Berechnung des Average Precision: Relevanzbestimmung auf Basis von “Socken”

Precision an der Position 1: 1/1= 1

Precision an der Position 2: 2/2 = 1

Precision an der Position 3: 3/3 = 1

Der Average Precision für das Suchergebnis beträgt: (1 + 1 + 1 + 1 + 1 + 1) / 6 = 1 = 100 %

Die Suchergebnisse zu den Suchanfragen “Socke” und “Socken” sind identisch. Das spiegelt sich im Average Precision, der einen Wert von 100 % erreicht

Die Berechnung des Gesamtscores

Aus den einzelnen Scores der insgesamt 35 Kriterien lässt sich zum Schluss ein Gesamtscore berechnen. Als Gesamtscore dient der Mittelwert aller ermittelten Werte. Je mehr dieser Score von 100 % abweicht, desto “schlechter“ ist die Produktsuche. Für die Online-Shops Douglas und Zalando wurden folgende Werte berechnet:

Die Produktsuche von Douglas hat mit einem soliden Gesamtscore von 74 % abgeschnitten. Die Suchtrefferqualität hat dabei mit 80 % am besten abgeschnitten. Schwächen gab es im Bereich Suchfunktionalitäten (75 %) und Nutzbarkeit (71 %).

Auffälligkeiten ergeben sich beispielsweise in den (hier nicht näher genannten) Kriterien “Kontaktaufnahme auf der Nulltrefferseite” und “Serviceanfragen”. Beide Kriterien konnten nicht erfüllt werden, denn auf der Nulltrefferseite (ugs. für die Kein-Ergebnis-Seite) wurde keine Kontaktmöglichkeit (zum Beispiel E-Mail-Adresse zum Kundenservice) angeboten und bei Serviceanfragen (zum Beispiel Passwort ändern) wurden teilweise Nulltrefferseiten angezeigt, obwohl die entsprechende Hilfeseite vorhanden ist.

Zalando hat im Vergleich zu Douglas schlecht abgeschnitten: Hier liegt der Gesamtscore bei 53 %. Stärken gab es in den Bereichen Nutzbarkeit (61 %) und Suchtreffer (60 %). Schwächen gab es in dem Bereich Suchfunktionalitäten (38 %).

Auffälligkeiten ergeben sich beispielsweise in den (oben nicht näher erklärten) Kriterien “Bedienung des Suchfelds” und “Anzeigen der Anzahl an Suchtreffer je Facettenwert”. So ist es nicht möglich, die Suchanfrage über einen Submit-Button (häufig in Form eines Lupen-Symbols) abzuschicken. Außerdem verzichtet Zalando darauf, bei Facettenwerten die Anzahl der Treffer anzugeben, die Auskunft darüber geben, wie viele Produkte zu diesem Attribut existieren.

Fazit: Optimierungspotenziale der Produktsuche bleiben unentdeckt, wenn keine Bewertung erfolgt

Mit unserem Bewertungssystem kann die Produktsuche systematisch analysiert und bewertet werden. Statt intern – also zahlenbasiert – historische Suchanfragen zu bewerten, wird aus der Sicht des Besuchers bewertet: Sind die angezeigten Suchtreffer tatsächlich relevant zu der Suchanfrage oder zeige ich das Produkt nur an, weil es eine besonders hohe Gewinnmarge gibt?

Die Anwendungsmöglichkeiten mit diesem Bewertungstool sind groß: Es ist nicht nur möglich, die eigene Produktsuche zu bewerten, sondern vor allem die der Konkurrenz. Worin liegen die eigenen Stärken im Vergleich zu denen der Konkurrenz? Ist es möglich, aus den Schwächen der Konkurrenz eigene Stärken zu erzeugen?

Die exemplarische Auswertung obiger Online-Shops hat gezeigt, dass Shops aus verschiedenen Branchen bewertet werden können. Bei beiden Beispielen wurden Optimierungspotenziale entdeckt. Das zeigt, dass es sinnvoll ist, die Produktsuche (regelmäßig) zu prüfen, denn kein Online-Shop, unabhängig von seiner Größe und seinem Sortiment, besitzt eine “perfekte“ Produktsuche. Die positiven Auswirkungen der Optimierung der Produktsuche lassen sich anhand von erfolgreichen Case Studies namhafter Suchtechnologien wie zum Beispiel FACT-Finder verdeutlichen. In den meisten Fällen führte die Optimierung zu einer deutlichen Steigerung der Conversion Rate

FAQ

Quellen:

Weitere Artikel