Gefällt unsere Gestaltung? – Newsletter 12/2022

Ob die Gestaltung unserer Website bei der Zielgruppe ankommt, darüber müssen wir uns nicht streiten – wir können es testen. Dazu eignen sich z.B. Präferenz-Test, Design Survey (Gestaltungsbefragung), oder ein Word-Choice-Test (Desirability Test mit dem Microsoft Desirability Toolkit). Mehr zu diesen Methoden im vorigen Newsletter Gestaltung Testen.

Im Folgenden stelle ich Ihnen noch einige weitere interessante Methoden vor, die wir dazu einsetzen können:

Tests mit semantischen Differenzialen

Ein semantisches Differenzial (manchmal Polaritäts- oder Polaritätenprofil genannt) ist eine Sammlung von Eigenschaftspaaren. Die Versuchsteilnehmenden sollen angeben, welche der beiden Eigenschaften sie eher mit dem Testobjekt verbinden.

Ein Beispiel:

schwach – stark
modern – traditionell
schön – hässlich

Dazu sehen die Testpersonen üblicherweise eine Skala mit 5 bis 9 Zwischenschritten.

Beispiel für ein semantisches Differential in der Marktforschung
Semantisches Differenzial in der Marktforschung

Der Vorteil von dieser Methode ist, dass die Antworten leicht vergleichbar sind, da alle Befragten die gleichen Begriffe nutzen. Dagegen wären Freitext-Anworten auf die Frage: „Was verbinden Sie mit dieser Gestaltung“ viel aufwendiger auszuwerten und kaum zu vergleichen. Die Qualität der Antworten hinge auch stark ab von der Fähigkeit der Befragten, ihre Eindrücke gut beschreiben zu können.

Im User Research, im Marketing, aber auch in Psychologie, Linguistik und Medienwirksamkeitsforschung werden heute semantische Differenziale sehr oft eingesetzt. Sie können natürlich Ihre eigenen Wortpaare zusammenstellen. Haben Sie aber keinen fundierten Hintergrund in Psychologie und/oder Fragebogendesign, dann empfiehlt es sich, auf bestehende Fragebögen zurückzugreifen.

Besonders verbreitet im Bereich UX ist der AttrakDiff. Dieser besteht aus einer Liste von 28 Wortpaaren, die Gegensätze beschreiben. Wie etwa „konservativ – innovativ“ oder „verwirrend – übersichtlich“. Die Testpersonen wählen dann jeweils aus, wo sie die Varianten jeweils einordnen.

Die Bewertung einer Webseite nach AttrakDiff. Dazu gehören noch 3 weitere Wortpaar-Listen wie diese.

Mir persönlich ist AttrakDiff etwas zu abstrakt, außerdem ist es für die Teilnehmenden recht mühsam, alle seine 28 Wortpaare durchzuarbeiten. Mit 18 Fragen bzw. in der Kurzversion sogar mit 4 kommt dagegen der VisAWI aus, der eine andere Art der Skala nutzt:

Tests mit Likert-Skalen

Eine Likert-Skala (nach dem US-Soziologen Rensis Likert) besteht aus mehreren Aussagen, zu denen die Teilnehmenden den Grad ihrer Zustimmung bzw. Ablehnung angeben.

Mit einer solchen Likert-Skala arbeitet der VisAWI (Visual Aesthetics of Websites Inventory).

Die Fragen sind z.B. zu „Das Layout ist gut zu erfassen.“, „Der Farbeinsatz ist nicht gelungen.“ oder „Die farbliche Gesamtgestaltung wirkt attraktiv.“. Dazu gibt es eine 7-teilige Skala von „Stimme gar nicht zu“ bis zu „Stimme voll zu“.

In der Standard-Version sind es 18 solche Aussagen, in der Kurzversion nur diese 4:

  • Auf der Seite passt alles zusammen.
  • Das Layout ist angenehm vielseitig.
  • Das Layout ist professionell.
  • Die farbliche Gesamtgestaltung wirkt attraktiv.
Auf der Site zur Metrik VisAWI gibt es auch diese praktische Excel-Vorlage zum kostenlosen Download. Diese erleichtert die Auswertung sehr.

VisAWI und auch AttrakDiff eigenen sich gut, um z.B. herauszufinden, ob die visuellen Entwürfe für eine Website bei der Zielgruppe ankommen. Das heißt, ob diese mit den Entwürfen die Begriffe/Eigenschaften verbindet, die wir transportieren möchten.

Direktes Messen

Die obigen Methoden sind alle indirekt: Menschen müssen angeben, was sie denken und/oder fühlen. Doch es gibt auch Verfahren, die sind direkter: etwa die Messung des Hautwiderstands oder die Blickverfolgung.

Beide gehören zur Psychografie – das tun die obigen Verfahren mit Fragebögen aber auch, denn auch sie versuchen, psychologische Zustände zu messen. Hautwiderstand und Blickverfolgung sind psychophysiologische Verfahren, weil sie auch körperliche (also physiologische) Werte erfassen.

Der Hautwiderstand sinkt, je aufgeregter wir sind. Das liegt an der Schweißproduktion, die sich willkürlich kaum beeinflussen lässt. Daher misst auch ein sogenannter Lügendetektor unter anderem den Hautwiderstand. Sinn und Unsinn dieses Apparats mal außen vor gelassen – das sogenannte „Aktiviertheitsniveau“ erfasst dieser ganz gut. Daher wird die Hautwiderstandsmessung auch vereinzelt genutzt, um zu bestimmen, wie attraktiv Testpersonen bestimmte Dinge/Produkte/Bilder finden. Nachdem ich den Testpersonen das Gerät anlegen muss und auch die Interpretation der Ergebnisse nicht ganz einfach ist, kommt diese Methode in der UX-Praxis außerhalb der Forschung kaum zum Einsatz.

Etwas häufiger, wenn auch meist nur für die Forschung, wird Blickverfolgung genutzt. Bei dieser Technik erfasst eine Kamera die Augenbewegung der Teilnehmenden und eine Software errechnet daraus, welche Elemente auf dem Bildschirm die Person jeweils wie lange und in welcher Reihenfolge angesehen hat.

Von einem weiteren Verfahren habe ich kürzlich gelesen, kenne aber noch niemanden, der es praktisch eingesetzt hat:

Es basiert darauf, dass wir das Gefühl haben, die Zeit vergeht schneller beim Lösen einer komplexen Aufgabe, wenn wir zuvor eine ansprechende Gestaltung gesehen haben. Details dazu: Validating aesthetics in a web design project, darin verlinkt ist diese wissenschaftliche Veröffentlichung, die den Effekt beschreibt: The Aesthetics of Reading
In dem Medium-Artikel ist ein weiterer Link zu einem Paper, der nicht mehr funktioniert. Hier eine Alternative: Subjective Duration Assessment: An Implicit Probe for Software Usability

Diese Veröffentlichung ist von 2001 – bisher hat sich dieser Ansatz noch nicht breit durchgesetzt, spannend scheint er aber dennoch.

Wenn Sie jedoch nicht so experimentierfreudig sind und diese Idee weiterverfolgen wollen, um die visuelle Qualität Ihrer Webseiten zu messen, dann bleiben Sie bei VisAWI oder bei einer der beiden Methoden, die auch schon im Oktober-Newsletter fürs Testen von Content empfohlen waren:

5-Sekunden-Test

Dabei sehen Testpersonen für 5 Sekunden eine Seite und werden dann befragt, woran sie sich erinnern.

Klick-Test (First Click Test)

Hierbei erfassen Sie, worauf Testpersonen als erstes Klicken.

Ist das alles überhaupt signifikant?

Ob wir einen Test mit 5 Teilnehmenden machen oder mit 20 – statistische Signifikanz erreichen wir mit den vorgestellten Metriken oft nicht (auch, wenn das möglich ist). Doch das ist gar nicht unser Ziel. Ziel ist, praktische Relevanz zu erreichen. Und die habe ich, wenn ich z.B. feststelle, dass keine meiner 5 Testpersonen den grafischen Entwürfen für die neue Site die Eigenschaften zuschreibt, die ich gern damit transportieren möchte. Wer tiefer ins Thema Signifikanz und Statistik einsteigen möchte: Newsletter 11/2013 – Bessere User Experience dank Statistik

Fazit

Welche Methode auch immer wir einsetzen: Verwertbare Ergebnisse bekommen wir nur, wenn wir vorher festlegen, was wir genau wissen wollen und was wir damit überhaupt anfangen wollen. Das heißt: Was ist unsere Forschungsfrage? Was machen wir mit der Antwort, was ändern wir? Steht das alles fest, kann es losgehen. Viel Erfolg beim Messen!

Schreibe einen Kommentar