Algorytm Collaborative filtering na Spotify
Schemat działania Algorytm Collaborative filtering na Spotify
W jaki sposób słuchamy na platformie Spotify tego, co nam się podoba? Dzieje się tak za sprawą algorytmów, które dobierają utwory do każdego użytkownika.
Spotify używa 3 algorytmów filtrowania: przetwarzanie języka naturalnego, analiza dźwięku i Collaborative filtering. W poniższym artykule opisany został Collaborative filtering. Na mapie został zaprezentowany sposób zbierania oraz filtrowania danych przez algorytmy. Dane te są uzyskiwane z pomocą Internetu, wytwórni płytowych i wewnętrznych systemów.
Algorytm Collaborative filtering opiera się na wyborach człowieka. W sytuacji, kiedy artysta chce dodać utwór do platformy Spotify, musi on wypełnić specjalny formularz. W formularzu tym musi przyporządkować swój utwór do odpowiedniego gatunku, opisać „uczucia, jakie piosenka wywołuje” oraz do jakich innych artystów nawiązuje jego twórczość.
Ważnymi informacjami dla algorytmu są również zapisywanie utworów w polubionych utworach przez użytkowników oraz inne działania wykonywane przez użytkownika po wysłuchaniu piosenki wybranego artysty (Madrigal, 2020). Wszystko to jest potrzebne do odpowiedniego filtrowania oraz trafnego doboru przez platformę utworów, a także tworzenia rekomendacji dla innych użytkowników z podobnym gustem muzycznym.
Schemat działania algorytmu collaborative filtering
Algorytm Collaborative filtering – Dane wejściowe
Dane wejściowe dla algorytmu Collaborative filtering stanowi liczba odtworzeń poszczególnych piosenek przez konkretnych użytkowników. Dane są przekształcane do postaci tzw. macierzy wskaźnikowej (ang. rating, oznaczonej literą „R”).
Każdy wiersz macierzy odpowiada jednemu użytkownikowi. Natomiast każda kolumna macierzy jest przypisana do jednej piosenki (Mohan, 2020). Wartości umieszczone w poszczególnych komórkach reprezentują liczbę odtworzeń danej piosenki przez wybranego użytkownika, np. zgodnie z zaprezentowaną poniżej macierzą pierwszy użytkownik pięć razy odtworzył piosenkę numer trzy.
Operacje na danych collaborative filtering
Po utworzeniu macierzy wskaźnikowej (R) następuje jej przekształcenie na dwie pomocnicze macierze: macierz preferencji (ang. preference, oznaczono literą „P”) oraz macierz pewności (ang. confidence, oznaczono literą „C”).
Wartości poszczególnych elementów macierzy preferencji obliczane są na podstawie wartości dopowiadających im elementów macierzy wskaźnikowej.
Jeżeli danych element macierzy wskaźnikowej ma wartość równą 0, to w macierzy preferencji będzie mu odpowiadać również wartość 0. Natomiast gdy danych element macierzy wskaźnikowej ma wartość większą lub równą 1, to w macierzy preferencji będzie mu odpowiadać wartość 1.
Opisaną operację możemy zapisać za pomocą specjalnie przygotowanego wzoru. Na potrzeby tego wzoru wartości macierzy R oznaczymy jako rui , a wartości macierzy P oznaczymy jako pui. Symbol u odnosi się do danego użytkownika, a natomiast i odnosi się do piosenki.
Macierz pewności (C), podobnie jak macierz preferencji, powstaje na podstawie macierzy wskaźnikowej. Elementy macierzy pewności są oznaczane jako cui zgodnie ze schematem wykorzystanym dla macierzy preferencji. Macierz pewności stara się określić, jak bardzo prawdopodobna jest preferencja danego użytkownika względem wybranej piosenki. Dokonuje tego na podstawie ilości odtworzeń konkretnej piosenki przez danego użytkownika (Mohan, 2020).
Do przeprowadzania obliczeń wykorzystywany jest odpowiedni wzór, który oprócz opisanych wcześniej informacji korzysta z dwóch hiperparametrów (ang. hyperparameters): oraz .
W kolejnym kroku macierz wskaźnikowa jest rozkładana z wykorzystaniem algorytmu WMF (Weighted Matrix Factorization). W wyniku tego działania powstają dwie nowe macierze: X oraz Y. Wierszy macierzy X (xu) oraz kolumny macierzy Y (yi,) odpowiadają reprezentacjom czynników ukrytych (ang. latent factor)) dla użytkowników i piosenek.
Do obliczenia czynników ukrytych wykorzystywane są wartości z macierzy preferencji, macierzy pewności oraz parametr regulujący . Wzór na każdy z czynników ukrytych ma postać:
Wynik działania collaborative filtering
Po wykonaniu opisanych wcześniej operacji możliwe jest wygenerowanie rekomendacji. Rekomendacje tworzone są poprzez znalezienie ‘K’ najbliższego wektora piosenki dla każdego wektora użytkownika. Aby tego dokonać, wykorzystywany jest algorytm szacowanego najbliższego sąsiada (ang. Approximate Nearest Neighbour). Nie gwarantuje on pełnej poprawności uzyskiwanych wyników, ale cechuje się relatywnie wysoką szybkością działania, co pozwala na efektywne tworzenie rekomendacji.
Zastosowanie algorytmu collaborative filtering
Algorytm ten w praktyce wygląda tak:
Wyobraź sobie, że idziesz na spotkanie ze znajomymi. Spotykasz tam swoją znajomą Kasię. Zaczynacie rozmawiać o muzyce. Z rozmowy dowiadujesz się, że Kasia lubi piosenki B, C, D, E. Tak się składa, że ty też znasz piosenki B, C, D i one Ci się podobają. W związku z tym, że macie podobny gust muzyczny, ty postanawiasz posłuchać piosenki E, a z kolei Kasi polecasz piosenkę A. Tak właśnie wygląda działanie wskazanego algorytmu w praktyce.
Dlaczego algorytm jest ciekawy?
Wynikiem zastosowania algorytmu jest wysoka jakość spersonalizowanych rekomendacji i trafny wybór piosenek wśród ok. 82 milionów utworów platformy Spotify (Pendlebury, 2022). Algorytm zapewnia dostęp do znajomej, ale świeżej listy utworów, analizuje zachowania jednego użytkownika i porównuje do innych użytkowników, aby sprawdzić, czy mają podobne gusta. Spotify w każdy poniedziałek udostępnia milionom użytkowników 30 nowych rekomendacji utworów “Odkryj w tym tygodniu”.
Aby sprawdzić poprawność działania algorytmu w playliście została przeprowadzona ankieta. Ankietowanymi byli studenci, głównie w wieku 20-23. Ankietowani musieli przesłuchać 30 piosenek i podzielić je w dwóch kategoriach, czy im się podoba i czy znali te piosenki. Jeśli chodzi o to, czy piosenki im się podobały, to równo 40% piosenek podobało się ankietowanym, o 19% nie mieli zdania (czyli piosenka ani się nie spodobała, ale dało się ją odsłuchać), a 41% się nie podobało.
Jeśli chodzi o sprawdzenie tego, czy algorytm proponuje naprawdę nowe piosenki, to wynikiem ankiety było, że ankietowani znali jedynie 25% z 30 piosenek, co jest dobrym wynikiem – ponieważ Spotify nie da rady sprawdzić, czy np. nie słyszeliśmy danej piosenki na innej platformie, na imprezie, czy chociażby radiu.
Podsumowując, playlista, jeśli chodzi o proponowanie nowych piosenek działa dobrze. Jednakże, jeśli chodzi o proponowanie piosenek, które spodobają się słuchaczowi, już tutaj nie działa tak dobrze. Średnio tylko 12 z 30 piosenek podobało się ankietowanym, więc jest to strata ponad połowy piosenek.
FAQ
Co to jest algorytm Collaborative Filtering Algorithm?
Algorytm filtrowania współpracującego (ang. Collaborative Filtering Algorithm) to technika stosowana w systemach e-commerce i rekomendacyjnych, która polega na grupowym łączeniu informacji o preferencjach użytkowników. Algorytm umożliwia systemowi przewidywanie interesów i preferencji innych użytkowników na podstawie ich historii działań w serwisie. W tym procesie uczestniczą różne metody statystyczne, aby zgrać historie użytkowników i dopasować je do nowych zapytań. Może być stosowany w serwisach internetowych do sugerowania produktów, filmów lub muzyki.
Jakie są przykład zastosowania filtrowania zespołowego?
Filtrowanie zespołowe to algorytm stosowany do wytwarzania rekomendacji na podstawie danych interakcji użytkowników. Na przykład usługa streamingu może użyć filtrowania zespołowego, aby polecić filmy lub seriale podobne do tych, które już obejrzeli użytkownicy. Można go również wykorzystać do dopasowywania osób zgodnych pod względem pewnych cech np.: w portalach społecznościowych.
Czy Collaborative Filtering Algorithm to algorytm sztucznej inteligencji?
Nie, algorytm filtrowania zespołowego nie jest algorytmem sztucznej inteligencji. Jest to algorytm wykorzystywany do polecania treści na podstawie danych zebranych od interakcji użytkowników. Algorytm ten jest oparty na ludzkim zachowaniu i polega na analizie dostępnych informacji o interakcjach użytkownika w celu określenia, preferencji.
Autorzy : Tomasz Bykowski, Patrycja Gruszkowska ,Jakub Jeżewski
Redakcja: Marcin Kordowski
Artykuł uaktualniony 2 lata