Line如何萬中選一精準推薦,購物平臺關鍵技術大剖析
支付動態 · 2024-09-27

作為導購平臺,Line購物將用戶導引到所需的商家平臺,全靠精準推薦。他們用檢索、排名、再排名這三大階段,來打造這套推薦系統

Line團隊打造一套3階段購物推薦系統,分別從上千萬商品庫中撈出幾百個用戶可能有興趣的商品,接著透過使用者行為,來排名候選的推薦商品、縮小推薦範圍,最後加上商業邏輯來決定最終推薦給用戶的商品。(/Line)

「在數百萬到數千萬的商品中,如何快速找到用戶有興趣的商品,推薦給他們?」Line臺灣機器學習工程師黃耀慶這句話,點出推薦系統對Line購物的重要性和挑戰。

Line購物是一個導購平臺,就像是消費者與店家的橋樑,將使用者導向成千上萬款商品各自的品牌商網站、電商平臺上的商品網頁。為了提高銷售量,得想辦法從百萬、甚至是千萬量級的商品數量,迅速找出使用者有興趣的幾個商品,推薦給他們。

為此,Line團隊發展出一套高度個人化的購物推薦系統,光是推薦情境模組就有20多種,比如個人化文章推薦、降價商品推薦、搜尋關鍵字推薦,又或是類似商品推薦等。這套以機器學習驅動的核心推薦系統叫做Brickmaster,在2022年正式啟用。

Line臺灣如何設計它,來因應多情境和海底撈針般的精準推薦挑戰?多位Line臺灣開發團隊成員,在Hello World開發者大會上揭露了背後的挑戰和開發經驗。

分3階段打造精準推薦系統

首先,開發團隊將Line購物導購的推薦流程,切分為3大階段,一方面提高推薦精準度,又能整合不同消費者行為和業務考量的需求。

第一步是「檢索(Retrieval)」,從包含千萬個商品的資料庫中,撈出數百個使用者可能感興趣的商品。接著是「排名(Ranking)」,根據使用者行為,將第一階段撈出的上百個候選推薦商品,縮小至數十個商品。

最後是「重新排名(Re-rank)」,這是用來結合各種商業邏輯(如促銷活動、節日活動和商品獲益)、商品新鮮度和商品多樣性的考量,來調整候選推薦商品。完成這些階段後,系統可以產生一份用來吸引顧客的推薦商品清單。

階段1:檢索

黃耀慶指出,與全站商品相比,使用者有興趣、會點擊的商品,幾乎只占了全站商品的「0.001%」想要從龐大的商品中,找出這麼少的目標商品,正是第一步,檢索階段的嚴峻挑戰。

為快速從巨量商品中,找出使用者感有興趣的商品,Line採用推薦領域中經典的雙塔模型方法。這個雙塔模型可分為使用者塔(User tower)和商品塔(Item tower),兩個塔各為一套多層的類神經網路。

其中,使用者塔用來處理使用者特徵,得到使用者的嵌入向量。商品塔則用於處理商品特徵,產出商品嵌入向量。這雙塔產出的使用者向量和商品向量,再經過內積運算,進行使用者-商品向量的相似度搜尋,經運算最終得到目標答案,也就是使用者有興趣點擊的商品清單。

為讓模型精準產出使用者向量和商品向量,得先進行特徵工程。Line將雙塔模型所需的特徵分為兩種,即檔案和行為,比如在使用者特徵部分,就有使用者檔案(如基本資料)和使用者行為(如點擊次數、點擊品項),在商品特徵部分,則是商品檔案和商品行為,如商品名稱、ID、價格,以及同一商品被不同性別購買的次數、商品與不同族群的互動關係等。

這些特徵涵蓋數值、類別和文字等3種類型,Line對這些類型特徵,各有其處理方式。比如針對數值型特徵進行標準化(Normalization),來縮小數值範圍、好讓類神經網路學習;又或是使用威爾遜得分區間(Wilson Score Interval),來減少數值的偏差。

對於類別型特徵,也有幾種常見的處理方式,像是將商品品項轉換為數字編碼的獨熱編碼方法、確保順序邏輯的序數編碼等。文字型特徵則以BERT編碼來處理。

在實務上,Line將雙塔模型拆為2種運作模式,商品塔採取離線處理,使用者塔則靠線上處理。這是因為,商品行為的改變頻率較低,但使用者喜好變動快速,模型得在短時間內處理,才能篩選出最貼近需求的商品。

不只可以利用使用者與商品的相似度,來尋找推薦商品,也可以利用使用者最近喜歡的商品清單,來尋找更多使用者感興趣的同一類商品。這是Line購物在檢索階段,會使用的另一種商品相似度搜尋(Item to item)作法,一樣採用雙塔模型方法,只是將其中一塔改為使用者最近喜歡的商品,另一塔則是商品庫商品,透過比對使用者最近喜歡的商品特徵,以及商品庫商品最新特徵,來找出用戶可能有興趣的商品。

階段2:排名

經過檢索階段,可以從上千萬個商品中,篩選出幾百個使用者感興趣的商品了。但這個數量還是太多,接下來藉由排名作法,找出優先推薦的項目。

Line會根據使用者在Line購物「推薦版位」(比如夯話題)上的行為,推測使用者感興趣的濃厚程度,來排列候選推薦商品的順序。這可以想像為,另一種縮小推薦商品範圍的方法。

在這個階段,Line團隊一樣採用類神經網路,來計算在推薦版位,使用者會點擊的商品。排名模型所處理的特徵有3種,包括使用者特徵、商品特徵,以及使用者-商品特徵(比如用戶對商品的點擊或購買次數)。

在實務上,為支援龐大的運算需求,Line採用開源大數據處理工具PySpark,以分散式運算來執行排名模型的推論工作。這一步,就像是將原本一臺機器100秒才能完成的工作,分散給100臺機器處理,1秒就能完成該工作。

階段3:再排名

完成第二階段的排名工作,篩選出使用者最有興趣到一般有興趣的商品排序後,還需要進行最後一步的調整,才推薦給使用者。

調整條件可分為三類,包括商品多樣性、商品新鮮度和商業邏輯。進一步來說,商品多樣性是指,推薦商品要包含不同類型的商品,而不是前10名都推同一類型商品給用戶,比如滑鼠。

就商品新鮮度而言,顧名思義是盡量推薦較新的商品給用戶。不過,新上架的商品缺乏足夠的資料,難以靠模型學習來篩選。於是,Line團隊改以規則式方法,讓新上架的商品,也能納入推薦商品名單內,來增加曝光度。於是,Line團隊改以規則式方法,將新上架的商品納入推薦商品名單內,來增加曝光度。這麼做,短期內點擊率雖會下降,但長期而言,有益於推薦系統發展。

這是因為,當使用者接收到的推薦商品,都來自自己認知範圍內,久而久之容易膩。而保留流量給新品推薦,不只能讓使用者探索興趣,也能曝光新品、累積資料,利於後續模型訓練和推薦。

最後的商業邏輯,則是指推薦商品要符合促銷活動、節假日活動或商品獲益考量。比如父親節時,提高當時時令禮品的權重。

至此,「檢索」、「排名」、「再排名」這三大階段,構成了Line購物推薦系統的核心流程。

善用開源技術提高模型處理效率

由於商品庫和用戶數量龐大,模型必須處理成千上萬個特徵,需要大量運算處理。因此,除了分散式處理特徵工程的PySpark,Line團隊還借助一些開源工具,來提高作業效率和各階段任務管理。

這包括用來支援模型分散式訓練的數據函式庫Petastorm,用來管理和追蹤模型實驗成效的MLflow,能將PyTorch模型訓練程式碼模組化的PyTorch Lighting,以及視覺化管理模型訓練排程的Airflow。

這些工具相互搭配,而且缺一不可。比如,PySpark借助多臺機器資源,來分散式執行Line購物商品和使用者特徵工程,Petastorm能快速打散Line購物累積的巨量資料並讀取,MLflow則用來追蹤推薦模型表現,比如實驗中哪些模型超參數效果最好,而PyTorch Lighning除了能將模型訓練模組化,還能簡潔記錄推薦模型資訊等。這些工具也是Line購物打造出超強推薦系統的關鍵。

 相關報導 

熱門文章
Are you ready to maximize your earnings? Try ProPush.me Constructor!
Marketing
Gaming & Technology Expo Makes a Powerful Entrance in CDMX
Marketing
Full House at GAT Expo Cartagena 2026 Academic Agenda
Online Game
GAT CDMX 2025 Institutional Academy: Leaders and Experts Analyze the Present and Future of the Gaming Industry in Mexico and Lat
Sports Game
Kazakhstan plans to penalise online casino promotions
Regulation
GAT Expo Puerto Rico Will Pulse with the New Era of Gaming in the Caribbean
Marketing
UK MPs reopen 2025 gambling inquiry as reform stalls
Regulation
SBC Summit Canada to Make Player Safety a Key Pillar of 2026 Agenda
Marketing
Across 6 Cities: HUIDU Invites You to 8 World Cup Parties Redefining High-Value Social Networking
HUIDU Focus
JILI Partners with Cricket Legend AB de Villiers (ABD) to Launch Exclusive Branded Game Series 100% 11
Sports Game
PropellerAds Shared a New iGaming Case Study: 97,674 Installs and 12,701 Deposits in 3 Months
Marketing
New Jersey July Gambling Revenue Hits $606M, Sweeps Casinos Banned
Regulation
B2B Tech Infrastructure Gains Momentum in Philippine Gaming Sector
Southeast Asia
Vietnam’s Controlled Gaming Shift Gains Ground, But Domestic Demand Still Lags
Southeast Asia
GGC Awards 2026 Shines in Colombo: Honoring Leaders and Innovators in the iGaming Industry
HUIDU Focus
首頁
遊戲
合作
發現
我的