如何讓業務團隊信任推薦模型?Line祭出可信任框架
支付動態 · 2024-09-27

一套成功的推薦系統,不只要夠穩健,還要讓業務團隊與利害關係人信任。於是Line打造兼顧穩健、公平和解釋性的可信任框架,並在資料準備、資料表徵、推薦內容和評估等4階段實作

Line臺灣打造一套可信任框架,來確保AI系統穩健、公平且可解釋,其購物推薦系統也是在該框架下展開,主要瞄準資料準備、資料表徵、推薦生成和效能評估4大階段。(/Line)

一套AI系統不只要能解決商業問題,還要能獲得業務團隊信任且合規。因此,Line臺灣打造一套可信任評估框架,來讓自家模型更強健且可解釋,就算是不懂技術的業務團隊,也能解讀模型。Line購物有套精密的機器學習(ML)推薦系統Brickmaster,就在這個框架下展開。

可信任含3大元素,鎖定4大推薦流程

這個「可信任」,包含了3項重要元素。Line臺灣電商資料科學家陳峻廷指出,首先是穩健性(Robustness),當購物平臺的商品,帶有誇大推銷說詞時,推薦系統要能夠偵測、剔除這些商品;又或是能辨別、找出有價值的評論,來推薦商品。

再來是公平性(Fairness),重點要移除偏差(Bias)。舉例來說,若使用者不小心點擊沒興趣的Line官方帳號內容,這樣的資料,就不能輸入推薦模型,以免推薦錯誤商品給使用者。因此,開發團隊從資料處理下手,移除這類偏差,確保推薦系統的推薦不受干擾。

第三個元素是透明性/可解釋性,指的是不論業務團隊還是利害關係人,都能了解ML模型資訊,甚至是特徵、推薦系統如何運作等。「這個元素對資料科學家和機器學習工程師來說很重要,」陳峻廷解釋,透明性/可解釋性能幫助團隊採用更好的微調方法,來降低部署模型的信任風險。

陳峻廷指出,這個可信任框架會落實到推薦系統的4個運作階段中,包括資料準備、資料表徵(Representation)、推薦內容生成,到效能評估階段。

實務解析可信任框架

首先,在資料準備階段,為確保訓練模型的資料乾淨且有效,Line團隊設置可信任資料前處理方法,來過濾原始資料,比如偵測異常資料、移除異常值等。

過濾後的資料,就成為可信任的輸入資料,進入第二階段資料表徵處理。由於Line購物推薦系統採雙塔模型,也就是兩套類神經網路,各自處理使用者特徵和商品特徵,再計算兩者嵌入向量的相似度,來從千萬級商品庫中,選出用戶感興趣的推薦商品清單。為確保使用者向量和商品向量的可信任程度,Line設置一套向量品質檢測機制,來檢查模型產生的向量是否達標。

下一階段,用模型產生推薦內容時,Line也設置了公平和透明機制,來確保模型推薦的內容,不會偏重某一族群或商品,並同步產出推薦結果解釋,來落實模型透明性。

最後則是評估,也是陳峻廷認為最重要的環節。在Line臺灣,可信任評估分為2大方向,一是技術面評估,由電商團隊負責,另一是倫理面評估,如責任和社會影響性評估,則由其他團隊負責。

從技術來看,Line還將可信任評估,細分為離線和線上兩種作法。其中,當推薦系統產生新場景時,會先啟動離線評估,來衡量是否合規,通過後再進行線上評估,沒問題才能部署上架。只要其中一類評估沒有合規,就退回檢查模型或特徵工程處理。

陳峻廷點出,正因為這些評估機制,ML工程師和資料科學家在演算法的設計階段,會多想一步,盡可能滿足公平透明、可解釋要求,在源頭先做好可信任工作。

離線評估是實戰前的演練

在兩種評估作法上,離線評估屬於事前的演練。

這個離線評估,主要檢視3類對象,包括模型、商業表現和推薦系統整體健康度。模型部分是根據模型性質,如基於準確度或排名,來設置檢驗指標,像是精確度、召回率、NDCG等,來檢測模型能力。

商業表現部分則檢視ML演算法,能否反映商業價值,如此才能說服業務團隊接受推薦系統。因此,要評估的面向有留客、新客推薦、收益,各自又有其指標,如點擊率(CTR)、客戶體驗的淨推薦值(NPS)、訂單轉換率(CVR)和商品交易總額(GMV)等。

這類商業指標很多,但通常,「我們會設定可快速驗證的指標,如CTR,來確認推薦系統是否可行,」來快速衡量ML系統是否滿足商業問題。

至於推薦系統整體健康度,則要檢視推薦系統能否長期運作。因此,檢視指標有推薦內容涵蓋範圍和多樣性,前者是指,推薦商品與全站商品的比重,比如是否只偏重熱門商品;多樣性則是指,推薦內容是否夠多元、而非偏重單一類商品,如只推薦咖啡。

實戰測驗:線上評估

「離線評估若是打怪練習等,線上評估就是實戰實打,是最重要且直接的方式,測試推薦系統是否正確。」陳峻廷進一步解釋,線上評估像是一場AB測試,包含8個步驟,第一步是設置目標,該目標要明確易懂,比如新演算法是否比上一代好。接著是設置指標,找出合適的驗證指標,如點擊率、留客率、訂單轉換率等,正式採用前,還要進行AA測試,來驗證指標上線後的衡量效度。訂妥指標後,接著要決定實驗單位,比如以使用者ID當作最小實驗單位。

下一步是預估採樣大小,可透過數據分析指標α、Power、Variance等來設定採樣大小。陳峻廷提醒,這個階段要留意最小成功指標,比如新演算法的點擊率最少要比舊方法高出2%,才能算成功。

採樣預估完成後,進入隨機分組階段,將流量隨機分配到實驗組和對照組,各50%,來觀察新舊方法表現。陳峻廷表示,這個階段要注意兩組的獨立性,否則會評估失效。

最後還有幾個步驟,包括估算時間、展開活動和結果測試。以上這8個步驟就是Line推薦模型所用的線上評估方法。

如何解決線上評估的實務挑戰

發展這套線上評估的過程中,Line團隊曾遇過不少實務挑戰。陳峻廷舉例,實驗結果差異性不顯著就是一大挑戰,有兩種可能原因,一是新方法確實不好,二是有差異但不夠顯著,可透過擴大資料集規模來觀察,或是降低指標變異數,比如替換相似但變異數較小的指標,或是進行傾向分數配對(PSM)分析。

另一個實務問題是樣本比率偏差(SRM),也就是AB測試時,若後端或API出現問題,導致組別數字差異越來越大,進而出現辛普森悖論,即分組數據和整體數據呈現相反趨勢,造成實驗失效。

還有一項挑戰是新奇效應(Novelty effect),較常發生在業務場景,比如一個新的使用者介面,剛推出時成功吸引到使用者目光,一直點擊使用,但長期下來,效果趨於平緩,甚至不如剛上線時。這情況也可能相反,比如新功能上線初期可能不受喜愛,但用戶群忠實度高、最終還是會使用,長期下來,商業指標會是上升。

LLM也能用來解釋模型

近年風生水起的大型語言模型(LLM),Line也積極用這項技術,來強化購物推薦系統的可信任程度。

第一個LLM應用場景是特徵工程,工程師對LLM下提示,要求執行字符化(Tokenization)工作。陳峻廷指出,這個作法很有效,可幫助Line更好地萃取商品規格等關鍵資訊、加速後續向量生成,甚至比原本的BERT模型方法還要好。為了驗證這些向量的品質,他們採取探測(Probing)方式,從推薦系統的雙塔模型,設計探針來取得使用者向量和商品向量,再以RankMe等指標來評估向量品質。

另一個使用LLM的地方是雙塔模型的解釋,比如將使用者特徵和商品特徵分別輸入LLM,再進行分數和解釋設定,就能得出結果,以此來驗證推薦系統。這就是Line以LLM強化可解釋性的作法。

 相關報導 

Popular articles
Are you ready to maximize your earnings? Try ProPush.me Constructor!
Marketing
New Jersey July Gambling Revenue Hits $606M, Sweeps Casinos Banned
Regulation
GAT CDMX 2025 Institutional Academy: Leaders and Experts Analyze the Present and Future of the Gaming Industry in Mexico and Lat
Sports Game
British gambling levy rates confirmed for each vertical
Regulation
GGC Awards 2026 Shines in Colombo: Honoring Leaders and Innovators in the iGaming Industry
HUIDU Focus
Online gambling, crypto pose ongoing money laundering risks in Philippines, analyst says
Southeast Asia
Kazakhstan plans to penalise online casino promotions
Regulation
PropellerAds Shared a New iGaming Case Study: 97,674 Installs and 12,701 Deposits in 3 Months
Marketing
GAT Expo Puerto Rico Will Pulse with the New Era of Gaming in the Caribbean
Marketing
JILI Partners with Cricket Legend AB de Villiers (ABD) to Launch Exclusive Branded Game Series 100% 11
Sports Game
Full House at GAT Expo Cartagena 2026 Academic Agenda
Online Game
Super PAC Raises $48 Million: Sports Betting Forces Ramp Up Political Push
Regulation
Brazil Proposes Raising Gambling Tax Rate to 24%, With Revenue Allocated to Social Security and Healthcare
Regulation
Vietnam’s Controlled Gaming Shift Gains Ground, But Domestic Demand Still Lags
Southeast Asia
Institutional Academy that exceeded expectations marked the opening of GAT CDMX
Online Game
Home
Game
Cooperation
Find
My