Reddit封鎖爬蟲，Google則花6000萬美元獨佔Reddit搜索結果-灰度官网

Reddit封鎖爬蟲，Google則花6000萬美元獨佔Reddit搜索結果

广告营销 · 2024-07-27

Google現在是唯一可以從Reddit搜尋出結果的搜索引擎，使網路最有價值的使用者生成內容倉庫之一成為網路搜尋巨頭的獨佔品。

如果你使用Bing、DuckDuckGo、Mojeek、Qwant或任何其他不依賴Google索引的替代搜索引擎，並使用“site:reddit.com”去搜索Reddit，你將看不到過去一週的任何結果。DuckDuckGo目前在搜尋Reddit時只會會出現7個連線，但不提供這些連線的去向或原因的任何資料，只是說“我們想要在此處為你顯示摘要，但網站不允許”。較舊的結果仍會顯示，但這些搜索引擎不再能夠“爬取”Reddit，這意味著Google將是唯一能夠顯示Reddit結果的搜索引擎。在獨立的付費搜索引擎Kagi上搜索Reddit仍然有效，Kagi從Google購買了部分搜尋索引。

這個訊息顯示了Google在搜尋方面的近乎壟斷地位，以及如何積極阻礙其他公司競爭的能力，這個時間點，剛好是Google因為其搜索結果品質下降而面臨越來越多的批評。其他搜索引擎被排除在外，也發生在Reddit限制對其網站的訪問以阻止公司爬取其內容用於人工智慧訓練之後，目前只有Google可以繼續爬取Reddit的資料，這是基於一項數百萬美元的協議，該協議賦予Google爬取Reddit資料以訓練其AI產品的權利。

“他們“Reddit”正在扼殺除Google以外的所有搜索引擎。”搜索引擎Mojeek的執行長柯林·海赫斯特（Colin Hayhurst）在通話中告訴我。

海赫斯特在六月初Mojeek發現被禁止爬取該網站時嘗試透過電子郵件聯絡Reddit，但表示尚未收到回覆。

“這以前從來沒有發生過。”他說。“因為這會發生在我們身上，我們被封鎖，通常是因為愚蠢或其他原因，當你聯絡網站時，你一定可以解決這個問題，但我們從未遇到過沒有任何人回覆的情況。”

“這與我們最近與Google的合作伙伴關係完全無關。由於我們最近與Google完成協議，說最近的Reddit結果沒有出現在非Google搜索引擎中並不準確。”Reddit發言人提姆?拉史密特（Tim Rathschmidt）在電子郵件中說。他表示，Reddit會封鎖所有不願意承諾不將爬取資料用於人工智慧訓練的爬蟲，而且Reddit一直“與多個搜索引擎進行討論。我們無法與所有搜索引擎完成協議，因為一些搜索引擎無法或不願意就其對Reddit內容的使用（包括用於人工智慧）做出可執行的承諾。”

然而，Reddit並沒有解釋為什麼沒有回覆來自Mojeek的電子郵件，而Mojeek並不會爬取網路資料用來訓練AI。

“我們願意與各種規模大小的公司合作，而且現在也在這樣做。”拉史密特說。

越來越多的網站試圖透過更新robots.txt檔案來阻止人工智慧公司用來爬取其網站以進行訓練的機器人。Robots.txt是一個文字檔案，它會指示機器人它們是否被允許訪問網站。例如，Googlebot是Google用於爬取網路以獲取搜索結果的爬蟲或“蜘蛛”。具有robots.txt檔案的網站可以例外地授給Googlebot訪問許可權，而不授給其他機器人訪問許可權，因此它們可以出現在可以產生大量流量的搜索結果中。最近，Google還推出了Google-Extended，這是一個專門爬取網路以改善其Gemini應用程式的機器人，因此網站可以允許Googlebot爬取但封鎖Google用來驅動其生成式AI產品的爬蟲。

Robots.txt只是指令，爬蟲可以並且已經忽視了這些指示，但據海赫斯特說，Reddit也在積極主動封鎖其爬蟲。

Reddit一直對人工智慧公司爬取網站以訓練大型語言模型感到不滿，並採取了公開和積極的措施阻止它們繼續這樣做。去年，當Reddit開始收取訪問其API的費用時，它破壞了許多Reddit社交媒體喜愛的第三方應用程式，使許多這些第三方應用程式的運營成本過高。今年早些時候，Reddit宣佈與Google簽署了一項價值6000萬美元的協議，允許Google可以得到授權用Reddit內容來訓練其AI產品。

Reddit的robots.txt過去包含許多笑話，例如禁止來自未來世界的機器人Bender爬取它(User-Agent:bender,Disallow:/my_shiny_metal_ass)和搜索引擎可以和不可以訪問的特定頁面。“/r .rss/”被允許，而“/login”不被允許。

如今，Reddit的robots.txt更簡單、更嚴格。除了幾個指向Reddit新的“公共內容政策”的連線之外，該檔案還簡單地包含以下指令：

User-agent:

Disallow:/

這基本上意味著：任何使用者代理（機器人）都不得爬取網站的任何部分。

“Reddit信奉開放的網際網路，但不贊成濫用公共內容，”更新後的robots.txt檔案說。

Reddit在6月表示：“不幸地，我們看到顯然商業化的實體越來越多地爬取Reddit內容，並辯稱不受我們的條款或政策約束。更糟糕的是，他們躲在robots.txt背後，聲稱可以將Reddit內容用於任何他們想要的用途。雖然我們將繼續盡我們所能找到並主動阻止這些不良行為者，但我們需要做更多的事情來保護Reddit使用者的貢獻。在接下來的幾周內，我們將盡可能清楚地更新我們的robots.txt指令：如果你使用自動代理程式訪問Reddit，你需要遵守我們的條款和政策，並且需要與我們聯絡。”

Reddit大約在6月25日左右更新了其robots.txt檔案，當時Mojeek的海赫斯特注意到他們的網路爬蟲被封鎖了。當時的公告稱：“像研究人員和網際網路檔案館等組織，將繼續可以訪問Reddit內容用於非商業用途，”並且“我們對與誰合作以及信任誰能大規模訪問Reddit內容持謹慎態度。”。公告還連線到一個關於訪問Reddit資料的指南，該指南明確指出Reddit認為“搜尋或網站廣告”屬於“商業用途”，並且任何人都不能未經許可或支付費用而使用Reddit資料。

Google沒有迴應媒體的評論，但其宣佈與Reddit完成協議的宣告不僅指出Reddit對於訓練人工智慧的價值，還還指出我們許多人已經知道的事實：隨著Google搜尋在找到相關搜索結果方面變得越來越糟糕，獲得相關結果的最佳方式之一就是在你的搜尋查詢中新增“Reddit”，將Google引導到一個真實的人類已經寫了近二十年建議和推薦的網站。。有很多方法可以說明Reddit的有用性，但不會做得比這段影片更好：

Google現在是唯一能將使用者導向那些資訊的搜索引擎，而且這顯然是與Google花了6000萬美元購買AI訓練資料有關。這再次顯示了，爲了驅動生成式AI工具而無差別地抓取整個網路，可能產生意想不到的後果。

海赫斯特說：“我們一直以來都以尊重的方式爬取資訊，並且已經這樣做了20年。我們在Cloudflare上經過驗證，我們不訓練AI，就像真正的傳統搜尋一樣，我們不做“答案引擎”之類的事情。”“答案引擎”是Perplexity對其人工智慧搜索引擎的稱呼。“Mojeek的全部意義在於我們不進行任何關注。但人們也使用我們是因為我們提供了一套完全不同的結果。”

海赫斯特說，Reddit與Google的協議使提供這些替代搜尋網路的方式變得更加困難。

“這只是更大趨勢的一部分，不是嗎？”他說：“這讓我們非常擔心。網路正在逐漸被消滅，被侵蝕。我不想以偏蓋全，但這對小公司來說沒有幫助。”