日韩一区,国产二区,欧美三区,日本大片在线看黄a∨免费,欧美人体做爰大胆视频,欧洲美女黑人粗性暴交视频,日,韩,欧美一区二区三区

<sub id="mtyri"></sub>

網(wǎng)絡(luò)爬蟲太多維基百科頂不住 AI 訓(xùn)練網(wǎng)絡(luò)爬蟲正給網(wǎng)站帶來壓力

IT資訊
4月3日
編輯

主機幫主機邦站長

4 月 3 日消息，維基百科運營方維基媒體基金會在當(dāng)?shù)貢r間 4 月 1 日的一份博文中表示，為 AI 訓(xùn)練數(shù)據(jù)集抓取資源的網(wǎng)絡(luò)爬蟲正對這家非營利性組織帶來運營開支上的壓力。

網(wǎng)絡(luò)爬蟲太多維基百科頂不住 AI 訓(xùn)練網(wǎng)絡(luò)爬蟲正給網(wǎng)站帶來壓力插圖

維基百科的姊妹項目維基共享資源（Wiki Commons）存儲著大量可用于 AI 模型訓(xùn)練的多媒體資料集。根據(jù)統(tǒng)計數(shù)據(jù)，自 2024 年 1 月以來從維基共享資源下載多媒體內(nèi)容的帶寬增長了 50%，而這一變化趨勢主要由自動化程序而非人類操作導(dǎo)致。

維基媒體基金會此前有能力應(yīng)對突發(fā)事件導(dǎo)致的人類用戶的流量激增，但 AI 時代自動爬蟲活動的日益頻繁正不斷侵蝕該組織現(xiàn)有的冗余度，讓基金會將大量時間和資源用于響應(yīng)非真人流量。

維基媒體基金會的數(shù)據(jù)存儲的模式是低使用頻率內(nèi)容僅存放在核心數(shù)據(jù)中心，而高頻請求的數(shù)據(jù)則將在更鄰近的數(shù)據(jù)中心提供備份。

自動爬蟲的“遍歷式”查詢方式意味著其有更多的流量發(fā)送到核心數(shù)據(jù)中心，這帶來了更高的流量成本。根據(jù)維基媒體基金會的統(tǒng)計，機器人以 35% 的總體瀏覽量消耗了 65% 的核心數(shù)據(jù)中心流量資源。

此外，自動爬蟲甚至還去訪問了維基媒體基金會開發(fā)環(huán)境關(guān)鍵系統(tǒng)（如代碼審查平臺、錯誤跟蹤器）的 URL。

維基媒體基金會表示雖然該組織是非營利的，各項目的內(nèi)容是免費提供的，但其基礎(chǔ)設(shè)施卻不是免費獲得的，應(yīng)建立一個負責(zé)任、可持續(xù)的基礎(chǔ)設(shè)施使用規(guī)范，勿重演“公地悲劇”。

給TA打賞

共{{data.count}}人

人已打賞

網(wǎng)絡(luò)爬蟲

0 條回復(fù) A文章作者 M管理員

暫無討論，說說你的看法吧

咨詢電話 17307799197

QQ176363189

速度網(wǎng)絡(luò)服務(wù)商

sudu@yunjiasu.cc

suduwangluo