ویکی‌پدیا برای توسعه‌دهندگان هوش مصنوعی مجموعه‌ داده اختصاصی منتشر کرد

دیجیاتو پنج شنبه 28 فروردین 1404 - 16:02
ویکی‌پدیا با هدف مقابله با استخراج غیرقانونی محتوا توسط ابزارهای هوش مصنوعی این مجموعه داده را منتشر کرده است. The post ویکی‌پدیا برای توسعه‌دهندگان هوش مصنوعی مجموعه‌ داده اختصاصی منتشر کرد appeared first on دیجیاتو.

بنیاد ویکی‌مدیا که نهاد پشتیبان ویکی‌پدیا است، برای مقابله با ربات‌های هوش مصنوعی که به‌طور مداوم اطلاعات این پلتفرم را استخراج می‌کنند، مجموعه‌ای از داده‌ها را منتشر کرده که به‌طور خاص برای آموزش مدل‌های هوش مصنوعی طراحی شده‌اند.

ویکی‌مدیا اعلام کرده با همکاری پلتفرم Kaggle (که تحت مالکیت گوگل قرار دارد و میزبان داده‌های مرتبط با یادگیری ماشینی است)، نسخه بتای یک مجموعه‌ داده که شامل محتوای ساختاریافته ویکی‌پدیا به زبان‌های انگلیسی و فرانسوی می‌شود را منتشر کرده است.

کمک مجموعه داده ویکی‌پدیا به توسعه‌دهندگان هوش مصنوعی

طبق اعلام ویکی‌مدیا، این مجموعه داده با در نظر گرفتن نیازهای توسعه‌دهندگان هوش مصنوعی طراحی شده و دسترسی به اطلاعات قابل‌خواندن توسط ماشین برای آموزش، تنظیم دقیق، ارزیابی، تطبیق و تحلیل مدل‌های هوش مصنوعی را آسان‌تر می‌کند.

این داده‌ها با مجوز آزاد منتشر شده‌اند و شامل خلاصه‌های پژوهشی، توضیحات کوتاه، لینک تصاویر، داده‌های اینفوباکس و بخش‌بندی مقالات می‌شود، اما ارجاعات و فایل‌های غیردست‌نویس مانند فایل‌های صوتی در آنها وجود ندارد.

بنیاد ویکی‌مدیا در بیانیه خود می‌گوید این داده‌ها که در قالب فایل‌های JSON ارائه شده‌اند، می‌توانند جایگزین بهتری برای استخراج مستقیم و تجزیه‌ متن خام مقالات باشند. استخراج داده توسط ربات‌ها درحال‌حاضر فشار زیادی بر سرورهای ویکی‌پدیا وارد کرده، چرا که این ربات‌های هوش مصنوعی به‌طور گسترده‌ای از پهنای باند آن استفاده می‌کنند.

پیش‌ازاین نیز ویکی‌مدیا با شرکت‌هایی مانند گوگل و Internet Archive قراردادهایی برای اشتراک‌گذاری محتوا امضا کرده بود، اما همکاری با Kaggle می‌تواند داده‌های ویکی‌پدیا را برای شرکت‌های کوچک‌تر و پژوهشگران مستقل نیز در دسترس‌تر قرار دهد.

«برندا فلین»، مدیر همکاری‌های Kaggle، درباره این همکاری گفت:

«از اینکه میزبان داده‌های بنیاد ویکی‌مدیا هستیم بسیار هیجان‌زده‌ایم. Kaggle با افتخار نقش خود را در حفظ دسترسی، بهره‌وری و مفید بودن این داده‌ها ایفا خواهد کرد.»

منبع خبر "دیجیاتو" است و موتور جستجوگر خبر تیترآنلاین در قبال محتوای آن هیچ مسئولیتی ندارد. (ادامه)
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت تیترآنلاین مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویری است، مسئولیت نقض حقوق تصریح شده مولفان از قبیل تکثیر، اجرا و توزیع و یا هرگونه محتوای خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.