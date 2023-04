© Pixabay Gerd Altmann Технологичните компании крият какво точно "хранят“ изкуствения интелект /ИИ/, така че редакторите на The Washington Post решиха да анализират набора от данни на Google C4, за да разберат кои сайтове и ресурси са използвани за обучение на невронни мрежи. Резултатите ще ви изненадат.



През последните четири месеца задвижваните от изкуствен интелект чатботове избухнаха в популярност, удивлявайки обществеността с невероятните си способности – независимо дали става въпрос за писане на сложни курсови работи или водене на плашещо смислени разговори.



Чатботовете не могат да мислят като хората, те всъщност не разбират какво казват. Те могат само да имитират човешка реч, тъй като изкуственият интелект, на който са базирани, е погълнал огромен масив от текстове, обикновено взети от интернет.



Тези текстове са основният източник на информация за изкуствения интелект за света около тях. В много отношения те предопределят как ще реагира на потребителските заявки. Така че, ако е издържал адвокатския изпит, например, вероятно е само защото данните за обучението включват хиляди тестове, за да влезе в юридическия факултет.



От известно време технологичните компании започнаха да крият с какво точно "хранят“ ИИ. Затова The Washington Post реши да анализира наборите от данни, за да разбере дали лични данни или обидни сайтове са се промъкнали в образователния материал.



Отваряне на черната кутия



В опит да погледнем отвъд черната кутия, ние анализирахме гигантския набор от данни Google C4, моментна снимка на съдържанието на 15 милиона сайта, което е използвано за обучение на "големи езикови модели“ от висок клас на английски – по-специално T5 на Google и LLaMA Facebook *. (OpenAI не разкрива какви набори от данни обучава модели за популярния чатбот ChatGPT)



В съвместно разследване с Института за изкуствен интелект, The Washington Post класифицира уебсайтове въз основа на уеб анализи от Similarweb. Около една трета от сайтовете не могат да бъдат класифицирани, главно защото вече не съществуват в интернет. Ние ги изключихме.



Останалите 10 милиона уебсайта бяха класирани по така наречените "маркери“ в набора от данни. Маркерите в този случай означават малки фрагменти от текст, използвани за обработка на информация - като правило това са отделни думи или фрази.



От Wikipedia до Wowhead



В набора от данни бяха открити сайтове с много различни посоки: от журналистика, развлечения, разработка на софтуер и медицина до създаване на съдържание. Това предполага, че тези области са най-застрашени от новата вълна на изкуствения интелект. Първите три сайта бяха patchs.google.com (първо място) с текстове от световни патенти; безплатна онлайн енциклопедия wikipedia.org (второ място); и платената цифрова библиотека scribd.com. Но в същото време сравнително високо място (190-то) беше заето от скандалния сайт за пиратски електронни книги b-ok.org, който оттогава беше затворен от Министерството на правосъдието на САЩ. В същото време най-малко 27 други сайта, идентифицирани от правителството на САЩ като пиратски, попаднаха в набора от данни.



Изборът на популярни сайтове ни се стори произволен, като форума на играчите на World of Warcraft wowhead.com (181-во място), изгорелия продукт на Ариана Хъфингтън thriveglobal.com (175-о място) и най-малко десет сайта за контейнери за боклук., включително вече недостъпния dumpsteroid. com (183-то).



Други сайтове повдигат сериозни опасения за поверителността. Два от първите 100 сайта – coloradovors.info (40-то място) и flvoters.com (73-то място) – имат частно публикувани копия на бази данни с правителствени избиратели. Въпреки че данните за избирателите са публично достъпни, моделите на AI могат да използват лична информация по неизвестни начини.



Съдържание без съгласие



Най-голямата категория е съставена от бизнес и индустриални сайтове (16% от маркерите), водени от Fool.com (13-ти), който предоставя инвестиционни съвети. По отношение на броя на жетоните, сайтът за набиране на средства за творчество kickstarter.com (25-то място) и patreon.com (2398-мо място), където създателите събират месечни такси от абонатите за ексклузивно съдържание, са плътно зад тях.



С помощта на Kickstarter и Patreon AI може да има достъп до творческите идеи на други хора и да ги заема за собствената си работа. Днес художниците не получават никаква компенсация, ако работата им е включена в данните за обучение на AI, и те вече са завели съдебни дела за нарушаване на авторски права срещу генератори на текстови изображения Stable Diffusion, MidJourney и DeviantArt.



Нашият анализ предполага, че в бъдеще могат да възникнат други правни предизвикателства: символът за авторско право за произведение, регистрирано като интелектуална собственост, се среща над 200 милиона пъти само в набора от данни C4.



Всички новини



Трето място зае категорията "Новини и медии“. Но в същото време публикациите представляват половината от десетте най-популярни сайта във всички категории: nytimes.com (4-то), latimes.com (6-то), theguardian.com (7-мо), forbes.com (8-мо) и huffpost. com (9-ти). Washingtonpost.com се настани наблизо, на номер 11. Подобно на артисти и автори, някои журналисти вече критикуваха технологичните компании за използването на тяхното съдържание без разрешение или компенсация.



Наред с други неща, открихме редица публикации, чиято надеждност по независимата скала на NewsGuard е съмнителна: десният новинарски сайт breitbart.com (159-то място) и уебсайтът против имиграцията, насърчаващ белия шовинизъм, vdare.com (993-то).



Установено е, че чатботовете постоянно дават невярна информация и не винаги предоставят връзки. Ненадеждните данни за обучение могат да влошат пристрастията, пропагандните пристрастия и дезинформацията, като същевременно затрудняват проследяването до оригиналния източник.



Религиозните обекти отразяват западната позиция



Около 5% от съдържанието се пада на сайтове на социална тематика, като в тази категория преобладава религията. Сред първите 20 религиозни обекта 14 са били християнски, два са еврейски, един е мюсюлмански, един е мормонски, един е на Йехова и един прославя всички религии.



Най-популярният християнски сайт Grace to You (gty.org, 164th) принадлежи на евангелската църква Grace to You в Калифорния. Christianity Today наскоро съобщи, че тя е посъветвала жените да "продължават да се подчиняват“ на насилниците и съпрузите и да не се оплакват от тях на властите.



Най-високо класираният еврейски сайт е jewishworldreview.com, онлайн списание за ортодоксални евреи (366-то място). През декември той публикува публикация за Ханука, в която обвинява за нарастването на антисемитизма в САЩ "крайнодесния, фундаменталистки ислям“, както и "повлияната от афро-американската общност животът на чернокожите е важен“.



Антимюсюлманските предразсъдъци се превърнаха в проблем в редица езикови модели. Така проучване, публикувано в списание Nature, показа, че в 66% от случаите ChatGPT-3 завършва фразата "Двама мюсюлмани влизат ...“ с насилствени действия.



Много лични блогове



Втората по големина категория, която представлява 15% от маркерите, е технологията. Това включва платформи за изграждане на уебсайтове като site.google.com (85-то място), който хоства страници за всичко - от клуб по джудо в Рединг, Англия до католическа детска градина в Ню Джърси.



Наборът от данни включва над половин милион лични блогове, или 3,8% от маркерите. Платформата за публикуване medium.com (46-та), с десетки хиляди блогове, беше петият по големина технологичен сайт. Списъкът включва и блогове в платформи като WordPress, Tumblr, Blogspot и LiveJournal.



Съдържанието на тези дневници е много различно. Сред тях беше блогът Grumpy Grunt от двама анонимни учени, единият от които наскоро описа как загубата на работа на партньор се е отразила на данъчната им декларация. Друг водещ блог предлага съвети за ролева игра на герои. Друг популярен сайт, "Депортирани палестинци“, често пише за "ционисткия тероризъм“ и "ционистката идеология“.



Социалните мрежи като Facebook и Twitter - сърцето на съвременния интернет - забраняват извличането на данни, което означава, че на повечето комплекти за обучение на AI е отказан достъп до тях.



Технологични гиганти като Facebook и Google, с техните гигантски мини от разговорни данни, не са обяснили ясно как личната информация на потребителите може да се използва за обучение на AI модели, независимо дали за вътрешна употреба или за публична продажба.



Какво са пропуснали филтрите



Подобно на повечето компании, Google внимателно филтрира данните, преди да ги качи в AI (C4 означава "Colossal Cleaned Web-Collected Corpus“). В допълнение към отстраняването на явни безсмислици и повтарящ се текст, компанията използва "Списък с мръсни, обидни, нецензурни и други лоши думи“. То е публично достояние и включва 402 английски думи и един емотикон (ръка с неприличен жест). В допълнение, компаниите обикновено използват висококачествени набори от данни за фина настройка на моделите, предпазвайки потребителите от неподходящо съдържание.



Въпреки че този черен списък има за цел да ограничи неволното въвеждане на расови обиди и нецензурни думи в учебния процес, известно е, че част от несексуално ЛГБТ съдържание също се изключва по този начин. В същото време, както показаха минали проучвания, много неща преминават безопасно през филтрите. Открихме стотици примери за порнографски сайтове и над 72 000 примера за "свастика“, един от забранените символи.



Наред с други неща, The Washington Post установи, че филтрите не са успели да се справят с набор от смущаващо съдържание, включително уебсайта на белите шовинисти stormfront.org (27 505 място), уебсайта против транссексуалните kiwifarms.net (378 986 място) и анонимния графичен форум 4chan.org (4 339 889-ти).



Открихме също threepercentpatriots.com (8 788 836-то място), вече несъществуващ сайт, който насърчава антиправителствена идеология и беше посетен от граждани, обвинени във връзка с бунта на Капитолийския хълм на 6 януари 2021 г., в този списък. Имаше и уебсайтове, популяризиращи конспиративни митове, включително крайнодесните теории на конспирацията QAnon и Pizzagate за предполагаемото господство на педофилите във Вашингтон.



Вашият сайт служи ли като инструмент за обучение на ИИ?



Може да изглежда, че говорим за почти копие на целия Интернет, но това е само вид "моментна снимка“, която улавя определена селекция от страници в определен момент от време. Масивът C4 започна с извличане на данни от април 2019 г. от CommonCrawl, организация с нестопанска цел и популярен ресурс за ИИ модели. CommonCrawl отбеляза, че се опитват да дадат приоритет на най-важните и авторитетни сайтове, като същевременно не се опитват да избегнат лицензирано съдържание, което е покрито с авторски права.



Списък с най-популярните сайтове:



1 patents.google.com 0.46%



2 wikipedia.org 0.19%



3 scribd.com 0.07%



4 nytimes.com 0.06%



5 journals.plos.org 0.06%



6 latimes.com 0.05%



7 theguardian.com 0.05%



8 forbes.com 0.05%



9 huffpost.com 0.04%



10 patents.com 0.04%



11 washingtonpost.com 0.03%



12 coursera.org 0.03%



13 fool.com 0.03%



14 frontiersin.org 0.03%



15 instructables.com 0.03%



Въпреки че самият C4 е огромен, големите езикови модели вероятно ще използват още по-големи набори от данни, казват експерти. И така, наборът за обучение за OpenAI GPT-3, издаден през 2020 г., беше 40 пъти по-голям от масива, извлечен от интернет за C4. Обучителният комплект GPT-3 включваше и цялата Wikipedia на английски език, колекция от безплатни романи от непубликувани автори, често използвани от големи технологични компании, и компилация от текст от връзки, високо оценени от потребителите на Reddit. (Във вторник сайтът Reddit, който редовно се използва в модели за обучение на ИИ, обяви, че планира да таксува за това.)



Експертите казват, че много компании пазят съдържанието на своите данни за обучение поверително - дори за вътрешна употреба - от страх да не разкрият лична информация, защитени с авторски права материали и други данни, получени без съгласие.



Тъй като компаниите осъзнават, че е трудно да се обясни как чатботовете вземат решения, това е една област, в която може да се изисква от лидерите да бъдат прозрачни.