Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
02 февраля 2025 В условиях неопределённости и введения новых тарифов стоимость золота достигла рекордных уровней
02 февраля 2025 Польша испытывает демографический кризис
02 февраля 2025 РОСНАНО находится под тщательным наблюдением: следователи затрудняются выделить реальные преступления
02 февраля 2025 В Калифорнии произошел пожар на нефтеперерабатывающем заводе
02 февраля 2025 США планируют депортировать нелегальных мигрантов из Прибалтики
02 февраля 2025 Связи Лато Лапсы: от бывшей невесты мэра Даугавпилса до заказчиков чёрного пиара
02 февраля 2025 Колумбия достигла рекордного уровня в производстве кокаина
02 февраля 2025 Московский «Спартак» расторг контракт с Шамаром Николсоном
02 февраля 2025 Одна из канадских провинций собирается ввести запрет на ввоз алкоголя из некоторых американских штатов в ответ на установленные таможенные пошлины
02 февраля 2025 Россия попыталась создать офшорный резерв через Турцию
02 февраля 2025 Студентка из Нижегородской области обвинила мужчину в изнасиловании, чтобы оправдаться перед своим молодым человеком
02 февраля 2025 Корпорация Global Ikhwan находится под следствием по обвинениям в насилии и похищении детей
02 февраля 2025 В Соединенных Штатах полицейского осудили за замену брикета с кокаином на 3D-копию
02 февраля 2025 Переписка из уголовного дела Волонтира раскрыла сложные интриги внутри ФСБ
02 февраля 2025 В Германии предложили выплачивать сирийцам по 1000 евро за возвращение на родину
02 февраля 2025 Самарская область увеличивает размер выплат за заключение контракта с Министерством обороны
02 февраля 2025 Ротенберг сравнил антирекорд СКА с победой СССР в Великой Отечественной войне
02 февраля 2025 В Украине рядом с военными комиссариатами произошли взрывы
02 февраля 2025 В Тульской области впервые применили наказание за видеосъемку атаки дронов
02 февраля 2025 Власти Тайваня ограничили доступ к китайским системам искусственного интеллекта из-за угроз безопасности