Вот проблема получше - Группа счетчиков денег Наньтун

Контент, созданный искусственным интеллектом, начинает загрязнять Интернет, предприятия и школы в беспрецедентных масштабах. В некоторых случаях может быть проще обнаружить человеческий текст, чем отмечать контент, создаваемый генеративным искусственным интеллектом. По крайней мере, они могли бы дополнять друг друга.

Быстрый рост контента, генерируемого ИИ, вызывает дискуссию о том, как поставщики ИИ могут улучшить инструменты для обнаружения контента, генерируемого ИИ. Это важное стремление, но такого рода подходы уже не соответствуют тексту. И не только для «черных шляп», пытающихся нарушить безопасность ИИ или дестабилизировать демократию. Ленивые студенты, перегруженные работой сотрудники, недобросовестные продавцы продуктов и потогонные предприятия по маркировке данных легко нарушат большинство мер безопасности при незначительном редактировании. Гораздо лучшим подходом может быть обнаружение людей с использованием некоторой комбинации паралингвистических метаданных и криптографии с открытым ключом.

И появляются инструменты, которые могут помочь установить для этого цепочку происхождения. Как я уже писал ранее на сайте diginomica, ИИ-детекторы контента для видео, аудио и изображений могут опираться на долгую историю инструментов создания цифровых водяных знаков и защиты интеллектуальной собственности. Однако инструменты для автоматического обнаружения текста, сгенерированного ИИ, представляют собой гораздо более сложную проблему. Цифровые водяные знаки гораздо сложнее встроить в обычный текст. Некоторый интересный прогресс достигнут во внедрении в текст статистических закономерностей, необычного использования грамматики и даже правил пунктуации. Одним из примеров была попытка Genius внедрить странный шаблон в свои музыкальные тексты, чтобы доказать, что Google напрямую копировал их контент. Однако это дело не удалось выиграть в суде.

Школьные системы во всем мире обеспокоены тем, что недавний прогресс в области генеративного искусственного интеллекта на основе модели большого языка (LLM) усилит усилия учащихся по списыванию. В долгосрочной перспективе успех в этом начинании может привести к появлению большого количества некомпетентных работников, неспособных эффективно управлять бизнесом, правительством и, в общем, преподавать. Но это не только академическая проблема. Правительства начинают принимать законы, касающиеся недобросовестной практики проверки продуктов и услуг. В настоящее время Великобритания работает над предлагаемым законопроектом о цифровых рынках, конкуренции и потребителях, который запрещает обмен денег или бесплатных товаров за написание обзоров продуктов. Это лишь вопрос времени, когда аналогичное законодательство будет распространено на более автоматизированные подходы, такие как недобросовестные маркетологи, собирающие толпу фальшивых людей, чтобы превозносить чудеса своей продукции, или пустые разговоры о конкурентных предложениях.

А компании, занимающиеся маркировкой данных, начинают бороться с рассредоточенной сетью людей, которым платят за нанесение меток на контент для обучения ИИ следующего поколения. Это важно для того, чтобы будущие инструменты искусственного интеллекта могли лучше идентифицировать объекты на изображениях, проверять токсичный контент или повышать производительность нового поколения корпоративных приложений искусственного интеллекта. Одна из проблем заключается в том, что перегруженные работой специалисты по разметке данных могут обратиться к ChatGPT и другим LLM. Хотя это может быть полезно для повышения производительности данных и некоторых задач по маркировке данных. Обратной стороной является то, что обучение LLM контенту, созданному ИИ, может привести к краху модели ИИ, в результате чего новые модели также не смогут работать.

Несколько лет назад банковская индустрия боролась с растущим уровнем мошенничества, вызванным появлением новых онлайн-сервисов. Между тем, растущая экономика подписки боролась с проблемой совместного использования паролей, когда люди делились своими паролями к ценным информационным службам с друзьями и семьями. Было замечено, что много информации содержится не только в тексте пароля, но и в метаданных о том, как набирается пароль. Из-за различных стилей набора текста, частоты и ритма люди склонны набирать буквы совершенно по-разному. Различные команды называют это поведенческой биометрией, динамикой нажатия клавиш или паралингвистическими метаданными. Различные варианты этих методов также могут расширить эту концепцию до методов управления мышью и голосового ввода.

В академической сфере имело бы смысл встроить показатели этих поведенческих показателей в текстовые процессоры нового поколения. Возможно, даже не потребуется разрабатывать совершенно новые приложения. Их можно было бы просто включить в библиотеку с открытым исходным кодом, которую могли бы использовать существующие текстовые процессоры, веб-приложения и другие инструменты.