Пришло время дать искусственному интеллекту китайский язык, достойный нашей эпохи.

В 2012 году Чжан Имин назвал свою новую компанию Byte, используя компьютерный термин.
Это, пожалуй, одно из самых убедительных названий среди китайских технологических компаний. Два иероглифа, передающие ощущение технологии и мощи , практически не требующие когнитивных усилий. Вам не нужно разбираться в компьютерах; достаточно уметь читать китайские иероглифы, чтобы понять, что «байт» обозначает базовую единицу на текстовом уровне.

Четко, точно и незабываемо. Тот факт, что этот термин можно использовать в качестве названия компании, не чувствуя себя неуместно, красноречиво говорит о качестве его перевода.
Сейчас ByteDance — самая дорогая в мире компания-единорог. Но если бы вас спросили: если бы тогда эту компанию называли "Storage Unit ByteDance", звучало бы это так же естественно?
Не смейтесь, именно это в последнее время происходит в индустрии искусственного интеллекта.
Прекратите спорить, лучший китайский перевод слова «Token» всегда был доступен.
На прошлой неделе разгорелись жаркие дебаты о том, как перевести слово «токен»: «элемент модели», «элемент интеллекта», «духовный талисман», «токен», «воровство и грызение»… Социальные сети время от времени вызывают волну споров, и каждый раз она заканчивается тем, что каждый высказывает своё мнение.
Каждый из этих слов-кандидатов по-своему оригинален, но если рассматривать их вместе, то становится ясно, что все соревнуются, кто более вдохновлен и артистичен, но никто не задает в первую очередь самый фундаментальный вопрос — что именно представляет собой «токен» в контексте технологий?
Это не единица «интеллекта» и не единица «модели»; это наименьшая единица обработки языка.
На самом деле, ответ был найден ещё до начала этой хаотичной битвы.
«Духовный талисман» обладает восточной киберпанк-эстетикой, но терминология не нуждается в образах; ей нужна точность. «Элемент интеллекта» звучит величественно, но токен — это единица обработки языка, а не единица «интеллекта», поэтому называть его «интеллектом» — неправильно. «Токен» — это наиболее абсурдное название; это существующий перевод слова «токен» в сфере компьютерной безопасности, в частности, в отношении учетных данных аутентификации. Использовать их взаимозаменяемо — это все равно что называть банковскую карту и игральную карту одним и тем же. Транслитерация «Кража и грызение» совершенно не соответствует китайскому языку.
В научной литературе по обработке естественного языка (NLP) токен, как наименьшая единица обработки текста, долгое время переводился как « лексическая единица ».
Слова обозначают лингвистические атрибуты; метаэлементы обозначают мельчайшие детали. Два символа: один определяет атрибуцию, другой — иерархию .
Компания Apple использовала этот перевод. На китайском сайте Apple на странице, посвященной технологии Apple Intelligence, указано «скорость лексического ответа».

Стоит отметить, что китайская команда локализации Apple известна своей скрупулезностью — AirDrop называется "隔空投送" (Gekong Tousong), а Live Text — "实况文字" (Shikuang Wenzi). Каждое слово — результат многократных обдумываний с единственной целью: точность, краткость и эстетическая привлекательность в выборе слов.
Выбор компанией Apple слова «lexicon» не был спонтанным решением. По совпадению, в новостной программе CCTV слово «Token» также было переведено как «lexicon».
Когда Apple и CCTV по совпадению выбрали один и тот же китайский перевод, это фактически стало прототипом де-факто стандарта; просто нужно было, чтобы больше людей высказались по этому поводу.
В мире переводов есть старая поговорка: хороший перевод — это не изобретение, а открытие — открытие китайского выражения, которое должно звучать именно так .
APPSO считает, что «Циюань» — единственный перевод, который одновременно отвечает трем критериям: точности, беглости и элегантности. Он точен (точность), легко понятен (беглость), обладает лаконичной терминологией и классическим стилем (элегантность).
В этих дебатах, по сути, не о чем спорить.
«Подсказки», самый кустарный перевод в эпоху искусственного интеллекта.
Проблема с токенами закрыта. Проблема с подсказками только начинается.
В настоящее время стандартным термином в отрасли является «кодовое слово». Это три слова, легко понятные и широко используемые, но, честно говоря, этого термина недостаточно, он уже давно недостаточен, но никто не удосужился открыто это признать.

Проблема с "ключевым словом" заключается не в том, что оно переведено неправильно, а в том, что оно меняет местами властные отношения в контексте слова "ключевое слово".
Вы пишете системную подсказку, определяете границы возможностей модели, указываете, что она может и чего не может делать, а также задаёте формат и тон вывода — это называется «подсказкой»? Это отдача приказов.
Логика «подсказки» подразумевает, что модель является главным действующим лицом, а люди тихо напоминают ей об этом со стороны. Но реальная структура власти прямо противоположна: люди управляют моделью. Перевод, который меняет местами отношения подлежащее и сказуемое , — это не просто вопрос формулировки, а вопрос когнитивной структуры .
Слово «слово» сужает рамки. Современные подсказки гораздо сложнее, чем просто одно-два предложения. Внутренние системные подсказки Anthropic могут содержать тысячи слов. В корпоративных приложениях RAG одна подсказка может заполнить целое руководство по продукту. Описывать это как «слово» — это все равно что описывать контракт как «стикер» — вы не ошибетесь, но ограничите рамки.
Кроме того, взгляните на пиксели, байты и слова — все это двухсимвольные термины. Двухсимвольные термины в китайском языке естественным образом передают ощущение краткости, что делает их подходящими для учебников и национальных стандартов. Трехсимвольный термин «подсказка», с другой стороны, звучит скорее как разговорная аббревиатура, используемая в технологическом сообществе, а не как серьезное техническое название.
Подобно тому, как мы тогда переводили байт как «сегмент памяти», а пиксель как «точку цвета изображения», это не означало, что он был непригоден для использования, а просто был компромиссом.
«Подсказки» — один из самых некачественных переводов в эпоху искусственного интеллекта .
Задание "Вэньлин"
APPSO предлагает перевести слово "Prompt" как "文令" (wenling ).
Прежде чем приводить доводы, давайте сначала поговорим о том, как было выведено это слово; сам процесс является наилучшим аргументом.
Первоначальная мысль была о "句令". 句 означает предложение или фразу; 令 означает команду или инструкцию. Оно обладает ярко выраженной классической эстетикой и звучит мощно и выразительно.
Однако при более внимательном рассмотрении обнаруживается недостаток: слово «предложение» подразумевает, что «запрос» — это «одно предложение». В действительности запрос может представлять собой слово, три абзаца или системную команду объемом в 5000 слов — слово «предложение» накладывает на него несуществующее ограничение.
Если заменить это на "文" (wen), проблема исчезнет.
Один символ — это слово. Предложение — это фраза. Абзац — это отрывок. Целая статья — это произведение. Каким бы ни был задан вопрос, «письмо» справится со всем, не боясь никаких ограничений.

Поэтому было решено, что «Prompt» будет эквивалентен письменному заказу .
Текст — слова, текст, статьи. Носителем подсказки всегда является текст, будь то непринужденная беседа или запрограммированные инструкции агента; его физическая форма — это текст. «Текст» — это не украшение, а наиболее прямое название для основной формы подсказки.
Команда — инструкция, указание. Функция подсказки — заставить модель выполнить действие. Напишите какой-нибудь текст, и модель сгенерирует его, рассуждает и действует в соответствии с намерением. «Команда» точно отражает это действие — человека, отдающего приказы модели.
Текст = Что это (форма). Порядок = Что это делает (функция).
Эти два слова, одно — управляющая форма, другое — управляющая функция, каждое со своей ролью, вместе идеально определяют слово «подсказка».
Пиксели, байты, слова и текстовые коды: путь от машин к людям.
Если мы поместим «официальный документ» в более широкий контекст, то увидим нечто, от чего у вас забьётся сердце:
- Пиксель → Самая маленькая единица измерения в мире, которую может увидеть глаз.
- Байт → Наименьшая единица машинного хранения информации.
- Токены → Наименьшая единица, используемая моделью для понимания языка.
- Подсказка — это наименьшая единица в модели, управляемой человеком.
Все четыре слова имеют одинаковую логику словообразования: атрибут носителя + функциональный атрибут .
Пиксель – изображение + элемент.
Байт – слово (текст) + раздел (фрагмент).
Лексикон – слово (word) + лем (original unit).
Вэньлин – Вэнь (текст) + Лин (инструкция).
Пиксели ближе всего к машинам, а текст — к человеку. За этим скрывается тайная эволюционная хронология: от восприятия к хранению, к пониманию, к управлению — это полный процесс, посредством которого люди постепенно внедряют свои намерения в машины .
И наоборот, если мы поместим «ключевое слово» в эту систему координат, оно окажется не на своем месте. Оно описывает функцию, а не местоположение, и находится не в том же измерении, что и три других слова, потому что логика его создания с самого начала была нарушена.

Давайте избежим повторения ошибок, допущенных при создании «искусственного интеллекта».
Конечно, некоторые могут сказать, что неважно, как это называется, главное, чтобы всем было понятно.
Много лет назад люди, вероятно, использовали похожие термины для описания «пикселя» и «байта». Но сегодня эти два слова стали общеупотребительными. Ваша мама, возможно, не знает английского написания слова «пиксель», но она точно знает, что означают «50 миллионов пикселей» в камере мобильного телефона.
Качественный перевод терминологии — это когнитивная инфраструктура . Он определяет, сможет ли техническое понятие проникнуть из профессиональных кругов в понимание широкой публики.
В эпоху искусственного интеллекта возможности для перевода терминологии не будут оставаться открытыми вечно. Если слово прочно закрепилось в социальных сетях, учебниках и описаниях товаров, изменить его очень сложно.
Ещё не поздно.
Видите ли, негативный оттенок слова «хакер» полностью закрепился в китайском языке, поэтому нам приходится создавать отдельный термин — «белый хакер», чтобы исправить это.
Сам термин «искусственный интеллект» не идеален — «искусственный» естественным образом подразумевает «поддельный» или «имитированный», но этот перевод уже прочно укоренился, и никто не может его изменить . Термины «компьютер» и «компьютерная система» до сих пор не объединены, и кто знает, сколько еще лет будут продолжаться эти дебаты.
К счастью, токены и «подсказки» еще не полностью сформированы. Они все еще циркулируют в группах WeChat и социальных сетях, но еще не включены в национальные стандарты и не закреплены в учебниках. Сейчас самое время предложить «словесные элементы» и «текстовые коды» с наименьшими затратами и наименьшим сопротивлением.
Теперь "поощрительные знаки" включают в расчетные листы как часть компенсации и льгот. Подождите еще два года, пока "ключевые слова" не появятся в заданиях на понимание прочитанного на вступительных экзаменах в колледжи и в названиях должностей в трудовых договорах — тогда будет уже слишком поздно говорить о них.
APPSO не хочет повторить ситуацию, подобную той, что произошла с "искусственным интеллектом", когда существуют явно лучшие решения, но никто не высказывается, пока еще есть возможность .
Лексические элементы и семантика: пожалуйста, свяжитесь с нами.
Токен называется элементом слова. Слово определяет его форму. Элемент определяет его корень.
Подсказка называется письменным заказом. «Вэнь» означает определение смысла, а «Лин» — определение сущности.
Это предложение APPSO, а также приглашение от APPSO .
Мы не пытаемся дать определение терминам. Термины определяются каждым, кто пишет о них в статьях, произносит их в презентациях или использует в учебных материалах. Наша задача — просто предложить лучший вариант, пока еще есть такая возможность.
Пиксели позволяют машинам отображать изображения для людей.
Байты обеспечивают передачу данных между машинами.
Лексические единицы позволяют модели понимать человеческий язык.
В документе говорится, что человеческая воля является движущей силой интеллекта машин.
В следующий раз, когда вы откроете это диалоговое окно, запишите, что вы хотите, чтобы ИИ сделал.
Каждое написанное вами слово — это литературный порядок .
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете быстро найти еще больше интересного контента.