Markdown мертв, и HTML стал новым королем?

Человечество полвека потратило на перенос документов с пишущих машинок в Word, а еще двадцать лет — на их перенос в облако. И все же по-настоящему универсальным форматом для эпохи искусственного интеллекта стал простой текстовый язык, изобретенный в 2004 году — Markdown.

Недавно инженер компании Claude Code, Тарик, высказал новую точку зрения, заявив, что он больше не использует Markdown и что будущее за HTML, что вызвало бурную дискуссию.

▲ Статья инженера Claude Code Тарика о замене Markdown на HTML, которая уже набрала десятки миллионов просмотров на X.

В статье он предположил, что вывод в формате HTML лучше, чем текст в формате Markdown. Для ИИ преобразование из Markdown в HTML практически безболезненно, но для пользователей это представляет собой ощутимое улучшение пользовательского опыта.

Карпати также поделился этой статьей рано утром, рассказав о своих мыслях об HTML.

По его мнению, аудио является наилучшим входным сигналом для больших языковых моделей, а изображение — наилучшим выходным сигналом. Он видит будущее в интерактивной анимации, видеороликах, непосредственно генерируемых нейронными сетями, и, в конечном итоге, в истинном слиянии человеческого и машинного восприятия.

Поскольку продукты Vibe Coding и Agent становятся все более распространенными, HTML и Markdown, вероятно, не являются чем-то новым для большинства игроков на рынке искусственного интеллекта.

▲ Когда вы заказываете у DeepSeek создание небольшой игры, он напрямую предоставляет вам рабочий HTML-код.

Если вы хотите создать небольшую игру, вы можете сказать ChatGPT: «Создайте мне одностраничную HTML-страницу для игры в змейку». ChatGPT упакует код в документ с расширением .html. Дважды щелкните по нему, чтобы открыть, и вы увидите интерактивный, анимированный и богато иллюстрированный результат в своем браузере.

Даже в браузере, на любой веб-странице, нажатие CTRL+S для сохранения локального файла приводит к созданию документа с расширением .html.

В те времена, когда искусственному интеллекту требовалось извлекать контекст веб-страниц, уже существовало множество инструментов, способных напрямую преобразовывать документы различных типов файлов в формат Markdown.

Microsoft, как лидер в сфере офисных пакетов, широко использует такие форматы файлов, как docx, pptx и xlsx. Ранее компания также опубликовала проект с открытым исходным кодом для преобразования этих офисных документов в формат Markdown, который набрал более 120 000 звезд на GitHub.

▲ Адрес проекта: https://github.com/microsoft/markitdown

После того, как OpenClaw стал популярным, в различных файлах AGENT.md, SOUL.md, CLAUDE.md, MEMORY.md и даже в рамках проекта Skills каждый навык также представляет собой документ Skill.md.

От сохранения информации в памяти до подсказок и управления агентами, формат Markdown стал практически единственным вариантом для получения ИИ подробного контекста.

▲ OpenClaw AI использует несколько различных файлов Markdown для создания итогового рабочего пространства | Изображение сгенерировано ИИ

PDF, DOC и PPT, которые мы чаще всего используем в повседневной работе, стали наименее предпочтительными форматами в эпоху искусственного интеллекта.

Но почему HTML появился именно сейчас? Удастся ли ему заменить Markdown в качестве нового универсального языка эпохи искусственного интеллекта?

Почему Markdown лучше всего подходит для ИИ

Давайте сначала поговорим о том, почему Markdown стал словом эпохи ИИ. Ответы ИИ и контекст, который мы ему предоставляем, сейчас в основном основаны на Markdown.

Этот язык был создан в 2004 году, вдохновлённый правилами форматирования текста в электронных письмах 2000-х годов — вертикальными линиями, переносами строк до 80 символов и звёздочками для выделения. Его цель заключалась в том, чтобы «писать как обычный текст и отображать как HTML». Он достаточно прост, достаточно портативен, не требует никаких инструментов и может использоваться любым текстовым редактором.

▲ Шпаргалка по синтаксису Markdown | Изображение создано с помощью ИИ

Эта философия дизайна идеально подходила для эпохи блогов. Примерно в 2008 году, с появлением GitHub, Markdown напрямую стал стандартным форматом написания для программистов. Markdown хорошо работает практически во всех этих сценариях: техническая документация, ответы на Stack Overflow, README-файлы на GitHub и технические блоги.

Затем появилась большая языковая модель.

С одной стороны, обучающие данные содержали большое количество текста в формате Markdown, и модель научилась использовать его для выражения структуры. Другими словами, обучающие данные состояли в основном из текста в формате Markdown, написанного «умными людьми» в технических блогах и на форумах . Модель усвоила не только формат, но и ассоциацию с тем, что « письмо в формате Markdown = серьезность, структурированность и профессионализм ».

С другой стороны, структурные сигналы Markdown сильно локализованы; заголовку достаточно одного символа #, списку — одного символа -, а ** обозначает выделение жирным шрифтом. Модели не нужно учитывать контекст, чтобы определить семантическую роль текущего токена.

▲ В контексте данной статьи под HTML понимаются многочисленные теги, различные разделители блоков, элементы управления стилем и т. д.

По сравнению с заголовками и списками HTML (<h1>, </h1> или <li>, </li>), это гораздо эффективнее. Кроме того, HTML-элемент `<div class="section">` закрывается только после `</div>`, что приводит к увеличению семантического диапазона и требует от модели «запоминать» состояния из более ранних периодов во время генерации. Это создает дополнительную нагрузку на модель и увеличивает вероятность ошибок.

Таким образом, как с технической точки зрения механизма внимания в больших языковых моделях, так и с точки зрения экономики токенов, принцип «по возможности используйте Markdown вместо HTML» стал предпочтительным как для инженеров, так и для моделей в сценариях с длинными документами, многоэтапными диалогами и большим количеством вызовов API.

В итоге, основная ценность Token — высокая эффективность, четкая структура и простой синтаксический анализ — заставляет модель естественным образом любить Markdown; она любит как входные, так и выходные данные в формате Markdown.

Эта предпочтительность становится еще более выраженной при обучении больших языковых моделей.

Когда модель выполняет обучение с подкреплением (RLHF) с использованием обратной связи от человека, ответы, которым аннотаторы ставят высокие оценки, с наибольшей вероятностью будут иметь четкие заголовки, маркированные списки и понятную структуру. В текстовом формате такая визуальная структура соответствует Markdown.

Таким образом, сигнал вознаграждения, усвоенный моделью, выглядит следующим образом: использование форматирования Markdown = выглядит более серьезно, более полно и заслуживает более высокой оценки. Даже если вопрос не требует списка, модель будет стремиться его добавить.

▲ Typora, известный редактор Markdown

Вероятно, именно поэтому, когда мы задаем ChatGPT вопрос, он пытается указать три ключевых момента, выделить ключевые слова жирным шрифтом и дать краткое резюме. И в большинстве случаев, когда вы копируете ответ ИИ из его диалогового интерфейса и вставляете его в другие поля ввода, вы обнаружите, что он автоматически добавляет маркеры Markdown, такие как #, **, —, и т. д.

Все текстовые сообщения, которые мы видим в ответах от ИИ, отображаются в формате Markdown.

Почему бы не использовать PDF, Word или PPT?

Markdown полезен, но в повседневной жизни мы в основном используем форматы документов PDF и Word. Когда мой начальник присылает мне файл, и я отправляю его в ИИ для обработки, это часто занимает больше времени, чем если бы я скопировал и вставил его сам.

Основная причина заключается в том, что модель распознает только токены, а не файлы.

Входные данные для большой языковой модели должны быть сначала преобразованы в последовательность токенов, прежде чем попасть в модель. Модель видит не «PDF-файл», а текстовое содержимое, извлеченное из PDF-файла, которое затем сегментируется на токены. Следовательно, лучшим форматом является тот, который приводит к наименьшей потере информации и наименьшему шуму после преобразования в обычный текст.

▲ Для работы официального инструмента Claude для чтения PDF-файлов требуется специальная библиотека инструментов.

Цель разработки PDF-файлов — «хорошо выглядеть при печати», а не «быть легко читаемым машинами». Внутри PDF-файла хранятся координаты каждого символа, а не логический порядок текста. В PDF-файле с двухколоночной разметкой порядок текста может легко оказаться следующим: первая строка левой колонки, первая строка правой колонки, вторая строка левой колонки, вторая строка правой колонки — совершенно неупорядоченным.

С таблицами ситуация еще хуже. Таблицы в PDF-файлах обычно представляют собой текстовые блоки, расположенные с помощью абсолютных координат и лишенные какой-либо семантической информации, такой как «это строка» или «это столбец». Для программ, анализирующих PDF-файлы с помощью ИИ, остается только гадать.

Отсканированные PDF-файлы представляют собой еще большую проблему, поскольку они являются непосредственно изображениями и требуют предварительного распознавания текста с помощью OCR. Показатель ошибок OCR напрямую учитывается в контексте модели.

Файлы .docx и .pptx по сути представляют собой ZIP-архивы, содержащие множество XML-файлов (расширяемого языка разметки). Разобранное исходное содержимое содержит множество тегов стилей, таких как шрифты, цвета, межстрочный интервал, темы и история изменений. Эти теги никак не помогают модели понимать содержимое, но они потребляют много токенов и размывают действительно полезную информацию.

В презентациях PowerPoint плотность информации по своей природе низка. Один слайд может содержать всего одно предложение или несколько ключевых слов, что приводит к фрагментированному тексту без контекстных связей, затрудняя для модели восстановление полной логики.

Некоторые могут спросить о формате TXT. На самом деле, текстовые форматы, такие как Markdown и Word, можно преобразовать в документы TXT. В них нет лишнего шума, но и структурных сигналов тоже нет.

Модель испытывает трудности с определением заголовков, списков, блоков кода и цитат. В случае длинных документов это означает, что модели приходится полагаться на языковые подсказки, чтобы угадать структуру, что приводит к непостоянной точности.

▲ Изображение сгенерировано искусственным интеллектом

К похожим языкам относятся JSON/XML, которые действительно более удобны для машинной обработки, но под "машинной обработкой" здесь подразумевается не языковая модель.

JSON и XML предназначены для анализа программ, поскольку содержат пары ключ-значение, иерархические структуры и строгий синтаксис. Традиционное программное обеспечение легко читает JSON, поскольку может напрямую использовать json.parse() для получения структурированного объекта.

«Понимание» языковой модели достигается за счет статистических ассоциаций между токенами. Для языковой модели чтение JSON аналогично чтению естественного языка: обработка токена за токеном и установление ассоциаций с помощью механизмов внимания. Передача этого строго структурированного формата системе, предназначенной для нечеткого ввода, по своей сути является несоответствием.

Markdown находится где-то посередине; это обычный текст, но с легковесными структурированными сигналами.

▲ Некоторые инструменты, такие как Jina Reader, могут преобразовать любую веб-страницу в формат Markdown, удобный для студентов магистратуры, добавив префикс r.jina.ai к URL-адресу веб-страницы.

Для анализа Markdown не требуются специальные инструменты; достаточно просто прочитать текст. Это позволяет избежать хаоса координат в PDF-файлах и «шума» XML-документов Word. Кроме того, такие символы, как #, ** и –, предоставляют модели достаточно структурных подсказок, позволяя идентифицировать разделы как заголовки, списки и код.

Эти символы уже присутствуют в словаре токенов, и модель обрабатывает их напрямую без каких-либо этапов предварительной обработки.

Устарел ли Markdown?

В статье проекта Claude Code подробно описаны несколько преимуществ HTML.

▲ Изображение сгенерировано искусственным интеллектом

Благодаря более высокой плотности информации HTML может передавать гораздо больше данных, чем Markdown. Он может обрабатывать базовую структуру документа и форматирование заголовков, а также представлять различную другую информацию, такую ​​как стили CSS, изображения SVG, данные пространства холста, блок-схемы, изображения, вставленные с помощью тега `img`, и так далее.

Он также упомянул, что Клод способен справляться со все более сложными задачами, а создаваемые им документы с требованиями и планы становятся все длиннее. Файлы Markdown, превышающие 100 строк, просто нечитаемы, не говоря уже о том, чтобы их могли прочитать другие.

Однако читать HTML-документы стало намного проще. Claude позволяет четко организовать структуру и легко перемещаться по страницам, используя вкладки, иллюстрации, ссылки и многое другое. Он даже может создавать адаптивные макеты, обеспечивая комфортное чтение на разных устройствах.

Что касается обмена информацией, он также считает, что HTML проще распространять, чем Markdown. Отправка HTML-файла другу по ссылке, безусловно, с большей вероятностью приведет к тому, что по ссылке перейдут и ее прочитают, чем отправка документа в формате Markdown.

Как и при подготовке доклада, вы можете представить презентацию PowerPoint, состоящую из десятков страниц, или просто открыть веб-страницу. Распространенные на рынке программы для углубленного анализа также начинают работу с генерации HTML-страниц при создании презентаций PowerPoint.

Также стоит отметить интерактивность HTML: мы можем нажимать на различные кнопки, использовать ползунки или регуляторы для настройки отображения различной информации.

Упомянув, что Markdown выводит меньше токенов, чем HTML, и занимает больше времени, он сказал, что HTML может быть в 2-4 раза медленнее, чем Markdown, но, по его мнению, это того стоит; улучшенная выразительность HTML и значительно повышенная вероятность того, что текст действительно будет прочитан, приводят к лучшему конечному результату.

Мы также попытались преобразовать длинный пост Тарика в формат HTML. По сравнению с длинным скриншотом твита X, HTML-версия более удобна для чтения.

Что касается утверждения о том, что HTML больше подходит для чтения человеком, то перечисленные в статье преимущества звучат так, будто Markdown вряд ли сможет их реализовать. Однако пока рано говорить о том, что HTML станет новым универсальным языком для ИИ.

Означает ли это, что в каждом нашем будущем разговоре нам придётся ждать, пока ИИ выдаст так называемую красиво оформленную и удобную для пользователя веб-страницу?

Когда мы общаемся с друзьями, мы не ожидаем, что они будут нарядно одеты, тем более что им придётся потратить час на макияж и ждать нас.

Не говоря уже о том, что большая часть ИИ, с которой сталкиваются пользователи — то есть ИИ, не предназначенный специально для программирования, дизайна или других областей — взаимодействует исключительно посредством диалога. Для наших разговоров может не потребоваться сложный HTML-документ; достаточно существующего Markdown.

В этой статье Клода Код Инженера также упоминается, для каких проектов он подходит, например, для создания подробного документа с требованиями к проекту с использованием ИИ, включая планирование проекта и изучение различных проектных решений, визуальный анализ и понимание кода, создание интерактивных прототипов, таких как анимация и эффекты движения, а также исследовательские отчеты и т. д.

Эти сценарии по своей сути подходят для отображения веб-страниц, поэтому использовать их для того, чтобы бросить вызов доминированию Markdown, несколько несправедливо.

Автор приходит к выводу, что HTML, как конечный продукт, предоставляемый людям искусственным интеллектом, более читабелен. Однако он не рекомендует использовать HTML в качестве рабочей памяти или контекстного формата для ИИ, поскольку Markdown в настоящее время является единственным решением для всего ИИ в этой области.

Является ли Markdown словом эпохи искусственного интеллекта? Куда в конечном итоге двинется Markdown?

Markdown — это рабочий язык ИИ, носитель контекста и формат для передачи информации между агентами, но, возможно, именно его в конечном итоге увидит пользователь. HTML или какой-либо более совершенный формат в будущем станет интерфейсом после рендеринга Markdown.

Задача HTML не должна оспаривать позицию Markdown; ей нужно лишь занять ту роль, которую Markdown никогда не играл.

Markdown может быть частью HTML. Когда мы общаемся с ИИ на веб-странице, ответы ИИ отображаются в формате Markdown, который встроен в HTML.

В будущем Markdown будет подобен строительному блоку, встроенному в HTML или даже в какой-нибудь более сложный язык XTML.

▲ Изображение сгенерировано искусственным интеллектом

Форматирование будет продолжать развиваться. В данный момент HTML находится на переднем плане, но только на данный момент. Следующим этапом может стать интерактивное трехмерное пространство, а этапом после него — поток сигналов, записываемый непосредственно на сетчатку глаза.

Но независимо от того, на что изменится интерфейс, бэкенд по-прежнему будет работать на Markdown. Его не заменят, его просто забудут. А в мире технологий именно забывание всеми и приводит к тому, что формат в конечном итоге одерживает победу.

Каждое поколение спорит о том, каким будет следующий интерфейс. Но по-настоящему выживает не сам интерфейс, а протокол.

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.