<?xml version="1.0" encoding="koi8-r"?>
<rss version="0.91">
<channel>
    <title>OpenForum RSS: Первый выпуск инструмента llamafile от Mozilla</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/132212.html</link>
    <description>Разработчики из компании Mozilla представили первый выпуск утилиты llamafile, позволяющей создавать универсальные исполняемые файлы для запуска больших языковых моделей машинного обучения (LLM). При помощи  llamafile можно взять файл с параметрами модели машинного обучения в формате GGUF и преобразовать его в исполняемый файл, который может запускаться в шести различных операционных системах на оборудовании с процессорами AMD64 и ARM64. Инструментарий написан на С/С++ и распространяется под лицензией Apache 2.0...&lt;br&gt;&lt;br&gt;Подробнее: https://www.opennet.ru/opennews/art.shtml?num=60206&lt;br&gt;</description>

<item>
    <title>Первый выпуск инструмента llamafile от Mozilla (Аноним)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/132212.html#40</link>
    <pubDate>Fri, 01 Dec 2023 20:58:44 GMT</pubDate>
    <description>а DragonflyBSD где?!??!&lt;br&gt;</description>
</item>

<item>
    <title>Первый выпуск инструмента llamafile от Mozilla (morphe)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/132212.html#39</link>
    <pubDate>Fri, 01 Dec 2023 19:48:56 GMT</pubDate>
    <description>&amp;gt; Не факт, что один человек может руками оптимизировать модель лучше, чем автоматический оптимизатор и JIT-компилятор, вылизанный командой специалистов ведущей ИИ-корпорации.&lt;br&gt;&lt;br&gt;Как только модель готова - оптимизированная версия пишется достаточно просто&lt;br&gt;&lt;br&gt;&amp;gt; Это всё части рантайма, который устанавливается один раз и используется ваеми программами совместно.&lt;br&gt;&lt;br&gt;Очень редко на конечном компьютере из ONNX исполняется всё, обычно как раз используется с десяток функций из тысячи имеющихся)&lt;br&gt;&lt;br&gt;&amp;gt; Это явно не случай LLM&lt;br&gt;&lt;br&gt;Именно. Потому что LLM не остальные модели, LLM именно что тяжело вместить в память consumer-grade GPU.&lt;br&gt;Для подобных вещей однако можно вынести на GPU лишь часть вычислений, например с BLAS/compute шейдером, и по скорости получится как раз бесплатный ChatGPT.&lt;br&gt;&lt;br&gt;ONNX однако не очень способен исполнять модель гибридно.&lt;br&gt;</description>
</item>

<item>
    <title>Первый выпуск инструмента llamafile от Mozilla (Аноним)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/132212.html#38</link>
    <pubDate>Fri, 01 Dec 2023 17:35:55 GMT</pubDate>
    <description>Силой почувствовал&lt;br&gt;</description>
</item>

<item>
    <title>Первый выпуск инструмента llamafile от Mozilla (Аноним)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/132212.html#37</link>
    <pubDate>Fri, 01 Dec 2023 13:14:00 GMT</pubDate>
    <description>Да были конверторы на гитхабе.&lt;br&gt;</description>
</item>

<item>
    <title>Первый выпуск инструмента llamafile от Mozilla (Аноним)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/132212.html#36</link>
    <pubDate>Fri, 01 Dec 2023 13:13:08 GMT</pubDate>
    <description>&amp;gt;Для эффективности всё таки проще реализовать оптимизированную модель руками в коде, и грузить только веса.&lt;br&gt;&lt;br&gt;Не факт, что один человек может руками оптимизировать модель лучше, чем автоматический оптимизатор и JIT-компилятор, вылизанный командой специалистов ведущей ИИ-корпорации.&lt;br&gt;&lt;br&gt;&amp;gt;В ONNX есть огромная библиотека функций, все из которых нужно собирать себе в программу для подгрузки ONNX моделей, его не сделать менее жирным вынесением protobuf и прочего.&lt;br&gt;&lt;br&gt;Это всё части рантайма, который устанавливается один раз и используется ваеми программами совместно.&lt;br&gt;&lt;br&gt;&amp;gt;для остальных моделей инференс на процессоре зачастую быстрее, поскольку копирование данных CPU-&amp;gt;GPU занимает больше времени чем сам инференс.&lt;br&gt;&lt;br&gt;Это явно не случай LLM. llama.cpp взлетела именно потому, что это маленькая программа, которая игрушка, которая сравнительно независима от железа, которая заведётся везде, где есть C++ и AVX/NEON. Но у меня инференс на CPU даже минимальной модели alpaca очень тормозит. Для трансформеров инференс на GPU должен</description>
</item>

<item>
    <title>Первый выпуск инструмента llamafile от Mozilla (morphe)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/132212.html#35</link>
    <pubDate>Fri, 01 Dec 2023 09:45:20 GMT</pubDate>
    <description>&amp;gt; Это Micro$oft виновата - все либы слинкованы статически&lt;br&gt;&lt;br&gt;А я не в этом смысле жирный говорю. В ONNX есть огромная библиотека функций, все из которых нужно собирать себе в программу для подгрузки ONNX моделей, его не сделать менее жирным вынесением protobuf и прочего.&lt;br&gt;&lt;br&gt;&amp;gt; Ну возможность инферить на GPU - это жирный плюс&lt;br&gt;&lt;br&gt;Не везде это полезно, многие модели не влезут в consumer-grade GPU, а для остальных моделей инференс на процессоре зачастую быстрее, поскольку копирование данных CPU-&amp;gt;GPU занимает больше времени чем сам инференс.&lt;br&gt;&lt;br&gt;&amp;gt; Возможность легко интегрировать в свои программы на любом ЯП - это жирный плюс.&lt;br&gt;&lt;br&gt;Ровно как и FFI. ONNX позволяет быстрее довести модель от прототипа до прода, но не всегда эффективнее. Для эффективности всё таки проще реализовать оптимизированную модель руками в коде, и грузить только веса.&lt;br&gt;</description>
</item>

<item>
    <title>Первый выпуск инструмента llamafile от Mozilla (Аноним)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/132212.html#34</link>
    <pubDate>Fri, 01 Dec 2023 08:55:58 GMT</pubDate>
    <description>&amp;gt;ONNX рантайм достаточно жирный&lt;br&gt;&lt;br&gt;Это Micro$oft виновата - все либы слинкованы статически, включая протобуф. И перекомпилированны. Гугл покусал. Не смотря на то, что для сборки используется CMake, подход к зависимостям - как в Базеле. Если делать всё по уму, большая часть либ будет переиспользована системная. При этом onnxruntime умеет и в GPU, и в оптимизации, причём обгоняет хвалёный Apache TVM, который оптимизирует и компилирует ONNX-модели в Vulkan, OpenCL или оптимизированный машинный код для CPU, по производительности (да, onnxruntime на CPU обгоняет TVM на Vulkan). Формат ONNX позволяет лёгкую интеграцию моделей в свои программы, так как файл модели есть законченная программа, а не набор тензоров, который надо обвесить своим кодом. Также формат ONNX позволяет делать на моделях хирургию: я так резал одну модель (mobile-ViT от Apple) посередине с целью извлечения векторного представления.&lt;br&gt;&lt;br&gt;&amp;gt;Его преимущество в возможности компилироваться под произвольные архитектуры и ускорители, но если задача поддержи</description>
</item>

<item>
    <title>Первый выпуск инструмента llamafile от Mozilla (Аноним)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/132212.html#33</link>
    <pubDate>Fri, 01 Dec 2023 06:42:27 GMT</pubDate>
    <description>А он типа Windows - экспортный товар. А для себя - самое лучшее.&lt;br&gt;</description>
</item>

<item>
    <title>Первый выпуск инструмента llamafile от Mozilla (Аноним)</title>
    <link>https://www.opennet.ru/openforum/vsluhforumID3/132212.html#32</link>
    <pubDate>Fri, 01 Dec 2023 06:41:22 GMT</pubDate>
    <description>&amp;gt; У них еще есть нормальные кодеры?&lt;br&gt;&lt;br&gt;Они там и есть. Остальные либо пузырь надувают, либо троянством занимаются.&lt;br&gt;</description>
</item>

</channel>
</rss>
