نحوه ی اجرای مدل‌های زبان بزرگ محلی (LLM) روی لینوکس با Ollama و LM Studio

اجرای مدل‌های زبان بزرگ (LLM) به‌صورت محلی روی لینوکس، کنترل کامل روی داده‌ها، حذف هزینه‌های مکرر API و دسترسی آفلاین را فراهم می‌کند. دو ابزار برجسته برای این کار Ollama و LM Studio هستند. Ollama یک رابط خط فرمان قدرتمند و API ارائه می‌دهد، در حالی که LM Studio تجربه دسکتاپ گرافیکی ساده‌تری دارد. هر دو از مدل‌های متن‌باز مختلفی مانند Llama، Mistral و DeepSeek پشتیبانی می‌کنند.

فهرست مطالب نمایش

استفاده از Ollama برای اجرای مدل‌های زبان بزرگ (LLM) به‌صورت محلی

Ollama یک ابزار خط فرمان سبک است که مدل‌های زبان بزرگ را مدیریت، دانلود و به‌صورت محلی اجرا می‌کند. این ابزار چندسکویی است، اما کاربران لینوکس به‌دلیل نصب ساده و عملکرد قدرتمند، مخصوصاً در صورت استفاده از شتاب‌دهی GPU، بهره زیادی می‌برند.

مرحله ۱: Ollama را روی دستگاه لینوکس خود نصب کنید. برای این کار، ترمینال را باز کرده و دستور زیر را اجرا کنید:

مقاله‌های مرتبط

curl -fsSL https://ollama.com/install.sh | sh

این اسکریپت Ollama را دانلود و نصب می‌کند. پس از نصب، با اجرای دستور زیر نسخه نصب‌شده را بررسی کنید:

ollama --version

این دستور نسخه نصب‌شده را نشان می‌دهد و تأیید می‌کند که نصب با موفقیت انجام شده است.

مرحله ۲: با دستور ollama pull یک مدل را دانلود کنید. به‌عنوان مثال، برای دریافت مدل Llama 2 7B chat دستور زیر را اجرا کنید:

ollama pull llama2:7b-chat

این کار وزن‌های مدل را به دستگاه شما منتقل می‌کند. زمان دانلود بستگی به حجم مدل و سرعت اینترنت دارد.

مرحله ۳: مدل را به‌صورت تعاملی اجرا کنید:

ollama run llama2:7b-chat

این دستور یک پنجره تعاملی باز می‌کند که می‌توانید سوالات خود را وارد کرده و پاسخ دریافت کنید. برای پرسش‌های یک‌باره، می‌توانید سوال را مستقیماً پس از دستور وارد کنید:

ollama run llama2:7b-chat "پایتخت لهستان چیست؟"

مرحله ۴: Ollama را از طریق API محلی REST در برنامه‌های خود ادغام کنید. برای شروع سرور API، دستور زیر را اجرا کنید:

ollama serve

سپس می‌توانید درخواست‌ها را با استفاده از curl یا هر کلاینت HTTP دیگر ارسال کنید. مثلاً:

curl http://localhost:11434/api/generate -d '{
  "model": "llama2:7b-chat",
  "prompt": "سه توزیع لینوکس را لیست کن.",
  "stream": false
}'

API پاسخ‌ها را به صورت JSON برمی‌گرداند. این امکان به توسعه‌دهندگان اجازه می‌دهد چت‌بات‌ها، دستیارها یا نرم‌افزارهای دیگر را بدون وابستگی به سرویس‌های خارجی بسازند.

مرحله ۵: عملکرد را با استفاده از شتاب‌دهی GPU بهینه کنید، در صورت موجود بودن. برای بررسی استفاده Ollama از GPU انویدیا، دستور زیر را اجرا کنید:

OLLAMA_DEBUG=true ollama run llama2

به دنبال پیام‌هایی باشید که نشان‌دهنده استفاده از CUDA باشند. شتاب‌دهی GPU سرعت پردازش مدل‌های بزرگ را به طور چشمگیری افزایش می‌دهد.

مرحله ۶: مدل‌ها را با استفاده از Modelfiles مدیریت و سفارشی کنید. Ollama از سینتکسی شبیه Dockerfile پشتیبانی می‌کند که به شما امکان می‌دهد نسخه‌های سفارشی مدل بسازید، پرامپت‌های سیستمی اضافه کنید و پارامترها را تنظیم کنید. یک Modelfile را در یک پوشه ذخیره کنید و سپس مدل جدید را ایجاد کنید:

ollama create my-custom-model -f /path/to/Modelfile

این ویژگی برای خودکارسازی فرآیندها یا اختصاصی‌کردن مدل‌ها به وظایف خاص بسیار مفید است.

استفاده از LM Studio برای اجرای مدل‌های زبان بزرگ (LLM) به‌صورت محلی

LM Studio یک نرم‌افزار دسکتاپ گرافیکی است که امکان اجرای مدل‌های زبان بزرگ را روی لینوکس، ویندوز و مک فراهم می‌کند. این ابزار به‌خصوص برای کسانی که ترجیح می‌دهند از خط فرمان استفاده نکنند یا تجربه تعاملی بیشتری بخواهند، مناسب است.

مرحله ۱: فایل AppImage نرم‌افزار LM Studio را برای لینوکس از وبسایت رسمی دانلود کنید. معمولاً نام فایل چیزی شبیه به LM-Studio-0.3.9-6-x64.AppImage است و حدود ۱ گیگابایت حجم دارد.

مرحله ۲: ترمینال را باز کنید و به پوشه‌ای که فایل را دانلود کرده‌اید بروید. سپس اجازه اجرای فایل را بدهید:

chmod u+x LM-Studio-0.3.9-6-x64.AppImage

مرحله ۳: LM Studio را با دستور زیر اجرا کنید:

./LM-Studio-0.3.9-6-x64.AppImage

این دستور نرم‌افزار را اجرا می‌کند و رابط گرافیکی به‌صورت خودکار باز می‌شود.

مرحله ۴: در اولین اجرا، LM Studio از شما می‌خواهد یک مدل LLM را دانلود کنید. از کاتالوگ داخلی استفاده کنید تا مدل مناسب سخت‌افزار خود را جستجو و انتخاب کنید. LM Studio تخمینی از نیازمندی‌های RAM و VRAM نمایش می‌دهد تا از دانلود مدل‌های ناسازگار جلوگیری شود.

مرحله ۵: پس از دانلود مدل، یک جلسه چت در برنامه شروع کنید. سوالات خود را وارد کنید و پاسخ‌ها را مستقیماً در رابط ببینید. LM Studio تاریخچه چت، میزان استفاده از توکن‌ها و آمار منابع سیستم را نمایش می‌دهد که شفافیت عملکرد را افزایش می‌دهد.

مرحله ۶: تنظیمات پیشرفته را در صورت نیاز تغییر دهید. پنل کناری اجازه می‌دهد:

پرامپت‌های سیستمی را برای هدایت رفتار مدل تنظیم کنید.
پارامترهایی مانند temperature، top-p، top-k و حداکثر توکن‌ها را سفارشی کنید.
تنظیمات GPU offload برای تعادل سرعت و مصرف حافظه را کنترل کنید. به‌طور مثال:
VRAM بین ۴ تا ۸ گیگابایت: استفاده از offload جزئی (۱۰ تا ۵۰ لایه)
VRAM بین ۱۰ تا ۱۶ گیگابایت: استفاده از offload بیشتر (۵۰ تا ۸۰ درصد)
VRAM بالای ۲۴ گیگابایت: استفاده کامل از GPU در صورت امکان

مرحله ۷: سرور API محلی را از تب Developer فعال کنید. این قابلیت یک API سازگار با OpenAI را روی localhost فراهم می‌کند که برنامه‌های دیگر می‌توانند با مدل انتخابی شما تعامل داشته باشند. توسعه‌دهندگان می‌توانند کلاینت‌های OpenAI خود را به این آدرس متصل کنند تا ادغام آسان‌تر شود.

مرحله ۸: مدیریت چندین مدل و جلسات چت. LM Studio اجازه دانلود، بروزرسانی و سوئیچ بین مدل‌های مختلف را می‌دهد، و از مدل‌های کوچک و بزرگ با فرمت GGUF پشتیبانی می‌کند. این امکان به کاربران اجازه می‌دهد مدل‌های مختلف را برای وظایف گوناگون آزمایش کنند.

مدیریت ذخیره‌سازی مدل‌ها و اشتراک‌گذاری بین Ollama و LM Studio

هر دو برنامه مدل‌ها را در دایرکتوری‌های جداگانه با فرمت‌های متفاوت ذخیره می‌کنند. Ollama معمولاً از فرمت مبتنی بر Mojo استفاده می‌کند و LM Studio از فایل‌های GGUF که با llama.cpp سازگارند. برای جلوگیری از دانلودهای تکراری و صرفه‌جویی در فضای دیسک، می‌توانید:

محل ذخیره مدل‌ها را شناسایی کنید (~/.ollama/models برای Ollama و ~/.cache/lm-studio/models/ برای LM Studio).
اگر مدل‌ها در فرمت GGUF هستند، می‌توانید با ایجاد لینک نمادین (symlink) مدل‌ها را بین پوشه‌های دو برنامه به اشتراک بگذارید. مثلاً:

mkdir /store/MyModels
cd /store/MyModels
# مدل را اینجا دانلود یا منتقل کنید
ln -s ./the-model-file ~/.cache/lm-studio/models/

همچنین می‌توانید از ابزارهای جامعه کاربری مانند gollama یا llamalink برای خودکارسازی این لینک‌دهی استفاده کنید. توجه داشته باشید که همه مدل‌ها سازگار نیستند و ممکن است نیاز به تبدیل به فرمت GGUF برای LM Studio باشد.

انتخاب ابزار مناسب برای نیازهای شما

LM Studio برای کاربرانی که تجربه گرافیکی و بدون دردسر را می‌خواهند، ایده‌آل است. رابط کاربری آن کشف مدل‌ها، تنظیم پارامترها و مدیریت چندمدلی را ساده می‌کند و برای مبتدیان و کسانی که ترجیح می‌دهند به صورت تصویری کار کنند، مناسب است.

Ollama برای توسعه‌دهندگان و کاربران پیشرفته که نیاز به خودکارسازی، اسکریپت‌نویسی یا ادغام در فرآیندهای پیچیده دارند، بسیار مناسب است. امکانات خط فرمان و API کنترل دقیق‌تری روی استفاده، سفارشی‌سازی و بهینه‌سازی عملکرد مدل‌ها ارائه می‌دهد.

هر دو ابزار به کاربران امکان اجرای مدل‌های قدرتمند زبان را به صورت محلی می‌دهند، حریم خصوصی را حفظ می‌کنند، هزینه‌ها را کاهش می‌دهند و امکان آزمایش بدون وابستگی به سرویس‌های ابری را فراهم می‌کنند. با انتخاب روشی که با سطح دانش فنی و هدف پروژه شما همخوانی دارد، می‌توانید هوش مصنوعی پیشرفته را به‌صورت کارآمد روی سخت‌افزار خود اجرا کنید.

اجرای LLMها با Ollama و LM Studio روی لینوکس، استقرار محلی هوش مصنوعی را ساده و انعطاف‌پذیر می‌کند، حریم خصوصی را حفظ کرده و عملکرد را فدا نمی‌کند. هر دو روش را امتحان کنید تا ببینید کدام شیوه کاری برای شما مناسب‌تر است.