اجرای مدلهای زبان بزرگ (LLM) بهصورت محلی روی لینوکس، کنترل کامل روی دادهها، حذف هزینههای مکرر API و دسترسی آفلاین را فراهم میکند. دو ابزار برجسته برای این کار Ollama و LM Studio هستند. Ollama یک رابط خط فرمان قدرتمند و API ارائه میدهد، در حالی که LM Studio تجربه دسکتاپ گرافیکی سادهتری دارد. هر دو از مدلهای متنباز مختلفی مانند Llama، Mistral و DeepSeek پشتیبانی میکنند.
استفاده از Ollama برای اجرای مدلهای زبان بزرگ (LLM) بهصورت محلی
Ollama یک ابزار خط فرمان سبک است که مدلهای زبان بزرگ را مدیریت، دانلود و بهصورت محلی اجرا میکند. این ابزار چندسکویی است، اما کاربران لینوکس بهدلیل نصب ساده و عملکرد قدرتمند، مخصوصاً در صورت استفاده از شتابدهی GPU، بهره زیادی میبرند.
مرحله ۱: Ollama را روی دستگاه لینوکس خود نصب کنید. برای این کار، ترمینال را باز کرده و دستور زیر را اجرا کنید:
curl -fsSL https://ollama.com/install.sh | sh
این اسکریپت Ollama را دانلود و نصب میکند. پس از نصب، با اجرای دستور زیر نسخه نصبشده را بررسی کنید:
ollama --version
این دستور نسخه نصبشده را نشان میدهد و تأیید میکند که نصب با موفقیت انجام شده است.
مرحله ۲: با دستور ollama pull
یک مدل را دانلود کنید. بهعنوان مثال، برای دریافت مدل Llama 2 7B chat دستور زیر را اجرا کنید:
ollama pull llama2:7b-chat
این کار وزنهای مدل را به دستگاه شما منتقل میکند. زمان دانلود بستگی به حجم مدل و سرعت اینترنت دارد.
مرحله ۳: مدل را بهصورت تعاملی اجرا کنید:
ollama run llama2:7b-chat
این دستور یک پنجره تعاملی باز میکند که میتوانید سوالات خود را وارد کرده و پاسخ دریافت کنید. برای پرسشهای یکباره، میتوانید سوال را مستقیماً پس از دستور وارد کنید:
ollama run llama2:7b-chat "پایتخت لهستان چیست؟"
مرحله ۴: Ollama را از طریق API محلی REST در برنامههای خود ادغام کنید. برای شروع سرور API، دستور زیر را اجرا کنید:
ollama serve
سپس میتوانید درخواستها را با استفاده از curl یا هر کلاینت HTTP دیگر ارسال کنید. مثلاً:
curl http://localhost:11434/api/generate -d '{
"model": "llama2:7b-chat",
"prompt": "سه توزیع لینوکس را لیست کن.",
"stream": false
}'
API پاسخها را به صورت JSON برمیگرداند. این امکان به توسعهدهندگان اجازه میدهد چتباتها، دستیارها یا نرمافزارهای دیگر را بدون وابستگی به سرویسهای خارجی بسازند.
مرحله ۵: عملکرد را با استفاده از شتابدهی GPU بهینه کنید، در صورت موجود بودن. برای بررسی استفاده Ollama از GPU انویدیا، دستور زیر را اجرا کنید:
OLLAMA_DEBUG=true ollama run llama2
به دنبال پیامهایی باشید که نشاندهنده استفاده از CUDA باشند. شتابدهی GPU سرعت پردازش مدلهای بزرگ را به طور چشمگیری افزایش میدهد.
مرحله ۶: مدلها را با استفاده از Modelfiles مدیریت و سفارشی کنید. Ollama از سینتکسی شبیه Dockerfile پشتیبانی میکند که به شما امکان میدهد نسخههای سفارشی مدل بسازید، پرامپتهای سیستمی اضافه کنید و پارامترها را تنظیم کنید. یک Modelfile را در یک پوشه ذخیره کنید و سپس مدل جدید را ایجاد کنید:
ollama create my-custom-model -f /path/to/Modelfile
این ویژگی برای خودکارسازی فرآیندها یا اختصاصیکردن مدلها به وظایف خاص بسیار مفید است.
استفاده از LM Studio برای اجرای مدلهای زبان بزرگ (LLM) بهصورت محلی
LM Studio یک نرمافزار دسکتاپ گرافیکی است که امکان اجرای مدلهای زبان بزرگ را روی لینوکس، ویندوز و مک فراهم میکند. این ابزار بهخصوص برای کسانی که ترجیح میدهند از خط فرمان استفاده نکنند یا تجربه تعاملی بیشتری بخواهند، مناسب است.
مرحله ۱: فایل AppImage نرمافزار LM Studio را برای لینوکس از وبسایت رسمی دانلود کنید. معمولاً نام فایل چیزی شبیه به LM-Studio-0.3.9-6-x64.AppImage
است و حدود ۱ گیگابایت حجم دارد.
مرحله ۲: ترمینال را باز کنید و به پوشهای که فایل را دانلود کردهاید بروید. سپس اجازه اجرای فایل را بدهید:
chmod u+x LM-Studio-0.3.9-6-x64.AppImage
مرحله ۳: LM Studio را با دستور زیر اجرا کنید:
./LM-Studio-0.3.9-6-x64.AppImage
این دستور نرمافزار را اجرا میکند و رابط گرافیکی بهصورت خودکار باز میشود.
مرحله ۴: در اولین اجرا، LM Studio از شما میخواهد یک مدل LLM را دانلود کنید. از کاتالوگ داخلی استفاده کنید تا مدل مناسب سختافزار خود را جستجو و انتخاب کنید. LM Studio تخمینی از نیازمندیهای RAM و VRAM نمایش میدهد تا از دانلود مدلهای ناسازگار جلوگیری شود.
مرحله ۵: پس از دانلود مدل، یک جلسه چت در برنامه شروع کنید. سوالات خود را وارد کنید و پاسخها را مستقیماً در رابط ببینید. LM Studio تاریخچه چت، میزان استفاده از توکنها و آمار منابع سیستم را نمایش میدهد که شفافیت عملکرد را افزایش میدهد.
مرحله ۶: تنظیمات پیشرفته را در صورت نیاز تغییر دهید. پنل کناری اجازه میدهد:
- پرامپتهای سیستمی را برای هدایت رفتار مدل تنظیم کنید.
- پارامترهایی مانند temperature، top-p، top-k و حداکثر توکنها را سفارشی کنید.
- تنظیمات GPU offload برای تعادل سرعت و مصرف حافظه را کنترل کنید. بهطور مثال:
- VRAM بین ۴ تا ۸ گیگابایت: استفاده از offload جزئی (۱۰ تا ۵۰ لایه)
- VRAM بین ۱۰ تا ۱۶ گیگابایت: استفاده از offload بیشتر (۵۰ تا ۸۰ درصد)
- VRAM بالای ۲۴ گیگابایت: استفاده کامل از GPU در صورت امکان
مرحله ۷: سرور API محلی را از تب Developer فعال کنید. این قابلیت یک API سازگار با OpenAI را روی localhost فراهم میکند که برنامههای دیگر میتوانند با مدل انتخابی شما تعامل داشته باشند. توسعهدهندگان میتوانند کلاینتهای OpenAI خود را به این آدرس متصل کنند تا ادغام آسانتر شود.
مرحله ۸: مدیریت چندین مدل و جلسات چت. LM Studio اجازه دانلود، بروزرسانی و سوئیچ بین مدلهای مختلف را میدهد، و از مدلهای کوچک و بزرگ با فرمت GGUF پشتیبانی میکند. این امکان به کاربران اجازه میدهد مدلهای مختلف را برای وظایف گوناگون آزمایش کنند.
مدیریت ذخیرهسازی مدلها و اشتراکگذاری بین Ollama و LM Studio
هر دو برنامه مدلها را در دایرکتوریهای جداگانه با فرمتهای متفاوت ذخیره میکنند. Ollama معمولاً از فرمت مبتنی بر Mojo استفاده میکند و LM Studio از فایلهای GGUF که با llama.cpp سازگارند. برای جلوگیری از دانلودهای تکراری و صرفهجویی در فضای دیسک، میتوانید:
- محل ذخیره مدلها را شناسایی کنید (~/.ollama/models برای Ollama و ~/.cache/lm-studio/models/ برای LM Studio).
- اگر مدلها در فرمت GGUF هستند، میتوانید با ایجاد لینک نمادین (symlink) مدلها را بین پوشههای دو برنامه به اشتراک بگذارید. مثلاً:
mkdir /store/MyModels
cd /store/MyModels
# مدل را اینجا دانلود یا منتقل کنید
ln -s ./the-model-file ~/.cache/lm-studio/models/
- همچنین میتوانید از ابزارهای جامعه کاربری مانند gollama یا llamalink برای خودکارسازی این لینکدهی استفاده کنید. توجه داشته باشید که همه مدلها سازگار نیستند و ممکن است نیاز به تبدیل به فرمت GGUF برای LM Studio باشد.
انتخاب ابزار مناسب برای نیازهای شما
LM Studio برای کاربرانی که تجربه گرافیکی و بدون دردسر را میخواهند، ایدهآل است. رابط کاربری آن کشف مدلها، تنظیم پارامترها و مدیریت چندمدلی را ساده میکند و برای مبتدیان و کسانی که ترجیح میدهند به صورت تصویری کار کنند، مناسب است.
Ollama برای توسعهدهندگان و کاربران پیشرفته که نیاز به خودکارسازی، اسکریپتنویسی یا ادغام در فرآیندهای پیچیده دارند، بسیار مناسب است. امکانات خط فرمان و API کنترل دقیقتری روی استفاده، سفارشیسازی و بهینهسازی عملکرد مدلها ارائه میدهد.
هر دو ابزار به کاربران امکان اجرای مدلهای قدرتمند زبان را به صورت محلی میدهند، حریم خصوصی را حفظ میکنند، هزینهها را کاهش میدهند و امکان آزمایش بدون وابستگی به سرویسهای ابری را فراهم میکنند. با انتخاب روشی که با سطح دانش فنی و هدف پروژه شما همخوانی دارد، میتوانید هوش مصنوعی پیشرفته را بهصورت کارآمد روی سختافزار خود اجرا کنید.
اجرای LLMها با Ollama و LM Studio روی لینوکس، استقرار محلی هوش مصنوعی را ساده و انعطافپذیر میکند، حریم خصوصی را حفظ کرده و عملکرد را فدا نمیکند. هر دو روش را امتحان کنید تا ببینید کدام شیوه کاری برای شما مناسبتر است.