Trong bối cảnh các mô hình ngôn ngữ lớn đang thu hút mọi sự chú ý, công nghệ tạo ảnh bằng AI cũng đang âm thầm tạo ra những bước đột phá mạnh mẽ. Với kinh nghiệm tự chủ các mô hình ngôn ngữ lớn (LLM) để loại bỏ những hạn chế về quyền riêng tư và chi phí, việc áp dụng cách tiếp cận tương tự cho công nghệ tạo ảnh AI là điều hoàn toàn hợp lý. Chạy mọi thứ cục bộ mang lại sự riêng tư cao hơn, tính linh hoạt vượt trội và đặc biệt là không còn phải chờ đợi. Đây chính là lúc Stable Diffusion Web UI xuất hiện – một giao diện mã nguồn mở hoàn toàn, giúp việc tạo ảnh AI cục bộ trở nên dễ dàng đến ngạc nhiên.
Stable Diffusion Web UI không trực tiếp xử lý quá trình suy luận mà đóng vai trò là một giao diện người dùng (frontend) mạnh mẽ, cung cấp thêm các tối ưu hóa. Người dùng cần cung cấp các mô hình riêng của mình, thường ở định dạng .ckpt hoặc .safetensors. Sau khi các mô hình này được tải, bạn có thể bắt đầu sử dụng ngay. Các mô hình AI tạo ảnh rất dễ tìm thấy trên những nền tảng như Hugging Face, cho phép bạn lựa chọn dựa trên loại kết quả đầu ra mà bạn mong muốn.
Yêu cầu phần cứng để vận hành Stable Diffusion Web UI
Cấu hình khá nặng để chạy mượt
Hiện tại không có container Docker chính thức cho Stable Diffusion Web UI, điều này khiến việc đóng gói trở nên phức tạp. Mặc dù một số dự án cộng đồng có cung cấp các bản dựng Docker, nhưng theo kinh nghiệm, khả năng tương thích không ổn định tùy thuộc vào phần cứng. Do đó, việc tuân thủ quy trình cài đặt trực tiếp vẫn là lựa chọn đáng tin cậy nhất hiện nay.
Để chạy Stable Diffusion Web UI một cách hiệu quả, bạn sẽ cần một GPU đủ mạnh. Hầu hết các mô hình cơ bản yêu cầu tối thiểu 4GB VRAM (Bộ nhớ truy cập ngẫu nhiên video). Nếu bạn muốn đạt được kết quả tốt hơn, đặc biệt với các mô hình cao cấp, yêu cầu về VRAM sẽ còn lớn hơn nữa. Đối với người dùng Mac, chúng tôi đặc biệt khuyến nghị sử dụng các máy Apple Silicon có ít nhất 16GB bộ nhớ hợp nhất (unified memory) để đảm bảo trải nghiệm mượt mà.
Stable Diffusion Web UI hoạt động trên MacBook Air M1, hiển thị hình ảnh mèo được tạo bởi AI
Chúng tôi đã thử nghiệm Stable Diffusion Web UI trên một chiếc MacBook Air M1 với 8GB RAM để đánh giá hiệu năng. Kết quả cho thấy máy vẫn có thể tạo ảnh tương đối nhanh, nhưng phần còn lại của hệ thống gần như không thể sử dụng được. Nó bắt đầu sử dụng bộ nhớ swap ngay lập tức, điều này không bền vững nếu bạn có ý định chạy ứng dụng trong thời gian dài.
Mặc định, Stable Diffusion Web UI chạy trên localhost, nghĩa là nó chỉ có thể truy cập được trên chính thiết bị mà nó đang hoạt động. Nếu bạn muốn truy cập giao diện này qua mạng nội bộ hoặc từ xa, bạn có thể sử dụng một reverse proxy như Nginx để đảm bảo kết nối an toàn và ổn định.
Hướng dẫn cài đặt Stable Diffusion Web UI chi tiết
Các phụ thuộc cần thiết
Stable Diffusion Web UI tương thích trên cả ba hệ điều hành lớn: Windows, macOS và Linux. Các bước cài đặt nhìn chung khá đơn giản, nhưng có thể có một vài khác biệt nhỏ tùy thuộc vào phần cứng và hệ điều hành của bạn. Do đó, chúng tôi đặc biệt khuyên bạn nên tham khảo hướng dẫn cài đặt chính thức từ nhà phát triển để có thông tin chi tiết và chính xác nhất.
Một điểm cần lưu ý đặc biệt là phiên bản Python. Phiên bản được khuyến nghị cho hầu hết các thiết lập là Python 3.10 hoặc 3.11; các phiên bản mới hơn có thể không hoạt động hoặc gây ra lỗi. Bạn có thể cài đặt và thiết lập Python 3.11 bằng công cụ Yay với các lệnh sau:
yay -S python311
export python_cmd="python3.11"
Sau khi hoàn tất, bạn chỉ cần sao chép (clone) thư mục GitHub của Stable Diffusion Web UI và chạy tập tin thực thi:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui
./webui.sh
Xin lưu ý rằng lần khởi chạy đầu tiên có thể mất một khoảng thời gian đáng kể, vì hệ thống cần thiết lập một môi trường ảo và cài đặt tất cả các phụ thuộc cần thiết. Hãy kiên nhẫn chờ đợi quá trình này hoàn tất. Khi mọi thứ đã sẵn sàng, bạn sẽ thấy một địa chỉ IP cục bộ hiển thị trong terminal. Trong hầu hết các trường hợp, đó sẽ là 127.0.0.1:7860, bạn có thể mở địa chỉ này trong trình duyệt của mình để truy cập giao diện người dùng.
Giao diện Stable Diffusion Web UI đang tạo ảnh chú chó, bên cạnh là cửa sổ Terminal hiển thị quá trình cài đặt
Sử dụng Stable Diffusion Web UI để tạo ảnh
Không chỉ đơn thuần là gõ prompt
Trước khi bắt đầu tạo ảnh, bạn cần nhập một mô hình AI. Cách dễ nhất là tải một mô hình từ Hugging Face. Stable Diffusion v1.5 là một điểm khởi đầu tốt để bạn làm quen với các nguyên tắc cơ bản. Khi đã thành thạo, bạn có thể thử sử dụng các mô hình nâng cao hơn để đạt được chất lượng hình ảnh tốt hơn. Để nhập mô hình, bạn chỉ cần kéo tệp .ckpt hoặc .safetensors vào thư mục models
chính xác trong thư mục cài đặt Stable Diffusion Web UI của bạn.
Bạn có thể nhập prompt (lời nhắc) của mình vào hộp văn bản chính để mô tả loại hình ảnh bạn muốn tạo. Prompt có thể đơn giản như “hoàng hôn trên núi” hoặc chi tiết hơn tùy thuộc vào mức độ cụ thể mà bạn mong muốn ở kết quả đầu ra. Trường negative prompt cho phép bạn lọc bỏ các yếu tố không mong muốn. Ví dụ, nếu bạn thấy các lỗi hình ảnh kỳ lạ hoặc khuôn mặt bị biến dạng, bạn có thể nhập các từ như “mờ, thừa chi, mắt biến dạng” để giúp tránh những kết quả đó.
Bạn cũng có thể điều chỉnh batch size
(kích thước lô) và batch count
(số lượng lô) để tạo nhiều hơn một hình ảnh cùng lúc. Batch size
kiểm soát số lượng hình ảnh được tạo trong một lần chạy duy nhất, và batch count
quyết định số lần chạy đó lặp lại. Chẳng hạn, cài đặt batch size
là hai và batch count
là ba sẽ tạo ra tổng cộng sáu hình ảnh. Điều này rất hữu ích khi bạn muốn nhanh chóng so sánh các biến thể khác nhau của cùng một prompt.
Các trường width
(chiều rộng) và height
(chiều cao) kiểm soát độ phân giải của hình ảnh đầu ra. Độ phân giải 512 x 512 là một cài đặt mặc định tốt để bắt đầu. Mặc dù có thể tăng kích thước, nhưng điều này có thể dẫn đến thời gian tạo ảnh lâu hơn, sử dụng bộ nhớ cao hơn hoặc các vấn đề thị giác như kéo dãn và biến dạng hình ảnh.
Những hạn chế khi tự host AI tạo ảnh
Mặc dù việc chạy các mô hình AI cục bộ thực sự rất thú vị, nhưng phải thừa nhận rằng đôi khi chúng tôi gặp phải các vấn đề nghiêm trọng về hiệu suất. Hơn nữa, chất lượng hình ảnh đầu ra không hoàn toàn đạt được mức độ tinh xảo như các công cụ đám mây cao cấp, ví dụ như GPT-4o. Tuy nhiên, nếu bạn đang tìm kiếm các mô hình mạnh mẽ hơn để chạy cục bộ, chúng tôi khuyến nghị bạn nên thử FLUX.1 hoặc SDXL.
Có thể việc tự host sẽ không đạt được độ bóng bẩy như các công cụ dựa trên đám mây, nhưng có một sự hài lòng đặc biệt khi bạn có toàn quyền kiểm soát toàn bộ quy trình và tự xây dựng cỗ máy AI của riêng mình.
Kết luận
Việc tự host Stable Diffusion Web UI không chỉ là một trải nghiệm công nghệ thú vị mà còn mở ra cánh cửa đến sự kiểm soát hoàn toàn đối với quy trình tạo ảnh AI của bạn. Từ quyền riêng tư được bảo vệ đến khả năng linh hoạt tùy chỉnh không giới hạn và loại bỏ hoàn toàn thời gian chờ đợi, những lợi ích mà Stable Diffusion Web UI mang lại là rất đáng kể. Mặc dù có những yêu cầu nhất định về phần cứng và đôi khi đối mặt với thách thức về hiệu suất, nhưng sự hài lòng khi tự tay quản lý và sáng tạo ra những hình ảnh độc đáo bằng AI trên thiết bị của mình là một phần thưởng vô giá.
Chúng tôi hy vọng bài viết này đã cung cấp cho bạn cái nhìn toàn diện và hướng dẫn chi tiết để bắt đầu hành trình tự host Stable Diffusion Web UI. Hãy bắt tay vào khám phá, thử nghiệm các mô hình khác nhau và chia sẻ những tác phẩm nghệ thuật AI độc đáo mà bạn tạo ra với cộng đồng 123thuthuat.com!