Qwen3.5をAndroidスマホで動かしてみよう！(not 実用的)

え!! AndroidスマホでLLMを!?

出来らあっ！

…。始めます。

Galaxy S26 12/256GBを使います。

みたいな感じです。一応最新ハイエンド。

からapkをダウンロードして、インストールします。
起動したらミラーの最適化とパッケージのアップデートを行いましょう。

termux-change-repo
pkg upgrade -y

完全に蛇足ですが、私はSSHできるようにしておきました。

# sshと自動起動用のパッケージをインストール
pkg install openssh termux-services
# パスワードを設定
passwd
# 自動起動の設定
sv-enable sshd

接続するときは

ssh a@<スマホのIP> -p 8022

ユーザー名は何を指定しても大丈夫です。

今回はllama.cppを使用して動かすので、ビルドするために必要なパッケージを入れていきます。

pkg install git clang cmake wget libandroid-spawn

を使ってLLMを動かします。
まずはビルドを行いますよ。

git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp
cmake -B build
cmake --build build --config Release -j6

ビルド中にエラーで落ちることがあります。その際は

cmake --build build --config Release -j6

を連打すると終わります。

ls ./build/bin

でllama-serverとかllama-cliが見えればOKです。

さて動かしてみますよ。Qwenを。今回はunslothのQwen3.5-0.8B-GGUFを動かしてみます。

次のコマンドを実行します。

./build/bin/llama-server -hf unsloth/Qwen3.5-0.8B-GGUF --host 0.0.0.0 --port 2323 --reasoning-budget 0

この状態でhttp://<スマホのIP>:2323にアクセスすると…。

こんな画面が出ます。適当に会話を試みましょう。

日本語は荷が重そうです。

私は英弱なので翻訳を。

こんにちは！私はTongyi Labが開発した最新の大規模言語モデル、Qwen3.5です。
膨大なテキストコーパスで学習済みで、質問への回答からクリエイティブなコンテンツの生成まで、幅広いタスクでお手伝いできます。今日はどのようなお手伝いができますか？😊

開発元はアリババな気もしますけど、なにせ0.8Bなので。気にしない気にしない。

生成自体は1.4トークン/秒と激遅です。ちなみに私のメインパソコン(R7 5770X+RTX 4060 Ti)では

216トークン/秒です。こっちはGPUでAndroidはCPUですからね。分が悪いレベルの話ではないのですけど。

以上です。完全に自己満足ですが、一応動いたのに驚いてます。
できればOpenCLを使った推論もやらせてみたいですね。出来たらですけど。

それでは！