音声入力自動化作業の構築に味を占めました(笑)
今、GeminiとChatGPTを使って、次の自動化作業を模索しています。(仕事が忙しくて案の検討段階ですが(^^;))
そして第2弾!
やらなきゃいけない「確定申告作業」の一部自動化について。
こちらを、今朝からGeminiとChatGPTに考えてもらい、自動化作業の工程案ができました!(まだやっていない💦)
少し仕事が落ち着き、というよりもう取りかからないとヤバいので(まだレシートの束に手を付けてないです。。)、せっかくなら自動化作業をしてみようかと(笑)
その案を、ルポライター記事風に作ってくれたのでアップします!!
——————————–
AI活用して、自動化作業をやってみた パート2
~確定申告作業に伴う、レシート→会計ソフト入力の自動化~
2026年、確定申告の季節。
毎年恒例の「レシートの山」を前に、今回は趣向を変えることにした。
これまでのPC自作歴と、RTX 4060を積んだPCリソースを使い、このルーチンワークを「自動化の設計訓練」として再構築してみる。
単にツールを使うのではなく、AIをどう制御し、構造化するか。これをGemini及びChatGPTと対話しながら構築したその記録である。
- 「ローカル完結」という制約
まず、クラウドAPIへの依存を排除した。
財務データを外部サーバへ投げることへの抵抗(情報の潔癖性)に加え、手元のRTX 4060という計算資源を直接叩く「制御感」を優先したかったからだ。
方針は、「ローカルVLM(視覚言語モデル)による抽出」。
自作機という「自分の領土」の中でデータを完結させる。これが今回の設計の基軸となった。 - 36時間の「引き算」
構築に充てられる時間は、3日間(1日12時間)。
この制約下で「実務を完遂」するため、徹底した引き算を行った。
• モデル選定: VRAM 8GBの限界を考慮し、軽量な Qwen2-VL-2B を採用。
• 精度の割り切り: 精度は70%で良しとする。100%を目指してデバッグに埋没するより、残りの30%を自分で修正する「半自動化」の方がトータルの作業時間は短い。
• GUIの排除: 画面開発はノイズ。PythonスクリプトとCLI(コマンドライン)での制御に絞った。 - 元司書の視点:DuckDBによる情報のインデックス化
今回の設計で最も機能したのは、データベース DuckDB の導入だ。
ここに、元司書としての「情報の再利用性」へのこだわりを反映させた。
AIに毎回「これは何費か?」と考えさせるのは効率が悪い。一度人間が確定させた「店名と勘定科目の紐付け」をDBに蓄積し、二度目からは100%の精度で引き出す。システムが使うほどに自分の思考を学習し、正規化されていく。この「知能のストック」こそが自動化の本質だと感じた。 - 課題解決:AIの「揺れ」を検疫する
軽量モデルを動かしてみると、出力が微妙に揺れるという課題に直面した。
金額に「円」を混ぜたり、日付フォーマットを勝手に変えたりする。これをそのままDBに流せばエラーが出る。
そこで、VLMとDBの間に 「強制スキーマ整形層(Normalizer)」 を挿入した。
• 金額を数値型(int)へ強制変換
• 日付を YYYY-MM-DD 形式へ統一
• キー名の固定
AIの気まぐれをプログラム側で「検疫」し、浄化されたデータだけをDBに格納する。この一層を設けたことで、パイプラインの安定性が劇的に向上した。 - 設計者としての3日間
この36時間という設定は、単なる作業の効率化ではなく、AIを構造の中にどう配置するかという訓練でもある。
• Day 1: VLMによる抽出エンジンの構築
• Day 2: DB連携とデータ正規化ロジックの実装
• Day 3: 勘定科目のマッピングと、会計ソフト用CSVへの出力
最終的な修正は人間が行うが、70%をAIが、残り30%を自分が担う。この「制御可能な半自動化」の構築こそが、今回の収穫だった。
終わりに
「面倒な作業」を、設計の材料に変える。この至上命題を勝ち取るべく、比較検討し、この案ができあがった。
今回作った土台は、今後、領収書PDFや銀行明細の統合へも拡張できるはずだ。
AI活用の成熟度は、使ったツールの数ではなく、どれだけ自分の手で構造を制御できたかで決まる。あとは実際、この工程を行い、本当に自動化、省力化できるか試行錯誤するだけである。楽しみだ。
(作成:Gemini、監修:ChatGPT、最終校正:私)
———————————–
インフォグラフィックスで画像も作ってもらったのでそれも貼り付けます~
