從 53 種食物到 13,152 種:五國食物資料庫 ETL 管線設計實錄

前言:手動維護 53 種食物的極限 我正在開發一款健康追蹤 App,核心功能之一是飲食記錄。一開始,食物資料庫是手動維護的 JSON — 53 種台灣常見小吃,從滷肉飯到珍珠奶茶。 53 種夠用嗎?使用者搜尋「鮭魚」找不到、搜尋「優格」找不到、搜尋「oatmeal」更不用說。手動新增不可能跟上需求,我需要一條自動化管線,把全世界的食物營養資料拉進來。 這就是 ETL 管線登場的時機。 什麼是 ETL?用食物資料庫解釋 ETL 是 Extract(擷取)、Transform(轉換)、Load(載入) 的縮寫,是資料工程最基礎的設計模式。與其抽象解釋,直接用這個專案的食物資料庫來看: 四個來源的原始資料格式完全不同 — 台灣用中文欄位名(粗蛋白)、日本用 FAO 代碼(prot)、USDA 用數字編號(203)。Transform 階段把它們統一成 App 需要的 {id, name, emoji, category, nutrition} 結構。 為什麼不直接在 App 端串接 API?因為食物營養資料是靜態的 — 雞蛋的蛋白質含量不會每天變。離線 JSON 零延遲、不吃流量、無網路也能用。ETL 只在開發階段跑一次,產出的 JSON 跟著 App 一起發布。 USDA API 的格式陷阱:同一個服務,兩套規則 USDA FoodData Central 是美國農業部的食物營養資料庫,涵蓋近 8,000 種食物。我選擇 foods/list endpoint 批量下載 SR Legacy 和 Foundation Foods 資料。 然而,這個 API 有一個文件沒有明確說明的陷阱:foods/list 和 foods/search 兩個 endpoint 回傳的營養素格式完全不同。 ...

March 17, 2026 · 2 分鐘 · Peter