從 53 種食物到 13,152 種:五國食物資料庫 ETL 管線設計實錄

前言:手動維護 53 種食物的極限 我正在開發一款健康追蹤 App,核心功能之一是飲食記錄。一開始,食物資料庫是手動維護的 JSON — 53 種台灣常見小吃,從滷肉飯到珍珠奶茶。 53 種夠用嗎?使用者搜尋「鮭魚」找不到、搜尋「優格」找不到、搜尋「oatmeal」更不用說。手動新增不可能跟上需求,我需要一條自動化管線,把全世界的食物營養資料拉進來。 這就是 ETL 管線登場的時機。 什麼是 ETL?用食物資料庫解釋 ETL 是 Extract(擷取)、Transform(轉換)、Load(載入) 的縮寫,是資料工程最基礎的設計模式。與其抽象解釋,直接用這個專案的食物資料庫來看: 四個來源的原始資料格式完全不同 — 台灣用中文欄位名(粗蛋白)、日本用 FAO 代碼(prot)、USDA 用數字編號(203)。Transform 階段把它們統一成 App 需要的 {id, name, emoji, category, nutrition} 結構。 為什麼不直接在 App 端串接 API?因為食物營養資料是靜態的 — 雞蛋的蛋白質含量不會每天變。離線 JSON 零延遲、不吃流量、無網路也能用。ETL 只在開發階段跑一次,產出的 JSON 跟著 App 一起發布。 USDA API 的格式陷阱:同一個服務,兩套規則 USDA FoodData Central 是美國農業部的食物營養資料庫,涵蓋近 8,000 種食物。我選擇 foods/list endpoint 批量下載 SR Legacy 和 Foundation Foods 資料。 然而,這個 API 有一個文件沒有明確說明的陷阱:foods/list 和 foods/search 兩個 endpoint 回傳的營養素格式完全不同。 ...

March 17, 2026 · 2 分鐘 · Peter

解決 API 回應中的 BOM (Byte-Order Mark) 字元問題

問題背景 最近在開發過程中遇到一個詭異的問題:呼叫某個 API 後,某個常數 name 的值居然是 nil,但從 raw data 看起來明明有值。 症狀檢查清單: ✅ Console 印出 raw data 看起來正常 ✅ jsonDecode 解碼成功 ✅ Enum 對應的 JSON key (_Name_Ch) 完全相同 ✅ 瀏覽器中直接訪問 API,name 確實有值 ❌ Swift 中取得的 name 卻是 nil 經過反覆檢查,終於發現問題根源:不可見的 BOM (Byte-Order Mark) 字元。 什麼是 BOM? BOM (Byte-Order Mark),中文稱為位元組順序記號,是一個不可見的 Unicode 字元,用於標示文字檔的編碼位元組順序。 常見的 BOM 字元: UTF-8 BOM: 0xEF 0xBB 0xBF (Unicode: U+FEFF) UTF-16 BE BOM: 0xFE 0xFF UTF-16 LE BOM: 0xFF 0xFE 問題診斷 根據問題分析,name 為 nil 的原因是: ...

May 15, 2024 · 3 分鐘 · Peter