第13章：Browser RunとAI Searchの関係を見よう 🧷

AI SearchでWebサイトをデータソースにすると、ページ取得とindex化が関係します。
動的ページでは、Browser Runのようなブラウザ実行が役立つ場面があります。

1. WebページからAI検索へ 🌐

流れはこうです。 Flow from Web Page to AI Search

Webページ
  ↓ 取得
テキスト化
  ↓
index化
  ↓
自然言語検索

AI Searchは、この流れの多くをmanagedに扱える方向のサービスです。

JavaScriptで本文が後から出るページでは、HTMLだけをfetchしても中身が足りないことがあります。 The problem with fetching dynamic pages

fetch → 空っぽに近いHTML
browser → JavaScript実行後の内容

この差を理解しておくと、データ取得の失敗に気づきやすいです。

取得したMarkdownやHTMLをR2へ保存する設計もあります。 Architecture for saving crawled data to R2

取得結果 → R2
メタデータ → D1
検索index → AI Search / Vectorize

あとで再indexや調査がしやすくなります。

最初は、自分のサイトや許可されたページだけを対象にします。 Selecting appropriate targets for scraping

よい: 自分のドキュメントサイト
よい: 公開許可された社内資料
避ける: 無関係なサイトの大量取得

検索基盤を作る前に、データ利用のルールを確認します。

この章で覚える一言はこれです。
Summary of AI Search Data Gathering AI検索は、検索する前に“正しく安全にデータを集める”ことが大切です 🧷