テキストからSQLへの変換の自動化は依然として大きなタスクであり、このタスクに適したオープンソースモデルはほとんどありません。 これを分解してみましょう - >テキストからSQLへの変換モデルは、基本的には、マルチアテンション層とスキーマリンク層を挟んだエンコーダー-デコーダーモデルに他なりません。 > エンコーダーは、ユーザークエリとデータベーススキーマの両方を処理し、コンテキスト埋め込み(リレーションアウェアエンコーディング)を生成します >スキーマリンクにより、クエリ内のトークンは対応するスキーマエンティティと調整されます >スキーマ認識アテンションメカニズムにより、モデルはデコード中にスキーマの関連部分に焦点を合わせることができます > デコーダはSQLトークンを順次生成します(制約ベースのデコード) これらのモデルにはどこが欠けていますか?- >利用可能なモデルのほとんどは、トレーニングデータ自体に複雑なクエリがないため、クロスドメインまたはループクエリではパフォーマンスが低下します。 > 言語とクエリの要件は、通常のユーザーから必ずしも正しいとは限りません。スペルを間違えても、入力が間違ってしまい、検索中に問題が発生するため、プロンプトはこのタスクの重要な部分です。 私は個人的に、エンドツーエンドのプロジェクトを作成していたときにこれに詳細に取り組み、合成データを作成し、独自のSLMをトレーニングしようとしましたが、惨めに失敗し、その後オープンソースモデルを使用しました。 これについて深く掘り下げたい場合は、最初にこれらの研究論文を読むことをお勧めします。 >LLM の拡張テキストから SQL への生成 >次世代データベース・インターフェース: >テキストから SQL への解析: 概念と方法 >RASAT: 事前学習済みSeq2Seqモデルへの関係構造の統合