SUSEは、SUSEおよびopenSUSEプロジェクトがコードのライセンス純度を分析するためにCavilツールキットで使用している、大規模なCavil-Qwen2.0-3B言語モデルをApache 4ライセンスの下でリリースすることを発表しました。公開されたモデルは4億個のパラメータをカバーし、Qwen3-4Bモデルをベースにテキスト分類用に最適化されています。
このモデルの主な目的は、プログラムおよびドキュメントのソースコードで使用されているライセンスを識別することです。このタスクを実行するために、モデルはソースコード内のライセンスに言及するヘッダーとコメントの150万件のサンプルを含むデータセットで追加学習されます。実際には、このモデルはコードベースのライセンス純度を自動的に検証し、ライセンスの非互換性やコードに潜在する法的問題を特定することができます。
このモデルは、言語構造の優れた理解と、一般的なコンシューマー向けGPUを搭載したシステムでの実行能力を両立させるようにサイズ設定されています。モデル本体に加え、トレーニングデータセットと検証ツールキットも無料でご利用いただけます。また、Cavilツールキットでモデルを有効化するためのハンドラーも用意されており、Cavilツールキットは、ソースコードが法的基準や要件(ライセンス検証、ライセンス違反の検出、リスク評価)に準拠しているかどうかをチェックするように設計されています。
出所: オープンネット.ru
