DeepSeekが登場して、「入力した内容がどう使われるか分からない」という話は最近よく上がりますが、そちらではなく。
生成AIを利用した結果出力されたものの利用方法の話です。
生成AIの技術を利用しているものは現在の世には色々ありますが、
「学習に使われたデータを元にして同質のものを出力するツール」は出力結果を安易に使うとトラブルになる可能性があると思っています。
※例えば
「文章を学習して文章を出力する人工知能チャットボット」
「画像を学習して画像を出力する画像生成AI」
「音声を学習して音声を出力するAIボイスチェンジャー」
などがそれに該当します。
何が問題かというと、「場合によっては学習した内容を復元、もしくは酷似した内容を出力してしまう可能性がある」という点です。
各生成AIは出力の質を高めるために多くの学習元となるデータを収集する訳ですが、これには他者が著作権その他の権利を持つ情報が含まれていることがほとんどです。
その情報と酷似した内容が出力されてしまった場合、何も考えずにそれを利用すると権利侵害となる場合があり得ます。
これが
「声優と協力して、ボイスチェンジャーとして使われることを声優に明示して作ったAIボイスチェンジャー」
などであれば許諾が明確なので問題にならないのですが、
そうでないツールの場合は「生成された内容が権利侵害でないか」を見極めるのは困難です。
何故なら、それを判断するには「世の中の『この情報』と似ている」と認識できる必要があり、それを知識で網羅するのはほぼ不可能だからです。
故に、「学習に使われたデータを元にして同質のものを出力するツール」を使う場合にはこのリスクを認識して使うべきだと思っています。
(特に今の画像生成AIは、画像という性質もあってか他者から何かに「似ている」と認識されやすく、個人的にはリスクが怖くて使えないです)
逆に、「学習に使われたデータを参照するが出力はそれと同質でないもの」についてはそこまで神経質にならなくても大丈夫かなと思っています。
自動車の自動運転などがそれにあたるでしょうか。
この場合は「学習したものと酷似した内容」が出力されようがないからです。
イラストを描く界隈では画像生成AIが嫌われがちなところがあるのですが、
人によってはAIに学習させることそのものを嫌っていたり、
画像生成AIには反発する割に文章生成系のAIの利用のしかたには無頓着だったり……
などということも多く、少々モヤモヤしていたところです。
そういった状況でしたので、「ダブルスタンダードにならないようにどう線を引くべきか」を自分なりに整理して書き連ねてみました。
0 件のコメント:
コメントを投稿