これで大量の動画データから超大量のデータ・セットを独自生成することがあまり手間ではなくなりました。 オートアノテーション最高!! 単に高精度のFaster R-CNNでオブジェクトディテクションをしているだけですので、ふ〜ん、という感じの方々が多いとは思います。
特に verbose などの詳細出力は「何が起きているか」の大雑把な把握と「問題発生箇所」の特定に役立ちます。 置き換えた画像を動画に変換する ffmpeg -i scene%06d.png -c:v libx264 -vf "fps=30,format=yuv420p" output.mp4以上。再生してみて、いい感じだったら成功です。お楽しみください。