2024年9月12日、OpenAI が新モデル「o1(オーワン)」を発表しました。これはGPTとは異なる手法で開発されており、論理的思考を強化した新しいAIモデルだと説明されています。
その「論理的思考」とはいかほどのものなのか。
ChatGPT Plus ユーザなどに公開されている o1-preview に東大数学を解かせることで、その能力の一端を見たいと思います。正答率だけでなく解答プロセスにも注目すると、人間との違いが浮かび上がってきました。
本筋に入る前に、いくつか注意事項を述べておきます。
- 今回はなるべく人間の受験生に近い条件で解いてもらおうと思いシンプルなプロンプトにしましたが、プロンプトを工夫すればさらに質の高い解答を出力してくれる可能性が高いです
- 私が文科で入学したという事情から、o1-previewには文科生向けの2024年度の東大数学の入試問題を解いてもらいました
- 問題は4つの大問で構成されています
- 数式をタイプ入力する都合上、プロンプト中の問題文は実際に出題された表記と異なる箇所があります
- 採点はあくまで学生である私が単独で行ったものであり、東京大学が公表したものではありません
それでは、第1問から順にo1-previewの解答を見ていきましょう!
目次
第1問
プロンプト
第1問 座標平面上で、放物線C:y= ax^2 +bx +cが2点P(cosθ, sinθ),Q(-cosθ, sinθ) を通り、点P と点Qのそれぞれにおいて円x^2+y^2 =1 と共通の接線を持っている。 ただし、0° < θ < 90° とする。 (1) a, b, cを s=sinθ を用いて表せ。 (2) 放物線Cとx軸で囲まれた図形の面積Aをsを用いて表せ。 (3) A≧√3 を示せ。以上の問いに対し、日本語で解答してください。
出力
第1問
座標平面上で、放物線 が2点 と を通り、点 と点 のそれぞれにおいて円 と共通の接線を持っている。ここで、 とする。
(1) を を用いて表せ。
まず、放物線 が点 と を通るので、それぞれの座標を代入します。
点 で:
点 で:
式①と式②を引き算すると、
( なので)より、
次に、円 の接線の傾きは、接点 において、
放物線の接線の傾きは、
点 で:
点 で:
より、式③と式④はそれぞれ、
式③'と式④'を整理すると、
よって、
両辺を で割ると、
したがって、
次に、 を求めます。式①に を代入すると、
と を代入して、
整理すると、
よって、 とおくと、
(2) 放物線 と 軸で囲まれた図形の面積 を を用いて表せ。
放物線 と 軸の交点は のとき、
と を代入して解くと、
よって、
面積 は放物線と 軸で囲まれた部分の面積であり、対称性より、
を の式で表すと、
これを積分すると、
計算すると、
(3) を示せ。
求めた面積 について、
この が で となることを示します。
まず、不等式を整理します。
両辺に を掛けて、
両辺を で割り、
両辺を2乗すると、
左辺を展開すると、
よって、不等式は、
両辺を 倍して、
整理すると、
この式を と置きます。
で を示します。
の最小値を調べるために、導関数 を求めます。
となる を求めます。
または
なので、 は除きます。
二次方程式として とおくと、
解くと、
正の解は、
つまり、
のとき、
また、 および での の値を計算すると、
したがって、 で が成り立ちます。
よって、
以上で解答を終わります。
採点と講評
評価 | 得点をつけるとしたら | |
(1) | ◯ | 4/4 |
(2) | ◯ | 8/8 |
(3) | △ | 6/8 |
合計 | 18/20 |
- (3)で を解の公式で計算しているのが面白いです。因数分解した方が楽だと思いますが。
- (3)の最後はなぜ を調べれば十分なのか、増減表を書くなどして説明するべきです。
第2問
プロンプト
第2問 以下の問いに答えよ。必要ならば、0.3< log(10)2 <0.31であることを用いてよい。 (1)5^n >10^19となる最小の自然数nを求めよ。 (2 ) 5^m + 4^m > 10^19 となる最小の自然数mを求めよ。 以上の問いに対し、日本語で解答してください。
出力
問題(1)
となる最小の自然数 を求めよ。
解答:
まず、与えられた不等式 を対数を用いて解きます。
両辺の常用対数をとると、
となります。
ここで、 を計算します。問題文より、 なので、
より、
計算すると、
したがって、
となり、 の下限を用いると、
また、上限を用いると、
よって、 は少なくとも 以上でなければなりません。
答え:
問題(2)
となる最小の自然数 を求めよ。
解答:
同様に、与えられた不等式を対数を用いて解きます。
まず、 を求めます。 なので、
問題文より、 なので、
また、前問で求めた の範囲は、
次に、 に対する不等式を立てます。
両辺の常用対数をとりますが、直接的には扱いにくいため、 の値を試しながら確認します。
の場合:
の対数は、
の対数は、
合計しても、
これは 未満なので、不等式を満たしません。
の場合:
の対数は、
の対数は、
合計すると、
これは を超えるので、不等式を満たします。
よって、最小の自然数 は です。
答え:
採点と講評
評価 | 得点をつけるとしたら | |
(1) | △ | 4/6 |
(2) | △ | 12/14 |
合計 | 16/20 |
- (1)では「問題文より、 なので」という風に与えられた情報をうまく使えていました
- (2)の の場合の議論は (1)の結果を使えば 1行で済みますが、o1-preview は(人間の目から見れば)不要な計算をしています
- o1-previewにとっては意味を考えて面倒くさい計算を回避するよりも素直に計算する方が楽なのかもしれません
- (1)(2)ともに最終的な答えは合っていますが、その過程で「(近似)」を使っている点が△です。数学をやっている以上は「<, >(不等号)」を使って値の評価を厳密に行うべきでしょう。
第3問
プロンプト
第3問 座標平面上に2点O(0, 0), A(0, 1)をとる。x軸上の2点P(p, 0), Q(q, 0)が、次の条件(i),(ii)をともに満たすとする。 (i ) 0 < p < 1 かつ p < q (ii ) 線分APの中点をMとするとき、 ∠OAP = ∠PMQ(1 ) qをpを用いて表せ。 (2) q=1/3となるpの値を求めよ (3)△OAPの面積をS, △PMQの面積をTとする。S>Tとなるpの範囲を求めよ。 以上の問いに対し、日本語で解答してください。
出力
解答
(1) 条件より、∠OAP = ∠PMQ です。
まず、点Aにおける角度∠OAPを求めます。ベクトルを用いて計算します。
点Aから点Oへのベクトルを、点Aから点Pへのベクトルをとすると、
とのなす角をとすると、余弦定理より、
内積と大きさを計算すると、
したがって、
次に、点Mにおける角度∠PMQを求めます。点Mは線分APの中点なので、
ベクトルとを求めます。
同様に、これらのなす角をとすると、
内積と大きさを計算します。
よって、
しかし、は先ほどと同じ値なので、
両辺にをかけて整理すると、
さらに整理して、
しかし、なので、
この等式を解いてをの式で表すと、
計算を進めて最終的に、
答え:
(2) のとき、を求めます。
与えられた式に代入すると、
この方程式を解きます。両辺にをかけて、
両辺を整理して、
さらに整理すると、
この三次方程式を解くと、の値が求まります。適切な数値解法を用いての範囲で解を探すと、
答え:
(3) 三角形の面積を、三角形の面積をとすると、
となるの範囲を求めます。
両辺を4倍して、
整理すると、
(1)で求めたの式を代入して、
両辺にをかけて、
左辺を展開して、
整理すると、
両辺をで割ると(なので符号は変わらない)、
よって、
したがって、
答え: のとき、 となる。
採点と講評
評価 | 得点をつけるとしたら | |
(1) | ◯ | 8/8 |
(2) | △ | 4/6 |
(3) | △ | 2/6 |
合計 | 14/20 |
- 出力を見ると、図がありません。一切図を描かずにこの問題を解き切るのは人間には難しいと思いますが、ここに人間と生成AIの思考法の違いが現れているのかもしれません。
- (2)では の解を直接求めていますが、人間なら因数分解して解くでしょう。答えは近似ではなくと書くべきです。
- (3)では不等式の両辺に負の数をかけた際に不等号の向きを間違えてしまっています。人間がやりがちなミスをAIもしている、という印象です。
第4問
プロンプト
第4問 nを5以上の奇数とする。平面上の点Oを中心とする円をとり、それに内接する正n角形を考える。n個の頂点から異なる4点を同時に選ぶ。ただし、どの 4点も等確率で選ばれるものとする。選んだ4点を頂点とする四角形がOを内部に含む確率p(n)を求めよ。 以上の問いに対し、日本語で解答してください。
出力
解答
まず、問題を整理します。
を 以上の奇数とする。
点 を中心とする円に内接する正 角形を考える。
その頂点から異なる4点を選び、四角形を作る。
その四角形が を内部に含む確率 を求める。
考察
四角形が点 を内部に含まない場合は、選ばれた4点が同一の半円内に存在する場合に限られます。なぜなら、正 角形の頂点は円周上に等間隔で配置されており、4点が半円以内に収まると、その四角形は点 を内部に含まないからです。
一方、4点が円周上で半円を超えて分布している場合、その四角形は必ず点 を内部に含みます。
したがって、問題は次のように言い換えられます:
全ての頂点の組み合わせ 通りのうち、4点が同一の半円内にある組み合わせの数を求め、それを全体から引く。
計算
全ての頂点の組み合わせ数
同一の半円内にある4点の組み合わせ数
ここで、 は以下のように計算できます:
を内部に含まない四角形の総数
を内部に含む四角形の総数
確率 の計算
分子:
通分して整理すると:
分母:
よって、確率 は:
これを簡単にすると:
答
採点と講評
評価 | 得点をつけるとしたら | |
第4問 | △ | 18/20 |
- 「問題の整理→考察→計算」という流れで筋道立てて考えており、思考が整理されている印象を受けます
- 答えは合っていますが、その過程で のときと のときの場合分けはできていませんでした
採点結果一覧
設問 | 評価 | 得点をつけるとしたら | |
第1問 | (1) | ◯ | 4/4 |
(2) | ◯ | 8/8 | |
(3) | △ | 6/8 | |
第2問 | (1) | △ | 4/6 |
(2) | △ | 12/14 | |
第3問 | (1) | ◯ | 8/8 |
(2) | △ | 4/6 | |
(3) | △ | 2/6 | |
第4問 | △ | 18/20 | |
合計 | 66/80 |
感想—人間との比較を中心に
今回、実際に出題された問題文をペーストしただけのような非常に簡単なプロンプトを入力しましたが、人間が書いたかのような見事な答案が返ってきました。正答率の観点でも、 o1-preview のパフォーマンスは予想以上に高いものでした。
出力を詳しく見てみると、間違え方が人間に似ていることに気がつきます。不等式の式変形が同値でなかったり(第3問)、必要な場合分けを忘れてしまったり(第4問)する間違えは人間もやってしまいがちなものです。
一方、問題へのアプローチの仕方には人間との違いがはっきりと現れました。o1-previewは高次方程式でも真正面から計算し、論理よりも近似により答えに迫っていましたが、人間は複雑な計算が苦手な分、それを回避する柔軟な発想力を持っています。ある数学者の言葉を借りれば、数学はサボることにより発展してきたのです。そういう意味では、今回の o1-previewの解答は答えは合っていても数学らしくない印象を受けた箇所がありました。
o1-preview は図を描かずに解いている、という点も興味深いです。視覚的な情報を使わないのだとしたら、どのようなプロセスで問題の状況を認識しているのか気になります。ただ、最近の生成AIはマルチモーダル化しているので、図を描いて考えるようプロンプトで指示を出せば対応してくれるかもしれません。
おわりに
2024年度の東大数学(文科)の合格者平均点は公式には発表されていませんが、あるサイトでは32.9点と推定されていました(出典: https://todai.info/juken/data/2024/kaiji_4.php#mathL)。これを私が参考までにo1-previewの解答につけた66点と比べてみても、すでに生成AIには東大数学の合格点をとる能力があると思われます。
o1-previewのアプローチには数学らしくない印象を受けた箇所があると感想に書きましたが、プロンプトを工夫すれば、より厳密な論理に基づいた数学的な解答も作ってくれることでしょう。
そのような状況を受け、これからの数学教育はどうなっていくのか、どうあるべきなのか。 皆さんはどう考えますか?