بسم الله الرحمن الرحيم

ترجمة لكتاب الـ "كتاب المائة صفحة في تعلم الآلة"

رابط الكتاب


مقدمة المترجم

منذ اختراع الكمبيوتر في منتصف القرن الماضي، جرت العادة على برمجة الكمبيوتر بطريقة إرشادية بحتة. بمعنى اننا نحتاج إلى كتابة جميع الأوامر والعمليات التي نريد من الكمبيوتر القيام بها من اجل تنفيذ مهمة ما. مثلاً، بلا بلا ... الخ. لاشك ان هذه الطريقة التقليدية لبرمجة الكمبيوتر مُكلفة ومعقدة للغاية بحيث انه لايمكننا حصر وتدوين كافة الأوامر وتفاصيل العمليات لكل المهمات، و خصوصاً اننا في كثير من المهام لانعرف ماهي العمليات والخطوات التي ينبغي القيام بها من أجل تحقيق نتيجة أو هدف معين. لاسيما إن كانت المهمة، التي نريد من الكمبيوتر القيام بها، معقدة مثل "التنبوء بشعور الكاتب من خلال النص المكتوب" او "تمييز الصور" مثلاً معاينة صورة ما وتمييز ما إذا كانت الصورة لطفل او قطة.

ولكن في مطلع هذا القرن ظهر نوعا جديد لبرمجة الكمبيوتر مغاير للنوع المعتاد (ملاحظة: موجود منذ مبطي، بس توه يبدا يشتهر ويعطي نتايج على ارض الواقع بسبب كثرة البيانات وتقدم القدرة الحوسبية للكمبيوتر)، بحيث تعتمد هذه الطريقة على برمجة الكمبيوتر بأسلوب يمكنه من التعلم بنفسه و معرفه الأوامر بشكل ذاتي لما يجب له القيام به، بدلاً من ان نقوم بكتابة كافة الأوامر له. هذا النوع من برمجة الكمبيوتر يسمى التعلم الآلي. يعتبر التعلم الآلي فرع رئيسي بل والمحرك الأساسي لما يسمى بالذكاء الأصطناعي.

على الرغم ان التعلم الآلي مازال في أيامه المثمرة الاولى الا انه مكن العلماء من تحقيق إنجازات علمية وتقدم تكنولوجي هائل في مجالات كثيرة كالطب، و .. و .. الخ. وفي المستقبل سيفتح آفاق من التقدم العلمي.

عبدالعزيز الطويان
مانهاتن، نيويورك
2019/06/11


ملاحظة: صديقي القارئ، اولاً شكراً لك على زيارتك. هذي أول محاولة لي في عالم الترجمة. لذلك هي محاولة أولية وبدائية "و غير مكتملة مجرد فصل وربع 😄". اتمنى اسمع رأيك وإقتراحاتك أو أي ملاحظة (مهما كانت) لتحسين الترجمة والمحتوى بشكل عام. من أجل ان تكون ترجمة بقية الكتاب مُوجهة و معتمدة على ملاحظات وتوصيات القراء والمختصين، والهدف هو ان تظهر الترجمة بشكل مناسب للجميع وتؤدي الغرض من غير الإعتماد على أسلوب قد لا يتوافق مع طريقة لغتنا ومفهومنا للأشياء. و شكراً.


مرجع

في هذة الترجمة أستخدمنا المصطلحات التالية:

المصطلح الإنجليزي العربي
dataset حزمة البيانات، مجموعة البيانات
label العلامة، صنف، تصنيف، الفئة
positive label الصنف الإيجابي
negative label الصنف السلبي
sample مثال
labeled sample مثال محدد، مصنف، مثال مُرقم
vector متجه
feature خاصية، ميزة
feature vector متجه الخواص، متجه الميزه
supervised learning التعلم باشراف، التعلم الإرشادي
semi-supervised learning التعليم شبه الخاضع للإشراف
unsupervised learning التعلم دون إشراف، التعلم اللاإرشادي
clustering التجميع، مشكلة التجميع
dimensionality reduction تقليص الأبعاد، خفض الأبعاد
outlier detection كشف المُختلف
reinforcement learning التعلم التعزيزي
state حالة
actions إجراء
environment بيئة
policy سياسة
expected average reward متوسط المكافأة المتوقعة
bag of words كيس من الكلمات
dimension بُعد
Support Vector Machines خوارزمية متجهات الدعم
optimization تحسين
optimization problem مشكلة تحسين
Hyperplane فضاء الأبعاد، الفضاء البعدي
generalization تعميم
minimize تقليل، تقليص
maximize تكبير، حقق الحد الأقصى
statistical model نموذج إحصائي
model نموذج
training تدريب
decision boundary حد القرار
separating line الخط الفاصل
class صنف
noise اللاتماثل، ضوضاء
hyperparameter مقياس
penalty hyperparameters مقاييس جزائية
classification problem مشكلة تصنيف
regression problem مشكلة إرتداد (تحليل الإنحدار)
classification learning algorithm خوارزمية تعلم تصنيفية

الفصل الأول: مقدمة

ماهو تعلم الآلة

التعلم الآلي هو حقل فرعي لعلوم الكمبيوتر يهتم بخوارزميات البناء التي، لتكون مفيدة، تعتمد على مجموعة من الأمثلة لبعض الظواهر. هذه الأمثلة يمكن أن تأتي من الطبيعة، أن يصنعها الإنسان أو يتم إنشاؤها بواسطة خوارزمية أخرى.
يمكن تعريف التعلم الآلي على أنه عملية حل مشكلة عملية بواسطة 1) جمع مجموعة بيانات، و 2) بناء (خوارزمية) نموذج إحصائي يستند إلى مجموعة البيانات هذه. من المفترض أن يتم استخدام هذا النموذج الإحصائي بطريقة ما لحل المشكلة العملية.
في هذا الكتاب سأستخدم مصطلحي "التعلم" و "التعلم الآلي" بالتبادل لنفس الشئ.

أنواع التعلم

التعلم يمكن أن يتم بإشراف (بتوجيه)، شبه إشراف، غير خاضعة للإشراف، و تعزيزي.

التعلم المُوجه (بإشراف)

في التعلم الخاضع للإشراف، حزمة البيانات هي مجموعة من الأمثلة المسماة {(xi,yi)}Ni=1.
كل عنصر xi في N يسمى "متجه الخواص". متجه الخواص هو متجه يكون فيه كل بُعد j = 1 ،. . . ، D يحتوي على قيمة تصف خاصية معينة في المثال البياني بطريقة أو بأخرى. تسمى هذه القيمة ميزة ويتم الإشارة إليها كـ x(j). على سبيل المثال، إذا كان كل مثال x في مجموعتنا يمثل شخصًا، فإن الميزة الأولى، x(1)، قد تحتوي على طول الشخص في سم، ويمكن أن تحتوي الميزة الثانية، x(2)، على الوزن بالكيلوغرام، وهكذا.

بالنسبة لجميع الأمثلة في مجموعة البيانات، الميزة في الموقع j من متجه الخصائص تحتوي دائمًا على نفس النوع من المعلومات. هذا يعني أنه إذا كانت x(1) تحتوي على وزن بالكيلوغرام في بعض الأمثلة x، فإن x(2) ستحتوي أيضًا على وزن بالكيلوغرام في كل مثال xk بحيث k=1,,N.

يمكن أن تكون العلامة yi إما عنصرًا ينتمي إلى مجموعة "فصيلة" محددة من الفئات {1 ، 2 ، ... ، C} ، أو رقم حقيقي ، أو بنية أكثر تعقيدًا ، مثل متوجه أو مصفوفة أو شجرة أو رسم بياني. ما لم يذكر خلاف ذلك، في هذا الكتاب ، yi هي إما واحدة من مجموعة محددة من الفصائل أو رقم حقيقي. يمكنك رؤية الفصيلة كفئة ينتمي إليها المثال البياني. على سبيل المثال، إذا كانت حزمة البيانات هي عبارة عن رسائل بريد إلكتروني و المشكلة هي اكتشاف البريد المزعج (سبام، عادة ايميلات إعلانية وما إلى ذلك)، فسيكون لدينا فئتان لـ y هما: {بريد مزعج ، غير مزعج}.

الهدف من خوارزمية التعلم الخاضعة للإشراف هو استخدام حزمة البيانات لإنتاج نموذج يأخذ متجهات الخصائص "x" كمدخلات ومن ثم يقوم بإخراج المعلومات التي تمكننا من إستنتاج العلاقة بين متجه الخواص و الفئة التابعة له. على سبيل المثال، يمكن أن يأخذ النموذج الذي تم إنشاؤه باستخدام حزمة بيانات الأشخاص كمدخلات متجهية تصف شخصًا ما وينتج احتمالية إصابة الشخص بالسرطان.

التعلم دون إشراف

في التعلم غير الخاضع للإشراف ، حزمة البيانات هي مجموعة من الأمثلة غير المقيدة (أي لا تنتمي إلى فصيلة) {xi}Ni=1. مرة أخرى، x هو متجه الميزة، والهدف من خوارزمية التعلم غير الخاضع للإشراف هو إنشاء نموذج يأخذ متجه الميزة x كمدخل ويحوله إما إلى متجه آخر أو إلى قيمة يمكن استخدامها لحل مشكلة عملية. فعلى سبيل المثال، في مشكلة التجميع، يُرجِع النموذج هوية المجموعة لكل متجه خاص في حزمة البيانات (بمعنى آخر، لأي فصيلة ينتمى المتجه). في مشكلة تقليص الأبعاد، مخرجات النموذج هو متجه يحتوي على خواص أقل من تلك التي في متجه المدخلات x; في مشكلة كشف المُختلف (يعني أي المدخلات غير طبيعي أو يختلف عن المدخلات الأخرى)، مخرجات النموذج هو عدد حقيقي يشير إلى مدى اختلاف x عن مثال ما "نموذجي" في حزمة البيانات.

التعليم شبه الخاضع للإشراف

وفي التعليم شبه الخاضع للإشراف، تحتوي مجموعة البيانات على أمثلة محددة وغير محددة. وعادة ما تكون كمية الأمثلة غير المصنفة أعلى بكثير من عدد الأمثلة المصنفة. هدف خوارزمية التعلم شبه الخاضع للإشراف هو نفس هدف خوارزمية التعلم الخاضعة للإشراف. والأمل هنا هو أن استخدام العديد من الأمثلة غير المحددة يمكن أن يساعد خوارزمية التعلم على إيجاد (قد نقول "بناء" أو "حساب") نموذج أفضل.
ويمكن أن يبدو غير بديهي أن التعلم يمكن أن يستفيد من إضافة المزيد من الأمثلة غير المقيدة. ويبدو أننا نضيف المزيد من عدم اليقين إلى المشكلة. ومع ذلك، عندما تضيف أمثلة غير مرقمة، تضيف المزيد من المعلومات عن مشكلتك: عينة أكبر تعكس بشكل أفضل توزيع الاحتمالية للبيانات التي صنفناها جاءت من. نظرياً، خوارزمية التعلم يجب أن تكون قادرة على الاستفادة من هذه المعلومات الإضافية.

التعلم التعزيزي

تعلم التعزيز هو مجال فرعي للتعلم الآلي حيث "تعيش" الآلة في بيئة وتكون قادرة على تصور حالة تلك البيئة كمتجه من الميزات. يمكن للآلة تنفيذ الإجراءات في كل حالة. الإجراءات المختلفة تؤدي إلى مكافآت مختلفة وقد أيضا تنقل الآلة إلى حالة أخرى في البيئة. الهدف من خوارزمية التعلم التعزيزي هو تعلم سياسة معينة.

السياسة هي دالة (مماثلة للنموذج في التعلم الخاضع للإشراف) تأخذ متجه الميزه لـ حالة معينة كمدخل وتنتج الإجراء الأمثل للتنفيذ في تلك الحالة. سيعتر إجراء ما هو الأمثل إذا ما زاد إلى أقصى حد من متوسط المكافأة المتوقعة.

التعلم التعزيزي يحل نوعا معينا من المشاكل والتي يكون فيها اتخاذ القرار متسلسلاً، والهدف طويل الأجل. مثل لعب الألعاب، أو الروبوتات، أو إدارة الموارد، أو اللوجستيات. في هذا الكتاب، أشدد على اتخاذ القرار ذو الطلقة واحدة حيث تكون أمثلة المدخلات مستقلة عن بعضها البعض وعن التنبؤات في الماضي. أترك التعليم التعزيزي هو خارج نطاق هذا الكتاب.


كيف يعمل التعلم بإشراف (المُوجه)

في هذا القسم، أشرح بإيجاز كيف يعمل التعليم تحت الإشراف من أجل ان تكون لديك الصورة العملية برمتها قبل أن ندخل في التفاصيل. قررت استخدام التعليم تحت الإشراف كمثال لأنه أكثر أنواع تعلم الآلة إستخداماً.
تبدأ عملية التعلم الخاضعة للإشراف بجمع البيانات. والبيانات الخاصة بالتعلم الخاضع للإشراف هي مجموعة من الأزواج (المدخلات و المخرجات). يمكن للمدخلات أن تكون أي شيء، على سبيل المثال: رسائل بريد الإلكتروني، صور، أو القياسات من أجهزة الإستشعار. المخرجات هي عادة أرقام حقيقية، أو علامات (مثل في حالة رسائل البريد: "البريد مزعج"، "البريد غير مزعج"، أو في حالة الصور: "كلب"، "قطة"، الخ). وفي بعض الحالات، تكون المخرجات متجهات (مثلاً، أربع إحداثيات للمستطيل حول شخص في الصورة)، أو تسلسلات (على سبيل المثال: ["أسم" ، "صفة" ، "صفة"] للمدخلات: "سيارة كبيرة جميلة")، أو يكون للمخرجات هيكل آخر.

لنقل أن المشكلة التي نريد حلها باستخدام التعلم بإشراف هي كشف الرسائل المزعجة. وقمنا بجمع البيانات، على سبيل المثال، من 10000 رسالة بريد إلكتروني، كل رسالة مُرقّمة (أو مصنفة) إما "بريد المزعج" أو "غير مزعج" (يمكننا إضافة تلك التسميات يدويا أو إستئجار أحدهم للقيام بذلك). الآن، يجب أن تحول كل رسالة بريد إلكتروني إلى متجه الخواص.

يُقرر محلل البيانات، استنادا إلى خبرته، كيفية تحويل كيان من العالم الحقيقي، مثل رسالة البريد الإلكتروني، إلى متجه الخواص. أحد الطرق المتعارف عليها لتحويل النص إلى متجه خاصية تسمى كيس من الكلمات، هو أن تأخذ قاموس الكلمات العربية (لنفرض أنه يحتوي على 20000 كلمة مرتبة أبجديا) و تنص على أن لدينا في متجه الخواص مثلاً:

كرر الإجراء أعلاه لكل رسالة البريد الإلكتروني في حزمة البيانات، مما يعطينا 10000 متجه خاصيه (كل متجه يحتوي على 20000 بُعد) و التصنيف ("بريد مزعج"، "غير مزعج").

الآن لديك بيانات أمثلة المدخلات كأرقام والتي يمكن قراءتها آلياً، ولكن علامات المخرجات لا تزال في شكل نص مقروء والتى لايمكن للكمبيوتر قراءتها آلياً. بعض خوارزميات التعلم تتطلب تحويل هذه التسميات إلى أرقام. على سبيل المثال، تحتاج بعض الخوارزميات إلى أرقام مثل 0 (لتمثيل الوسم "غير مزعج") و 1 (لتمثيل الصنف "بريد مزعج"). الخوارزمية التي سنستخدمها لتوضيح التعلم الخاضع للإشراف تسمى خوارزمية متجهات الدعم (SVM). تتطلب هذه الخوارزمية أن الصنف الإيجابي (في حالتنا هو "بريد المزعج") لها القيمة العددية من +1 (واحد)، والعلامة السلبية ("غير مزعج") لها قيمة -1 (ناقص واحد).

حتى هذه اللحظة، لديك حزمة بيانات و خوارزمية تعلم، لذلك أنت على استعداد لتطبيق خوارزمية التعلم على مجموعة البيانات للحصول على النموذج.

ترى خوارزمية متجهات الدعم "svm" كل متجه خاصيه كنقطة في فضاء عالي الأبعاد (في حالتنا، أبعاد الفضاء هي 20000 بُعد). تضع الخوارزمية كل متجهات الخاصيه على فضاء تصوري ذو 20000 بُعد وتقوم برسم خطوط متوجهات وهمية للأبعاد الـ 19999 (فضاء الأبعاد) من أجل أن تفصل بين مدخلات الأمثلة الإيجابية و مدخلات الأمثلة السلبية. في مجال التعلم الآلي، يطلق على الحدود الفاصلة بين أمثلة الفئات المختلفة حدود القرار.
معادلة فضاء الأبعاد تُعرف عن طريق متغيرين، المتجه w والذي يحتوي على نفس عدد الأبعاد الموجودة في متجه الخاصية للمدخلات x و عدد حقيقي b كما يلي:

wxb=0

بحيث أن التعبير wx يعني:

w(1)x(2)+w(2)x(2)+...+w(D)x(D)

وD هو عدد الأبعاد في متجه الخواص x.

(إذا كانت بعض المعادلات غير واضحة بالنسبة لك الآن ، في الفصل الثاني نعيد النظر في الرياضيات والمفاهيم الإحصائية اللازمة لفهم مثل هذه المعادلات. في هذا الفصل، حاول فهم المنظور العام. كل شيء يصبح أكثر وضوحا بعد أن تقرأ الفصل التالي).

الآن ، الفئة المتوقعة لبعض المدخلات لـ متجه الخاصية x تعطى بالعلاقة التالية:

y=sign(wxb)

بحيث ان sign هو معامل رياضي يأخذ أي قيمة كمدخل، ويعيد +1 إذا كان المدخل رقم موجب أو 1 اذا كان المدخل رقم سالب.

الهدف من خوارزمية التعلم — SVM في هذه الحالة — هو الاستفادة من حزمة البيانات للعثور على القيم المثلى w و b للمتغيرات w و b. بعد أن تقوم الخوارزمية بإيجاد هذه القيم المُثلى، يتم تعريف النموذج f(x)
كما يلي:

f(x)=sign(wxb)

وبالتالي للتنبؤ بما إذا كانت رسالة البريد الإلكترونية مزعجة أو غير مزعجة باستخدام خوارزمية SVM، عليك أن تأخذ نص الرسالة وتحوله إلى متجه خواص، ثم ضرب هذا المتجه بـ w واطرح b، و بعدها خذ علامه الحاصل من النتيجة. وهذا سيعطينا التنبؤات (+1 تعني " الرسائل المزعجة "-1 تعني"الرسائل الغير مزعجة").

الآن، كيف يمكن إيجاد w و b ؟ سيقوم الكمبيوتر بحل مايسمى بمشكلة التحسين (وهي طريقة رياضية لمعرفة افضل الحلول لمعادلة أو دالة ما). الكمبيوتر جيد لحل دوال التحسين تحت قيود معينة.

إذا ما هي القيود التي يجب مراعاتها؟ أولا وقبل كل شيء، نريد أن يتنبأ النموذج بالتصنيف لكل من الأمثلة الـ 10000 التي لدينا بشكل صحيح. تذكر أن كل مثال i = 1،. . . ، 10000 يعطى في زوج xi,yi، حيث xi هو متجه الخاصيه للمثال i و yi هو صنفه الذي يأخذ القيم إما -1 أو +1. لذلك فإن القيود هي بطبيعة الحال:

wxib+1wxib1 if yi=+1 if yi=1

ونُفضّل أيضا أن يفصل الفضاء البُعدي بين الأمثلة الإيجابية والأمثلة السلبية ذات الهامش الأكبر. والهامش هو المسافة بين الأمثلة الأقرب لفئتين، كما هو محدد بـ حد القرار. الهامش الكبير يُسهم في تعميم أفضل لأمثلة لاحقة، وهذا هو معيار نجاح النموذج في تصنيف أمثلة جديدة في المستقبل.
من أجل تحقيق ذلك، نحتاج إلى تقليل المعيار الإقليدي (معيار المسافة) لـ w والذي يعطى بالعلاقة Dj=1(w(j))2

لذلك، فـ مشكلة التحسين التي نرغب من الآلة أن تتعلم كيف تحلها ستبدو كالتالي:

قلص w في العلاقة yi(wxib)1 بحيث i=1,,N

التعبير yi(wxib)1 هو مجرد تعبير مختصر لكتابة القيود الأثنين المذكورين في الأعلى.

الحل لـ مشكلة التحسين هذه، والمعطاة بكلاً من w و b، يسمى نموذج إحصائي، أو ببساطة، النموذج. وتسمى عملية بناء النموذج بـ التدريب.

مثال لنموذج خوارزمية متجهات الدعم مع متجهات الخواص ذات البعدين

وفيما لو كانت متجهات الخواص تحتوي على بعدين مثلاً، فأنه يمكننا تصور المشكلة والحل على النحو المبين في الشكل 1. بحيث تمثل الدوائر الزرقاء والبرتقالية، الأمثلة الإيجابية و السلبية على التوالي، والخط المُعطى بـ wxb=0 هو حد القرار.

أحدهم قد يسأل: لماذا، عندما نقوم بتقليل معيار w، فأننا نحصل على أعلى هامش بين الصنفين؟
هندسيا، المعادلات wxb=1 و wxb=1 تحدد فضائين متوازيين، كما نرى في الشكل 1. المسافة بين هذين الفضائين تعطى بالعلاقة 2w، لذلك كلما قل المعيار w، كلما أصبحت المسافة بين هذي الفضائين اكبر.

وهذه هي طريقة عمل خوارزمية متجهات الدعم. هذه النسخة من الخوارزمية تقوم ببناء ما يسمى بـ النموذج الخطي. ويسمى خطي لأن حد القرار هو خط مستقيم (أو فضاء بعدي فاصل). يمكن لـ SVM أيضاً دمج مايسمى بالـ kernels والتي يمكن أن تجعل حدود القرار غير خطية (أي خطوط ملتوية). لأنه في بعض الحالات يكون من المستحيل تماماً الفصل بين مجموعتين من النقاط بسبب الضوضاء في البيانات. كـ أخطاء في ترقيم الأمثلة، أو القيم المتطرفة (بمعنى أمثلة مختلفة جدا من الأمثلة "النموذجية" على سبيل المثال في حزمة البيانات).
يمكن لنوع آخر من خوارزميةالـ SVM دمج مايسمى بالـ مقاييس جزائية لماقبة أخطاء تصنيف الأمثلة. أي عندما يتم تصنيف مثال من البيانات مع الصنف الخطأ. في الفصل الثالث من هذ الكتاب، سنقوم بدراسة خوارزمية الـ SVM بشكل مُفصّل.

إلى هذه اللحظة، يجب عليك الاحتفاظ بما يلي:

أي خوارزمية تعلم تصنيفية والتي تبني نموذج بشكل صريح أو ضمني، تقوم بإنشاء حد القرار. حدود القرار يمكن أن تكون مستقيمة أو منحنية، أو يمكن أن تكون بشكل معقد، أو يمكن أن تكون تراكب لبعض الأشكال الهندسية. ويحدد شكل حد القرار دقة النموذج (أي نسبة الأمثلة التي يمكن التنبؤ بتصنيفاتها بشكل صحيح). شكل حدود القرار، و الطريقة التي يتم بها حسابها خوارزمياً أو حسابيا على أساس بيانات التدريب، تُميّز خوارزمية تعلم عن أخرى.

ومن الناحية العملية، هناك نوعان من المفارقات الأساسية الأخرى لخوارزميات التعلم التي يتعين النظر فيها: سرعة بناء النموذج و وقت معالجة التنبؤ. في العديد من الحالات العملية، قد تجد نفسك تُفضّل خوارزمية التعلم التي تبني نموذج أقل دقة ولكن بسرعة (بالمقارنة مع الخوارزمية التي تبني نموذج أكثر دقة ولكن عملية البناء تأخذ وقت أطول). بالإضافة إلى ذلك، قد تفضل نموذج أقل دقة ولكن يكون أسرع بكثير في إستخراج التنبؤات (بالمقارنة مع نموذج أدق ولكن بطئ في إستخراج التنبؤات).

لماذا يعمل "ينجح" النموذج على بيانات جديدة

لماذا يمكن لنموذج تم تعلّمُه آليا التنبؤ بشكل صحيح بعلامات (أصناف) أمثلة البيانات الجديدة، أي أمثلة لم يراها النموذج من قبل؟ لفهم ذلك، انظر إلى الرسم البياني في الشكل 1، إذا كان من الممكن فصل الفئتين عن بعضهما البعض بـ حدود القرار، فمن الواضح أن الأمثلة التي تنتمي إلى كل فئة تقع في مجالين فرعيين مختلفين تنشئهما حدود القرار.

وإذا اخُتيرت الأمثلة المستخدمة في تدريب النموذج عشوائيا، وبشكل مستقل عن بعضها البعض، واتبعت نفس الإجراء ، فمن الأرجح ، من الناحية الإحصائية، أن يكون المثال السلبي الجديد موجودا في مكان ما ليس بعيدا جدا عن الأمثلة السلبية الأخرى. والأمر نفسه يتعلق بالمثال الإيجابي الجديد: فمن المرجح أن يأتي من محيط أمثلة إيجابية أخرى. وفي هذه الحالة، ستظل حدود قرارنا، مع احتمال كبير، تفصل بين الأمثلة الإيجابية والسلبية الجديدة عن بعضها البعض. في حالات أخرى أقل احتمالا، فإن نموذجنا سيرتكب أخطاء، ولكن لأن هذه الحالات أقل احتمالاً، فمن المرجح أن يكون عدد الأخطاء أقل من عدد التنبؤات الصحيحة.

بشكل بديهي، كلما كانت مجموعة البيانات في أمثلة التدريب أكبر، كلما كان من غير المرجح أن الأمثلة الجديدة سوف تكون مختلفة عن الأمثلة المستخدمة للتدريب.

وللتقليل إلى أدنى حد من احتمال ارتكاب أخطاء على أمثلة جديدة ، تحاول خوارزمية SVM، عن طريق البحث عن أكبر هامش، ان ترسم حدود القرار بطريقة تجعلها بعيدة قدرالإمكان عن الأمثلة من كلا الصفين.

القارئ الذي يرغب في معرفة المزيد عن قدرة التعلم و فهم العلاقة الوثيقة بين: أخطاء النموذج، حجم مجموعة التدريب، شكل المعادلة الرياضية التي تحدد النموذج، و الوقت الذي يستغرقه بناء النموذج، يمكنه القراء أكثر عن PAC learning أو بالعربي نظرية تعلم "على الأرجح صحيح تقريباً". تساعد هذه النظرية على تحليل ما إذا كانت خوارزمية التعلم وتحت أي ظروف ستنتج تصنيفا صحيحاً تقريبياً.

تنبيه عن التزوير (ملاحظة المؤلف)

حتى أبريل 2019 ، الإنترنت ملئ بالنسخ المزيفة من كتابي هذا، بما في ذلك النسخ المطبوعة. لتجنب شراء النسخ المزيفة، أوصي بالذهاب إلى رابط موقع الكتاب themlbook.com. إذا كنت ستشتري من أمازون مباشرة، يجب التأكد والذهاب إلى موقع أمازون الرسمي وليس عن طرف ثالث.

الفصل الثاني: تعابير رياضية و تعريفات

تعابير رياضية

دعونا نبدأ هذا الفصل بالعودة إلى إيام الدراسة والتعابير الرياضية التي تعلمناها جميعاً في المدرسة، والتي قد يكون بعضنا قد نسيها.

هياكل "تراكيب" البيانات

العدد هو تعريف لأي قيمة رقمية بسيطة، كـ -10 او 3.25. المتغيرات أو الثوابت التي تأخذ قيم عددية سنرمز لها في هذا الكتاب بحرف إنجليزي صغير مائل، مثل x او a.

المتجه هو قائمة مرتبة من القيم العددية، تسمى الخصائص. سنرمز للمتجه بحرف إنجليزي، مثلاً x أو w. يكمن تمثيل المتجهات بيانياً كـ أسهم تشير إلى إتجاهات معينة، ويمكن أيضاً تمثيلها كنقاط في فضاء متعدد الإبعاد.

في الشكل 1 نرى أمثلة توضيحية لثلاثة متجهات ثنائية الأبعاد، a=[2,3]، b[2,5]، و c=[1,0].

سنرمز لكل خاصية في متجه ما بحرف إنجليزي صغير ومائل كـ w(j) أو x(j). الدليل j يشير إلى بعد معين في المتجه (يعني رقم معين من أرقام المتجه). مثلاً، في المتجه a الظاهر في الشكل 1 a(1)=2 و a(2)=3.