জ্ঞান কোডিং না করে কীভাবে একটি মেশিন লার্নিং মডেল তৈরি করবেন

পরিচালককে এআই-কে নির্মূল করার গাইড - পার্ট 2

লিটল অ্যান্টন তার বাবা-মায়ের সাথে ইতালিতে গ্রীষ্মের ছুটিতে ছিলেন। যতবারই তিনি আইসক্রিম কিনতে চেয়েছিলেন, ইতালীয় ভাষায় কথা না বলে তাকে তার বাবা-মায়ের কাছে সাহায্য চাইতে হয়েছিল। আন্তোন ইটালিয়ান শিখার সিদ্ধান্ত নিয়েছে। পরের বছর তিনি যখন আবার ইতালিতে ছুটিতে ছিলেন, যখনই তিনি চান তখন নিজেই আইসক্রিম কিনতে পেরেছিলেন। অ্যান্টন তার ভাষা দক্ষতার কারণে মুক্ত ছিল। পড়াশোনা আপনাকে নিখরচায় করে তোলে ... (ব্রিগেট ল্যাব্বির বাচ্চাদের দর্শনের বইয়ের সিরিজ "লেস গোয়েটারস ফিলো" থেকে গল্প)

আনস্প্ল্যাশে শ্যারন ম্যাকক্যাচনের ছবি

আমি যখন আমার প্রথম মেশিন লার্নিং (এমএল) মডেলটি তৈরি করলাম তখন আপনি ঠিক এমনটাই অনুভব করেছিলেন। আমি আমার নতুন শিখেছি দক্ষতার কারণে "এআই" ছিলাম, এআই ব্যবসায়ের কেসগুলি সহজ, দ্রুত এবং আগের তুলনায় আরও ভাল গভীরতার সাথে মূল্যায়ন করতে সক্ষম হয়েছি।

একটি এমএল মডেল তৈরি করা এই ব্লগপোস্ট সম্পর্কে যা রয়েছে। এটি সিরিজের "পার্টির 2 অংশ" এআইকে নির্মূল করার জন্য পরিচালক "।

সিরিজটি 3 টি অংশ নিয়ে গঠিত:

  1. একটি এআই মডেল বিকাশের সাথে জড়িত পদক্ষেপগুলি বুঝতে (পার্ট 1)
  2. গুগল অটোমেল ব্যবহার করে আপনার নিজস্ব এআই প্রোটোটাইপ তৈরি করুন (পার্ট 2)
  3. পক্ষপাত এড়িয়ে সঠিক এআই মডেল তৈরি করা (পার্ট 3)

গুগল অটোএমএল ব্যবহার করে আপনার নিজস্ব এআই প্রোটোটাইপ তৈরি করুন

আপনার এমএল মডেলটি তৈরি করা শুরু করতে, আপনাকে প্রস্তুত করতে হবে:

  1. একটি সঠিক লেবেলযুক্ত ডেটাসেট - এই উদাহরণে আমরা সর্বজনীনভাবে উপলব্ধ ডেটাसेट ব্যবহার করব
  2. একটি অটোএমএল প্ল্যাটফর্মে নিবন্ধকরণ - এই উদাহরণে আমরা গুগল অটোএমএল ব্যবহার করব

দয়া করে নোট করুন: গুগল অটোএমএল এখনও বিটা সংস্করণে রয়েছে তাই আপনি বিনামূল্যে 300 ডলার ক্রেডিট পাবেন যা কেবল প্ল্যাটফর্মটি চেষ্টা করার জন্য একটি দুর্দান্ত সুযোগ। ক্রেডিটগুলি খুব দ্রুত চালিত হওয়ার সাথে সাথে সাবধানতা অবলম্বন করুন - যদিও আপনি আপনার অ্যাকাউন্টটি সুস্পষ্টভাবে আপগ্রেড না করলে আপনাকে বিল দেওয়া হবে না।

আমরা যে ব্যবসায়ের কেসটি দেখব তা নিম্নরূপ:

বিভিন্ন রোগীর বুকের এক্স-রে চিত্র রয়েছে। চিত্রগুলি রোগীদের ফুসফুস দেখায়, আংশিক স্বাস্থ্যকর (স্বাভাবিক) এবং আংশিকভাবে নিউমোনিয়ার লক্ষণগুলি দেখায় (ফুসফুসে এক ধরণের রোগ)। আমরা চাই যে কোনও নির্দিষ্ট এক্স-রে চিত্র নিউমোনিয়ার লক্ষণগুলি দেখাচ্ছে কিনা তা মেশিনটি ভবিষ্যদ্বাণী করবে।

এই পদক্ষেপগুলি অনুসরণ করা হয়:

  1. মডেল প্রশিক্ষণ
  2. মূল্যনির্ধারণ
  3. ভবিষ্যদ্বাণী বা "পরীক্ষা ও ব্যবহার"
  4. মডেল প্রশিক্ষণ

ডেটাসেট তৈরি, ডেটা লেবেলিং

এমএল মডেলকে প্রশিক্ষণ দেওয়া হ'ল বিভিন্ন চিত্র কী দেখায় যাতে এটি প্রয়োজনীয় পূর্বাভাস দেয়। আপনার এমএল মডেলটি প্রশিক্ষণের জন্য আপনাকে প্ল্যাটফর্মে উত্স ডেটাসেটগুলি আপলোড করতে হবে।

কেগল চেস্ট এক্স-রে ডেটাসেটকে

এই ডেটাসেটগুলি একবার আপলোড করা হয়েছে, সাধারণ এক্স-রেয়ের তুলনায় নিউমোনিয়ায় একটি এক্স-রে কী তা মেশিনটি শেখাতে ব্যবহার করা হয়। ডেটাসেট হিসাবে, এই উদাহরণে আমরা কাগগলে উপলভ্য চিত্রগুলি ব্যবহার করব। (ক্যাগল হ'ল ডেটা বিজ্ঞানী এবং মেশিন লার্নারদের একটি অনলাইন সম্প্রদায় যেখানে আপনি আপনার এমএল পরীক্ষার জন্য ডেটা সেট খুঁজে পেতে পারেন)।

মেশিন লার্নিংয়ে, লেবেলযুক্ত (বা টীকায়িত) ডেটা মানে আপনার ডেটা মডেলটি যা শিখতে হবে তা শেখাতে সক্ষম। এই শিক্ষার ফলস্বরূপ, আপনার মেশিন লার্নিং মডেল আপনার প্রশ্নের উত্তরের পূর্বাভাস দিতে পারে - যেমন "এই এক্স-রে নিউমোনিয়ার লক্ষণগুলি দেখায়?"। এই উদাহরণে, লেবেলযুক্ত ডেটা এমন ডেটা যা "সাধারণ" বা "নিউমোনিয়া" হিসাবে শ্রেণিবদ্ধ করা হয়। এই ডেটাসেট তৈরির প্রক্রিয়াটিকে "ডেটা টিকা" বা "ডেটা লেবেলিং" বলা হয়। লেবেলযুক্ত ডেটাসেটে, যেমন আপনি উপরে দেখছেন, প্রতিটি স্বতন্ত্র চিত্রের নামগুলি "নিউমোনিয়া" বা "সাধারণ" হিসাবে লেবেল করা প্রয়োজন হয় না। চিত্রগুলি সেই অনুযায়ী শ্রেণিবদ্ধ করা হলে - সম্পর্কিত ফোল্ডারে রেখে দেওয়া যথেষ্ট।

নীচে একটি উদাহরণ চিত্র দেওয়া হয়েছে যা এমএল মডেলটি প্রশিক্ষণের জন্য উত্স ডেটাসেটে অন্তর্ভুক্ত রয়েছে। এটি একটি "সাধারণ" বুকের এক্স-রে এর চিত্র। আপনি দেখতে যেমন এটি পরিষ্কার, মেঘলা বা অস্বচ্ছ জায়গা ছাড়াই।

অন্যদিকে, নিউমোনিয়া রোগীর বুকের এক্স-রে অস্পষ্ট, অস্বচ্ছ এবং মেঘলাচ্ছন্ন অঞ্চলগুলি দেখায়। এটি উত্স ডেটাসেটের একটি উদাহরণ চিত্র "নিউমোনিয়া"।

নিউমোনিয়া রোগীর বুকের এক্স-রে,

এই ডেটাসেটগুলি পরীক্ষা করে, মডেলটি শিখছে যে কোনও সাধারণ বুকের এক্স-রে কীভাবে বনাম নিউমোনিয়ার বুক এক্স-রে এর মতো দেখায়। মডেলটি যত বেশি চিত্র সরবরাহ করে, তত ভাল the

আমরা গুগল অটোএমএল প্ল্যাটফর্মে দুটি ফোল্ডার (সাধারণ / নিউমোনিয়া) সঠিক লেবেলিং সহ আপলোড করি। বিভিন্ন ফোল্ডারগুলি একবারে জিপ করে আপলোড করা দরকার।

ডেটা আপলোড হওয়ার পরে এটি এটি দেখতে পাবেন

ডেটাসেট প্রস্তুত সম্পর্কে টিপস:

আপনি যখন ডেটাসেট আপলোড করবেন তখন এটি গুরুত্বপূর্ণ যে:

  • ডেটা ভারসাম্যযুক্ত: ডেটাতে সাধারণ এবং নিউমোনিয়া ফুসফুসের বিভিন্ন ধরণের এক্স-রে অন্তর্ভুক্ত করা উচিত (বিভিন্ন বিভাগ)। ভারসাম্যহীন ডেটাসেট এমএল মডেলের ভুল পূর্বাভাস দিতে পারে।
  • তথ্যগুলি সঠিকভাবে লেবেলযুক্ত: কেবলমাত্র স্বাস্থ্যকর ফুসফুসগুলি স্বাস্থ্যকর ফোল্ডারে এবং কেবলমাত্র নিউমোনিয়া ফুসফুসগুলি নিউমোনিয়া ফোল্ডারে থাকে। এগুলি মিশ্রণ এমএল মডেলের ভুল ভবিষ্যদ্বাণী হতে পারে।

দয়া করে নোট করুন: একটি পরিষ্কার, ভারসাম্যযুক্ত ডেটাসেট, এটি বড় না হলেও, আরও সুনির্দিষ্ট ভবিষ্যদ্বাণী নিয়ে যাবে এবং বড় এবং অশুচি / ভারসাম্যহীন ডেটাসেটের চেয়ে কম ব্যয় হবে।

আপনার নির্দিষ্ট ব্যবহারের ক্ষেত্রে ইতিমধ্যে লেবেলযুক্ত পর্যাপ্ত ডেটা পাওয়া সর্বদা সম্ভব নয়। এক্ষেত্রে আপনি কোনও ডেটা টীকা সংস্থার সন্ধান করতে পারেন যিনি আপনাকে এই টাস্কটি সমর্থন করতে পারেন। এই ধরণের কাজ, ভারত বা ফিলিপিন্সের মতো স্বল্প ব্যয়ের দেশগুলিতে ভিড় সত্ত্বেও, এখনও মেশিন লার্নিংয়ে সর্বাধিক ব্যয়ের আইটেমগুলির মধ্যে একটি তৈরি করে। আমি একটি পৃথক ব্লগে ডেটা টীকাগুলির বিশদে যাব। আপাতত, ধরে নেওয়া যাক আপনার হাতে ডেটা আপলোডের জন্য প্রস্তুত।

দয়া করে নোট করুন: এমএল অ্যালগরিদমের পক্ষপাত নেই যে প্রয়োজনীয় চেকগুলি করা অত্যন্ত গুরুত্বপূর্ণ। এটি একটি উদ্দেশ্য এবং সুনির্দিষ্ট পূর্বাভাস নিশ্চিত করবে। আমরা এই বিষয়টি পরবর্তী ব্লগপোস্টে বিস্তারিতভাবে দেখব।

লেবেলযুক্ত ডেটা আপলোড করা হচ্ছে

আপনি যখন ডেটা আপলোড করবেন, প্ল্যাটফর্মটি বৈধতা এবং পরীক্ষার উদ্দেশ্যে ডেটা অংশ ব্যবহার করবে, যখন বেশিরভাগ প্রশিক্ষণের জন্য নেওয়া হবে। বৈধতা এবং পরীক্ষার ডেটা আপনাকে মূল্যায়নের পর্বে মডেলের দৃust়তা মূল্যায়নে সহায়তা করবে (আমরা এটি পরে ফিরে আসব)।

আপনি ডেটা আপলোড করার পরে, "প্রশিক্ষণ শুরু করুন" টিপুন। আপনি এখন ফিরে বসে শিথিল করতে পারেন। মডেলটি প্রশিক্ষিত হতে বেশ কয়েক ঘন্টা সময় লাগবে। এই প্রক্রিয়াটি সম্পূর্ণ হলে, আপনাকে মেল দ্বারা অবহিত করা হবে।

দয়া করে নোট করুন: আপনার মডেলের নামটি একটি চিঠি দিয়ে শুরু করা উচিত। যদি এটি কোনও সংখ্যার সাথে শুরু হয় তবে বিটা প্ল্যাটফর্মের বর্তমান বাগের কারণে "শুরু করুন প্রশিক্ষণ" বোতামটি উপরের মতো অক্ষম হয়ে যায়।

2. মূল্যায়ন

মূল্যায়ন হ'ল সেই অংশটি যেখানে আপনি বুঝতে পারছেন যে এটি কতটা সম্ভব যে মডেলটি স্থাপনের পরে এটি সঠিক ভবিষ্যদ্বাণী করবে। আপনি এটি নির্ভুলতা এবং পুনর্বিবেচনার হারগুলিতে দেখতে পারেন।

যথার্থতা নির্ভুলতা দেখায়, ইতিবাচক পূর্বাভাসগুলির অনুপাতটি আসলে সঠিক ছিল। অর্থ, যদি মডেলটি 10 ​​টি চিত্রকে নিউমোনিয়া হিসাবে পূর্বাভাস দেয়, যার 8 টি প্রকৃতপক্ষে নিউমোনিয়া হয় তবে যথার্থ হারটি 0.8 বা 80% (8-10)। নির্ভুলতা পূর্বাভাসের যথার্থতা পরিমাপ করার সময়, এটি সম্পূর্ণ চিত্র সরবরাহ করে না, মোট প্রকৃত নিউমোনিয়ার তথ্যগুলির কতটা সঠিকভাবে পূর্বাভাস দেওয়া হয়েছিল।

পূর্বাবস্থায় সম্পূর্ণ আসল ডেটাসেটে পূর্বাভাসগুলির প্রাসঙ্গিকতা যুক্ত করে পুনর্বিবেচনা নির্ভুলতার চিত্র সম্পূর্ণ করে। "প্রকৃত ধনাত্মকগুলির অনুপাতটি সঠিকভাবে কতটা অনুমান করা হয়েছিল?" অর্থ, যদি মডেলটি নিউমোনিয়ার 8 টি সঠিক পূর্বাভাস দেয় তবে বাস্তবে 12 টি নিউমোনিয়া এক্স-রে হত, পুনর্বিবেচনার হার 0,67 বা 67% (8/12) হবে।

দয়া করে নোট করুন: যথার্থতা এবং পুনরুদ্ধার হারগুলি নিকটবর্তী হওয়ার সাথে সাথে এমএল মডেলের ভবিষ্যদ্বাণীগুলি সঠিক হওয়ার সম্ভাবনা তত বেশি।

আপনি যদি আপনার প্রশিক্ষিত মডেলটির যথার্থতা এবং পুনর্বিবেচনা হারগুলি (যেমন <90%) দিয়ে সন্তুষ্ট না হন তবে আপনার ফিরে যাওয়া উচিত এবং সংশোধিত ডেটাসেট দিয়ে মডেলটি পুনরায় প্রশিক্ষণ করা উচিত।

আপনার যথার্থতা বাড়াতে এবং হারগুলি পুনরুদ্ধার করার জন্য, আপনি জিজ্ঞাসা করতে পারেন এমন কয়েকটি উদাহরণ প্রশ্ন হ'ল:

  • বিভিন্ন লেবেলের ডেটা কি ভারসাম্যযুক্ত?
  • ডেটা কি সঠিকভাবে লেবেলযুক্ত?
  • প্রশিক্ষণের জন্য সরবরাহ করা তথ্যের পরিমাণ কি যথেষ্ট?

আপনার গ্রহণযোগ্য যথার্থতা এবং রিকাল রেট না হওয়া পর্যন্ত আপনার এই প্রক্রিয়াটি পুনরাবৃত্তি করা উচিত। আপনার মডেলটির জন্য যথাযথতা এবং রিক্যাল রেটের গ্রহণযোগ্যতা স্তরটি আপনার ব্যবহারের ক্ষেত্রে খুব বেশি নির্ভর করবে: সিদ্ধান্তের প্রভাব, মডেলটির স্বায়ত্তশাসনের যে স্তর রয়েছে, বাস্তবায়নের আগে ফলাফলগুলি কোনও মানুষ দ্বারা স্ক্রিন করা হবে কিনা, তার জটিলতা ডেটাসেট এবং ভবিষ্যদ্বাণীগুলির অসুবিধা ইত্যাদি

একবার আপনি আপনার মডেলের মূল্যায়ন ফলাফলের সাথে সন্তুষ্ট হয়ে গেলে আপনি ভবিষ্যদ্বাণী বা "পরীক্ষা ও ব্যবহার" -এ আরও এগিয়ে যেতে পারেন।

৩. ভবিষ্যদ্বাণী বা "পরীক্ষা ও ব্যবহার"

এখন আপনি আপনার মডেলকে প্রশিক্ষণ দিয়েছেন, এখন সময় এসেছে মডেলটি আপনার জন্য কাজ করে। তবে এটি করার আগে, আপনি যেখানে লেবেলগুলি জানেন সেখানে একটি ডেটাসেট আপলোড করে একটি চূড়ান্ত পরীক্ষা করতে পারেন, এমএল মডেলটিকে ভবিষ্যদ্বাণী করা এবং ভবিষ্যদ্বাণীগুলির যথার্থতা পরীক্ষা করতে দেওয়া উচিত।

মনোযোগ: আপনি এই পর্যায়ে যে ডেটাসেটটি আপলোড করেন তা আগের আপলোড করা প্রশিক্ষণের ডেটা থেকে আলাদা হওয়া উচিত।

আপনি যদি ভবিষ্যদ্বাণীগুলির নির্ভুলতা নিয়ে খুশি হন তবে আপনি যে ডেটাটিকে শ্রেণিবদ্ধ করা দরকার তা আপলোড করতে পারেন এবং ফলাফলগুলি পেতে পারেন।

অটোএমএল কখন ব্যবহার করবেন

অটোএমএল এর মতো ক্ষেত্রে কাজ করে যেখানে ডেটা স্পষ্টভাবে লেবেলযুক্ত (সাধারণ / নিউমোনিয়া)। মেশিন লার্নিংয়ের এই পদ্ধতিকে বলা হয় "তদারকি করা"।

তত্ত্বাবধানে শেখার ক্ষেত্রে, আপনি বিভিন্ন লেবেলের বিভিন্ন উদাহরণ দেখিয়ে বিভিন্ন বিভাগে মডেলটিকে প্রশিক্ষণ দিন। মডেলটি থেকে শিখতে বিভিন্ন ডেটাসেটের নির্দিষ্ট বিবরণ সরবরাহ করা হয় না। এটি কেবলমাত্র দেওয়া বিভাগগুলিতে চিত্রের ধরণগুলি সনাক্ত করেই শিখছে।

বুকের এক্স-রে উদাহরণে আমরা কম্পিউটার ভিশন (সিভি) ব্যবহার করেছি, চিত্রগুলির সাথে কাজ করছি তবে পাঠ্য নিয়ে কাজ করে অটোএমএলকে প্রাকৃতিক ভাষা প্রসেসিং (এনএলপি) প্রয়োগ করা যেতে পারে।

উপসংহার

এই ব্লগপোস্টে আমি আপনাকে একটি নতুন দক্ষতা অর্জনে সহায়তা করার চেষ্টা করেছি, যা অটোএমএল ব্যবহার করে আপনার নিজের এমএল মডেল তৈরি করছে। যদি আপনি তত্ত্বাবধানে পড়াশোনা এবং একটি সাধারণ ব্যবহারের ক্ষেত্রে ব্যবহার করার পরিকল্পনা করেন তবে এটি আপনার পক্ষেও সঠিক মডেল হতে পারে।

এক্স-রেসের ক্ষেত্রে, অটোএমএল মডেলটি বেশ ভাল কাজ করেছে। প্রতি লেবেলে 100 টি চিত্রের একটি ছোট্ট ডেটাসেটের পরে আমি নির্ভুলতা পেতে এবং 90% এর উপরে রেটগুলি স্মরণ করতে সক্ষম হয়েছি। গুগলের মতে এটি সর্বনিম্ন ন্যূনতম এবং প্রস্তাবিত পরিমাণটি প্রতি লেবেল 1000 এর উপরে above

গুগল ছাড়াও, মাইক্রোসফ্ট অ্যাজুরি অটোমেটেড এমএল বা অ্যামাজন সেজমেকার অটোপাইলটের মতো অন্যান্য অটোমেল সরবরাহকারীও রয়েছে।

এই ব্লগপোস্টটি "এআই-কে নির্মূল করার পরিচালকের গাইড" সিরিজের অংশ 2। পার্ট 1 এখানে পাওয়া যাবে। পার্ট 3, এআই সুরক্ষা অন প্রাইমার, আপনি এখানে পড়তে পারেন।