Palestra - CEUB/GDG Brasília - Apresentações sobre Inteligência Artificial e Ciência de Dados
14 Jun 2024
Reading time ~2 minutes
Esta gravação junta duas conversas diferentes, mas bem complementares, do meetup organizado pelo GDG Brasília em parceria com o CEUB. A primeira metade é a minha introdução a alinhamento de LLMs: o que significa fazer um modelo responder do jeito que você quer, quais os principais riscos de segurança e de viés, e que famílias de técnica existem hoje para tentar lidar com isso. A segunda metade, com Gabriel Lima Gomes, muda completamente de registro e entra no mercado de trabalho em dados: promessas exageradas, ferramentas, exigências reais e o tipo de filtro que alguém começando na área precisa aprender a fazer.
Capítulos por assunto
- 00:00 Abertura do evento, recados e certificados
- 08:11 Apresentacao do Breno e calibragem da audiencia
- 13:46 O que e alinhamento e por que resposta certa nao basta
- 15:04 Jailbreaks, seguranca e respostas fora do objetivo
- 24:54 Fine-tuning, instruction tuning e representation engineering
- 38:55 Guardrails, avaliacao e RLHF
- 01:04:33 Transicao para ciencia de dados e perguntas do publico
- 01:18:55 Hype cycle, mercado e o que empresas realmente contratam
- 01:34:49 Ferramentas, formacao e como fugir do coach dos dados
O vídeo reúne as duas apresentações da noite:
Alinhamento de LLMs: o que é e principais técnicas, comBreno BritoO que NÃO te falam sobre ciência de dados! Mitos e fatos sobre a área, comGabriel Lima Gomes
Na minha parte, a ideia é dar um mapa do terreno sem fingir que 30 minutos resolvem o assunto. Eu passo por prompt engineering, prompt learning, fine-tuning, instruction tuning, representation engineering, sparse autoencoders, guardrails, human in the loop e RLHF, sempre conectando essas técnicas a um problema concreto: vazamento de informação, respostas perigosas, comportamento inconsistente, ou vieses que saem da fase de treinamento e reaparecem na interface final.
A segunda fala deixa essa página melhor do que um simples embed porque traz um contraponto muito pé no chão. Em vez de repetir a fantasia de “área fácil, salário instantâneo e mil ferramentas obrigatórias”, o Gabriel discute o que costuma ser realmente cobrado, por que Python e SQL continuam centrais, como o mercado ficou mais exigente e como separar conhecimento importante de marketing de curso.
Transcription (experimental)
Fonte: YouTube
- 01:42 SPEAKER_01 É o segundo que a gente está realizando.
- 02:02 SPEAKER_01 Chat GPT, Juminae and other, Facebook, etc.
- 02:09 SPEAKER_01 And a little bit of science of data to car.
- 02:15 SPEAKER_01 But in a moment we talk a little bit about details.
- 02:19 SPEAKER_01 So I think I'm presenting.
- 02:29 SPEAKER_01 One is the GDG, which is a group appeared by the Google, the community appeared by the Google, and the other is the PyData Brazilian, which is appealed by Py Data, and the objective of those are more, which is professional and students or curiosity, and the area.
- 03:04 SPEAKER_01 No, the idea is cloud, the idea of programming, the idea of intelligence artificial, front end, backend, design, and etc.
- 03:16 SPEAKER_01 So generic.
- 03:36 SPEAKER_01 So we can be restritten to this, but a little bit more focused.
- 03:42 SPEAKER_01 And this objective to this to information, with you in a special for student, for who is curious to say about the area, to obtain conversation.
- 04:01 SPEAKER_01 O que I think, what a área tale faz, what acontecendo in the mercado, que é muito, andar in dados, what I'm gonna do.
- 04:12 SPEAKER_01 So ajudar the world, and principally for quite not ainda, trocar esse contato with pessoas que já are the area.
- 04:22 SPEAKER_01 So, a gente procure trazer professionnel from the mercado to a presentation for the participants, and the dia a dia, dúvidas more técnicas, dúvidas more thanks.
- 04:41 SPEAKER_01 O que for.
- 04:58 SPEAKER_01 Então, o GDG Brasileira is the Telegram do GDG, obviously.
- 05:02 SPEAKER_01 The Instagram do GDG is arroba GDG Brasília, and the Telegram do Pai Data is PaiDataBSB.
- 05:10 SPEAKER_01 So no Telegram, the community, the market.
- 05:16 SPEAKER_01 Lá a gente divulga todos the noses.
- 05:19 SPEAKER_01 And the Instagram do GDG também.
- 05:25 SPEAKER_01 Primeiramente a gente com a nossa presentation of LLMs.
- 05:31 SPEAKER_01 One are the principal techniques with Breno, and depois a gente of ciência de dados, focando um pouco mais ali for the area of carreira.
- 05:41 SPEAKER_01 Don't preocupem, as a presentation will have a moment for dúvidas, perguntas and acontecer tudo tranquilamente, vocês vão continuar as dúvidas ofers.
- 05:54 SPEAKER_01 Então vamos iniciar aqui.
- 05:56 SPEAKER_01 Ah, e ao final.
- 05:58 SPEAKER_01 Só um ponto muito importante.
- 06:00 SPEAKER_01 Ao final, a gente vai mandar um QR Code.
- 06:02 SPEAKER_01 Mandar não, né?
- 06:03 SPEAKER_01 Vai apresentar um QR Code para vocês marcarem presença.
- 06:06 SPEAKER_01 Principalmente para os alunos do seu Ub.
- 06:08 SPEAKER_01 Pra gente emitir o certificado e vocês contabilizarem a hora pra vocês lá nas aulas.
- 06:14 SPEAKER_01 Horas complementares, que geralmente tem que ter.
- 06:16 SPEAKER_01 E pra quem não é de seu Uber, pra ter o certificado lá, se vocês quiserem.
- 06:20 SPEAKER_01 A gente vai mandar o certificado via e-mail.
- 06:23 Vamos ter um sorteio.
- 06:26 De uma mentoria.
- 06:27 SPEAKER_01 Uma hora de mentoria.
- 06:29 E.
- 06:34 SPEAKER_01 Então a gente vai sortear duas horas de mentoria.
- 06:38 SPEAKER_01 Ao final, beleza?
- 06:40 SPEAKER_01 Então, quem quiser, quem precisar das horas de certificado, vai ter que ficar até o final.
- 06:45 SPEAKER_01 Então vamos dar o início aí.
- 06:47 SPEAKER_02 Breno, por favor.
- 07:04 SPEAKER_02 Agora.
- 07:15 Beleza.
- 07:20 SPEAKER_02 Ok.
- 07:21 SPEAKER_02 Ok.
- 07:22 SPEAKER_02 Eu fiz uma palestra pra apresentar aqui.
- 07:28 SPEAKER_02 As técnicas de alinhamento que a gente tem hoje possível.
- 07:34 SPEAKER_02 E pode ser que seja.
- 07:38 Tá melhor agora?
- 07:39 Beleza.
- 07:40 SPEAKER_02 Então eu fiz essa palestra pra.
- 07:48 SPEAKER_02 Explicar o que é trazer de uma perspectiva mais básica.
- 07:52 SPEAKER_02 Então, dependendo. aí de como de como for, pode ser que seja muito rápido ou talvez seja muita coisa, então a gente vai qualquer coisa que vocês me sinalizam, se tiver muito difícil de entender, muito fácil, e a gente vai ajustando a velocidade em relação a isso.
- 08:11 SPEAKER_02 É primeiro só pra falar um pouquinho apresentado, meu lembrando, eu trabalho com inteligência artificial.
- 08:19 SPEAKER_02 Eu também trabalho bastante com Bitcoin, lancei um livro sobre Bitcoin agora, fazer um bichinho.
- 08:28 SPEAKER_02 E semana que vem, na quinta-feira, vamos ter aí o BitDevs, que é um evento pra gente discutir os aspectos técnicos de Bitcoin.
- 08:39 SPEAKER_02 Quem tiver interesse depois fala comigo.
- 08:41 Beleza?
- 08:42 SPEAKER_02 Então vamos lá.
- 08:44 SPEAKER_02 Alguém aí, todo mundo já sabe mais ou menos o que é uma LLM.
- 08:49 SPEAKER_02 Todo mundo aí tem uma noção legal?
- 08:51 SPEAKER_02 Não, beleza.
- 08:53 SPEAKER_02 Então aqui o nosso...
- 08:55 SPEAKER_02 todo mundo aí do evento que foi apresentado agora um pouco.
- 09:01 SPEAKER_02 Então só uma introdução básica, todo mundo aí já tem uma noção legal, mas só pra gente recapitular.
- 09:07 SPEAKER_02 Temos aí um perceptium, que é basicamente o perception, ele foi feito pra simular um neurônio.
- 09:14 SPEAKER_02 Um neurônio biológico, ele tem dendritos e o axione, o dendrito recebe alguma...
- 09:22 SPEAKER_02 alguma...
- 09:24 SPEAKER_02 química ali que ele interpreta como informação e passa pra frente no axiônio, que são conectados em vários outros...
- 09:32 SPEAKER_02 vários outros neurônios.
- 09:33 SPEAKER_02 E matematicamente foi modelado dessa forma aqui, a gente tem várias entradas.
- 09:39 SPEAKER_02 Essas entradas aí tem com barrias também.
- 09:45 SPEAKER_02 Isso aí só por um...
- 09:47 SPEAKER_02 passa por uma função não linear.
- 09:51 SPEAKER_02 E isso aí.
- 09:50 SPEAKER_02 Não linear e isso aí propaga para os outros neurônios que é uma rede neural.
- 09:56 SPEAKER_02 A rede neural é basicamente são vários neurônios, como conectado um outro.
- 10:01 SPEAKER_02 E depois a gente tem o transformer, que é um pouquinho mais complicado, não vou entrar em detalhes, que é a arquitetura da inteligência artificial que é usada nos LLMs de hoje.
- 10:13 SPEAKER_02 A maioria Pra quem conhece Transformer mais ou menos, tem um encoder e um decoder.
- 10:21 SPEAKER_02 O encoder é essa parte aqui da esquerda, o decoder é a parte da direita.
- 10:27 SPEAKER_02 A arquitetura inteira é feita com os dois, mas a maioria das LLMs que a gente conhece hoje, se não todas, são só o decoder.
- 10:40 SPEAKER_02 Se não todos porque o Bert usam o encoder, mas ele até eu não conheço alguém que transformou ele em modelo grande, só modelos pequenos.
- 10:49 SPEAKER_02 Então ele é GPT pra frente, tudo usa só a parte lá que é o decoder.
- 10:58 SPEAKER_02 Beleza.
- 10:59 SPEAKER_02 O que é o alinhamento de LLMs, o alinhamento é você Você depois que você treina o modelo de linguagem Ok, ele responde Ele fala Ele fala uma língua Então o primeiro passo principal é ele falar alguma coisa coerente Entretanto Não basta ele falar alguma coisa coerente para ele ser útil Então por exemplo Se eu pergunto se eu chego para um modelo de linguagem e eu quero que ele que ele responda uma pergunta Ele tem que faço uma pergunta para ele Todos os modelos Não sei se o quanto vocês estão disso daí, mas todos os modelos são basicamente autocompletar.
- 11:55 SPEAKER_02 Eles pegam os tokens anteriores e eles tentam prever a chance dos próximos tokens e ele vai escolhendo token seguinte.
- 12:04 SPEAKER_02 Os tokens são partes de palavras.
- 12:08 SPEAKER_02 Então, por exemplo, se você tem a palavra carros.
- 12:14 SPEAKER_02 Carros pode ser dois tokens, por exemplo.
- 12:18 Carro e o S.
- 12:20 SPEAKER_02 O Tolkien S tem.
- 12:23 SPEAKER_02 Ele várias vezes ele vai representar a plural.
- 12:28 SPEAKER_02 E o carro vai ter o conceito do carro.
- 12:30 SPEAKER_02 Então, quando você pergunta...
- 12:34 SPEAKER_02 Faz alguma pergunta num modelo desse.
- 12:37 SPEAKER_02 Ele vai tentar prever a próxima.
- 12:42 SPEAKER_02 E quando você tenta prever essa próxima...
- 12:46 SPEAKER_02 E ele vai faz isso consecutivamente, vai prevendo os próximos tokens.
- 12:51 SPEAKER_02 E é assim que ele cria a resposta.
- 12:54 SPEAKER_02 Ele se você pergunta, por exemplo, qual é o carro mais rápido do mundo.
- 13:02 SPEAKER_02 Ele pode completar de diversas formas diferentes.
- 13:05 SPEAKER_02 Ele pode completar simplesmente respondendo.
- 13:12 SPEAKER_02 Respondendo o que você quer, o carro mais rápido do mundo é tal.
- 13:16 SPEAKER_02 Ou ele pode tentar fazer uma auto-completar.
- 13:23 SPEAKER_02 Ele pode entender que isso é uma prosa de um livro de literatura.
- 13:28 SPEAKER_02 E ele pode tentar completar de uma maneira que você não está esperando, mas é válida.
- 13:32 SPEAKER_02 Como por exemplo, qual é o carro mais rápido do mundo?
- 13:35 SPEAKER_02 Perguntou o Fulano que não sei o que.
- 13:38 SPEAKER_02 Então ele completar de uma forma como se fosse um livro de literatura.
- 13:42 SPEAKER_02 Então isso é uma resposta completamente válida.
- 13:46 SPEAKER_02 Ela é coerente, ela faz sentido.
- 13:46 SPEAKER_02 Válida, ela é coerente, ela faz sentido, ela.
- 13:49 SPEAKER_02 Só que talvez ela não esteja alinhada com o objetivo que você quer o modelo de linguagem natural.
- 13:58 SPEAKER_02 Então o alinhamento é fazer o modelo não só manter esse conhecimento que ele tem dentro dele dele daí, mas responder de uma determinada maneira.
- 14:18 SPEAKER_02 Você, se alguém pergunta voltando aí pra mim, qual é o carro mais rápido do mundo, a gente pode ter uma resposta só com o nome do carro, a gente pode ter uma resposta, o carro mais rápido do mundo é tal, a gente pode ter uma resposta Ah eu sei muito sobre carros O carro mais rápido do mundo é muito importante pra isso, isso e isso Mas tome cuidado Porque se você dirigir muito rápido Então assim Você tem diversas maneiras diferentes de você responder uma pergunta E você tentar fazer isso aí é a forma o alinhamento Esse é o trabalho do alinhamento E isso gera vários problemas Tem problema de segurança Então por exemplo Se a gente tá numa...
- 15:04 SPEAKER_02 se a gente tem uma empresa A gente pode ter alguma empresa de veículos que a pessoa conversou com o chatbot e convenceu ele a venderbot a vender um carro por5 dólares Ele conseguiu conversando com o chatbot fazer o chatbot beleza Tá combinado promessa de Mindinho e ele falou literalmente isso daqui
- 15:44 SPEAKER_02 E ele falou literalmente isso daí.
- 15:47 SPEAKER_02 E ele teoricamente...
- 15:49 SPEAKER_02 Acho que ele não levou mais na frente, mas ele quis fazer só provar o ponto, mas depois que você tem essa resposta no suporte, você pode tirar um print dessa resposta ir no juiz e causar um problemão para a empresa.
- 16:06 SPEAKER_02 Falar, ó, aqui, ó, eles estão me prometendo aqui um carro5 dólares.
- 16:12 SPEAKER_02 Então isso aí é.
- 16:15 SPEAKER_02 Esse aí é outro tipo de problema, então também dar instruções que são erradas e perigosas.
- 16:21 SPEAKER_02 A parte de segurança é uma parte muito sensível, que todo mundo trabalha com isso toma bastante cuidado.
- 16:29 SPEAKER_02 E aí a visão que a gente tem sobre segurança muda muito, né?
- 16:33 SPEAKER_02 Então, por exemplo, se você pergunta pro chat APT como fazer na Palm.
- 16:41 SPEAKER_02 Ou algum outro tipo de explosivo, ele não vai te responder, ele vai falar eu sou programado para não responder esse tipo de pergunta, ele dá um disclaimer.
- 16:49 SPEAKER_02 Só que em alguns momentos esse nível de segurança da resposta é tão extremo que o modelo começa a não responder quase nada.
- 17:01 SPEAKER_02 Então você tem que ter um limite, que é que define o limite quem tá fazendo o modelo.
- 17:05 SPEAKER_02 Então vão ter modelos, por exemplo, porque a associação de armas dos Estados Unidos não pode ter um modelo que tem todas as informações de todas as armas.
- 17:16 SPEAKER_02 Pra alguém que é da associação de armas perguntar e ter essas informações.
- 17:21 SPEAKER_02 Não vejo.
- 17:22 SPEAKER_02 Não vejo por que não, se o ar tá tudo dentro da lei, se tá tudo certinho.
- 17:27 SPEAKER_02 Porém, para um modelo genérico como o chat APT, ou modelo aberto com o Yama, entre outros aí, pode ser um.
- 17:37 SPEAKER_02 Pode não ser interessante, porque não é qualquer um que vai.
- 17:40 SPEAKER_02 Qualquer pessoa vai poder usar e pode usar de maneiras... não tão legais.
- 17:47 SPEAKER_02 E isso acaba respingando na imagem da empresa, do Meta, do Google, etc.
- 17:55 SPEAKER_02 Isso aí, além de problemas de segurança, a gente tem problemas técnicos, que as vezes ele pode dar respostas que não sejam...
- 18:07 SPEAKER_02 que sejam imprevisíveis ou até inúteis.
- 18:12 SPEAKER_02 Então se a gente pergunta...
- 18:15 SPEAKER_02 qual é o carro mais rápido do mundo, e o modelo responde é o Mega Blaster2000.
- 18:21 SPEAKER_02 Esse carro não existe.
- 18:23 SPEAKER_02 Mas como é que você sabe se ele existe?
- 18:25 SPEAKER_02 Essa é uma resposta que é inútil.
- 18:29 SPEAKER_02 Não acrescentou nada pra ninguém.
- 18:32 SPEAKER_02 Seria melhor se o modelo respondesse Eu não tenho essa informação ao invés de alucinar.
- 18:40 SPEAKER_02 Então esse é um problema técnico que pode acontecer que também é bem ruim.
- 18:46 SPEAKER_02 Se a gente cria um modelo de linguagem a gente geralmente gasta muito dinheiro aí.
- 18:53 SPEAKER_02 Eles em geral não são baratos.
- 18:57 SPEAKER_02 E ter um modelo que vai que a gente não sabe o quão preciso vai ser a resposta é um problema muito grande.
- 19:04 SPEAKER_02 E por último tem problemas éticos, problemas éticos.
- 19:11 SPEAKER_02 Ele pega desde problemas de viés comuns no machine learning, for example, se a gente tem um.
- 19:21 SPEAKER_02 Se a gente tem uma empresa que tá tentando detectar fraude.
- 19:27 SPEAKER_02 A fraude necessariamente ela é um sample.
- 19:33 SPEAKER_02 Ela é uma amostra muito pequena dos dados.
- 19:37 SPEAKER_02 Então se a gente vamos dizer que0,1% da empresa...
- 19:40 SPEAKER_02 Vou dizer aí que0,1% da empresa é fraude, porque se for10% da empresa já falou, né?
- 19:45 SPEAKER_02 Então usar da empresa é fraude.
- 19:49 SPEAKER_02 Se a gente treina uma inteligência artificial e ela sempre responde que não é fraude, ele vai estar certa99,9% das vezes.
- 19:58 SPEAKER_02 Entretanto, ela vai ser completamente inútil.
- 20:01 SPEAKER_02 Quando a gente vai pra um modelo de linguagem, os problemas de viés, a gente tem esse tipo de problemas de viés.
- 20:09 SPEAKER_02 E só que às vezes de forma mais profunda, porque quando a gente tem um modelo de linguagem genérico, ele pode responder qualquer coisa.
- 20:21 SPEAKER_02 A pessoa pode perguntar qualquer coisa.
- 20:24 SPEAKER_02 E isso daí pode acabar tendo uma representação ruim de certas minorias, por exemplo.
- 20:34 SPEAKER_02 Entre outros aspects.
- 20:37 SPEAKER_02 Eu vou dar alguns exemplos aí que eu vou mostrar.
- 20:49 SPEAKER_02 Então alguns aqui de problema de segurança, isso são todas imagens reais aí da inteligência artificial do Google.
- 20:58 SPEAKER_02 É...
- 20:58 SPEAKER_02 Alguém perguntando se a gente pode usar gasolina pra cozinhar espaguete mais rápido.
- 21:04 SPEAKER_02 E ele responde, não, você não pode usar gasolina pra fazer espaguete mais rápido, mas você pode usar gasolina pra fazer um prato de espaguete apimentado.
- 21:14 SPEAKER_02 E aí ele dá uma receita usando gasolina.
- 21:17 SPEAKER_02 Fazer spaguete.
- 21:19 SPEAKER_02 Isso aí são todas...
- 21:21 SPEAKER_02 São todas imagens de exemplos que aconteceu aí na inteligência artificial do Google.
- 21:28 SPEAKER_02 Teve...
- 21:28 SPEAKER_02 teve uma outra aí dele falando que a associação de geologistas de Berkeley sugere comer pelo menos uma pedra pequena por dia.
- 21:37 SPEAKER_02 Teve uma outra é...
- 21:38 SPEAKER_02 E uma outra que a pessoa tava escreveu lá, Estou me sentindo deprimido.
- 21:45 SPEAKER_02 E aí tá falando, ah, o usuário do Reddit sugeriu pular da ponte.
- 21:51 SPEAKER_02 Ou seja, isso aí é um problema grave de segurança.
- 21:59 SPEAKER_02 O outro ali é a última tá sugerindo colocar cola pra fazer o queijo na pizza ficar com a textura diferente.
- 22:07 SPEAKER_02 Enfim, são problemas que...
- 22:11 SPEAKER_02 Esses aqui são problemas mesmo que são que eu coloquei por serem engraçados, mas você pode ter todo o tipo de problema que não necessarmente são tão fáceis de identificar.
- 22:22 SPEAKER_02 Porque como o modelo de linguagem é basicamente um preditor do próximo token, ele pode teoricamente responder qualquer coisa.
- 22:33 SPEAKER_02 Então isso aí pode ser bem pior do que isso.
- 22:38 SPEAKER_02 E problemas é éticos aí, teve um que foi bem complicado.
- 22:44 SPEAKER_02 Aí já não é exatamente o modelo de linguagem, se é um modelo de imagem, mas isso aqui é só um exemplo, né?
- 22:55 SPEAKER_02 Pra ilustrar.
- 22:57 SPEAKER_02 Nada melhor pra ilustrar do que as imagens, né?
- 22:59 SPEAKER_02 Então pediu ali pra você representar os founding fathers, os criadores dos Estados Unidos.
- 23:09 SPEAKER_02 E aí colocaram...
- 23:12 SPEAKER_02 negro, umÍndio, um chinês.
- 23:15 SPEAKER_02 Colocaram ali pra representar Vikings, e aí colocaram negros, asiáticos ali pra representar Vikings, um Papa também colocaram...
- 23:25 SPEAKER_02 Isso daí foi uma dificuldade no alinhamento, porque a equipe de ética do Google tava tentando equilibrar de alguma forma o
- 23:38 SPEAKER_02 Pra ele não responder com uma pessoa branca, com um homem branco.
- 23:43 SPEAKER_02 E aí só que eles fizeram isso de uma maneira tão grave, tão forte, eles exageraram tanto nisso aí, que quando pediram pra fazer imagens.
- 24:04 SPEAKER_02 E aí, depois dessa, finally tiraram the arque.
- 24:08 SPEAKER_02 Aí complica.
- 24:12 SPEAKER_02 Mas quando a gente tem varios methods different to do that alinha.
- 24:18 SPEAKER_02 E eu peguei essa imagem aqui uma palestra da Nvidia, que eu acho que ela é bem ilustrativa.
- 24:25 SPEAKER_02 Ela é muito fácil de enxergar o que tá.
- 24:30 SPEAKER_02 Quais são alguns tipos de.
- 24:33 SPEAKER_02 Eu vou acrescentar até mais uma, but, mas só pra você ter uma noção.
- 24:40 SPEAKER_02 Então, o maior do Lod lá, o maior de todos ali, é o chamado Instruction Tunning.
- 24:54 SPEAKER_02 Você treina o modelo, anda o modelo, você geralmente treina pra ele tentar encontrar sempre o próximo token.
- 25:03 SPEAKER_02 Então você coloca o máximo de information possible, o máximo de dados, and esses dados são livros, artigos, etc.
- 25:13 SPEAKER_02 Então, depois que ele passar the fase de pré-treinamento, o modelo meramente tenta encontrar o próximo token.
- 25:23 SPEAKER_02 E isso não é.
- 25:26 SPEAKER_02 Isso não é de todo ruim, isso é muito útil foras, for example, Coldilot, when você está tentando programar e ele sujeira.
- 25:34 SPEAKER_02 Program e ele sugere o que vai vir depois do seu código e isso é útil pra caramba, mas isso é ruim se você quer fazer uma pergunta e ter uma resposta.
- 25:45 SPEAKER_02 E aí o instruction thing é justamente você criou um dataset de perguntas e respostas e você faz um treinamento seguinte Pra ele começar a entender que beleza quando tem uma pergunta Tem uma pergunta agora eu respondo com base nessa pergunta Ele é o mais caro e é o mais difícil de fazer Porque você treinou um modelo inteiro e isso daí acaba que você gasta muito dinheiro Você gasta muito tempo e você pode Inclusive estragar o modelo Se você não fizer uma maneira boa Quando você está treinando uma região Sempre tem um risco dele dar regional esquecer alguma informação Então as formas para você treinar são bem uma coisa que você precisa ter bastante cuidado O próximo maneiro que é um pouquinho mais simples de fazer uma gasta menos dinheiro Gasta menos tempo é chamado de fine Tó que você não treina o modelo inteiro É o parameter Efficient Fine Tuning É o Fine Tuning de Eficiente Você treina de forma eficiente Parameters Então você congela o modelo E você treina Você faz o backpropagation só de algumas camadas Muita gente conhece como você treinar algumas camadas Alguns pesquisadores
- 27:32 SPEAKER_02 Descobriram, se você congelar algumas camadas e você fizer o treinamento não no modelo inteiro só de uma parte, ele você consegue fazer gastando muito menos e é muito mais eficiente e geralmente e muitas vezes resolve.
- 27:47 SPEAKER_02 Muitas vezes funciona muito bem.
- 27:50 SPEAKER_02 Uma terceira forma seria o prompt learning.
- 27:54 SPEAKER_02 Que é diferente do Prompt Engineering.
- 27:56 SPEAKER_02 Prompt learning é parecido com o método anterior.
- 28:02 SPEAKER_02 Só que ao invés de você congelar só uma parte do modelo, você congela o modelo inteiro.
- 28:08 SPEAKER_02 E aí o que você vai treinar é o prompt que você está colocando.
- 28:14 SPEAKER_02 Então ele vai tentar encontrar esse treinamento, ele tenta encontrar os tokens específicos para você colocar no prompt pra ele levar o modelo para onde você quer.
- 28:29 SPEAKER_02 Então você faz um treinamento de prompt mesmo.
- 28:33 SPEAKER_02 Você encontra alguns tokens que eles no prompt, quando você fizer uma pergunta, ele vai te responder da melhor da melhor maneira que você quer.
- 28:44 SPEAKER_02 E esse aí é muito mais rápido e mais simples e mais barato.
- 28:49 SPEAKER_02 E com a grande vantagem também é que isso não vai alterar de forma alguma nenhum dos pesos da sua rede.
- 28:56 SPEAKER_02 Então isso aí não vai atrapalhar, você não vai degradar seu modelo usando isso daí.
- 29:04 SPEAKER_02 O lado ruim é porque você consegue fazer pouca coisa com isso daí.
- 29:08 SPEAKER_02 Então, por exemplo, se você vai.
- 29:10 SPEAKER_02 Se você vai fazer um prompt learning, geralmente é para um propósito específico, alguns propósitos específicos.
- 29:18 SPEAKER_02 Você perde um pouco a generalidade do modelo.
- 29:23 SPEAKER_02 E por último, você tem o prompt engineering, que é você mesmo criar maneiras de ele responder melhor.
- 29:41 SPEAKER_02 Pense aqui que você é um engineiro de software senior that's a modificação sensado, you coloca um context is a form of quantity engineering on which ajuda bastante the modelo a responder melhor.
- 30:06 SPEAKER_02 Basically the slide anterior, but I coloca um a mais o pré-treinamento continuado.
- 30:13 SPEAKER_02 As pessoas não falam muito disso aí.
- 30:16 SPEAKER_02 Pré-treinamento continuado Geralmente considerado a técnica de alinhamento because it is considered a técnica de adquirir conhecimento novos.
- 30:30 SPEAKER_02 O que é o pré-treinamento, pré-treinamento é o primeiro treinamento que você faz no modelo.
- 30:36 SPEAKER_02 So geralmente ninguém aqui, um de nós probablemente um modelo zero, porque custa milhares a millions de dollars.
- 30:49 SPEAKER_02 Então a gente vai pegar um modelo pronto.
- 30:52 SPEAKER_02 For example, vamos pegar o Lama com example.
- 30:55 SPEAKER_02 This Lama ele teve um treinamento de millions and billions, trilhões de tokens.
- 31:02 SPEAKER_02 Dependendo qual Lama que você for usar.
- 31:08 SPEAKER_02 Só que ele pode ser deficiente in alguma coisa específica.
- 31:12 SPEAKER_02 For example, no meu trabalho, ele é deficiente in conhecimento de Bitcoin.
- 31:19 SPEAKER_02 It falta muita coisa sobre Bitcoin and muita information errada também.
- 31:28 SPEAKER_02 Pra eu criar um modelo é pegar esse modelo e fazer um pré-treinamento continuado.
- 31:36 SPEAKER_02 Apesar dele não ser.
- 31:40 SPEAKER_02 Um acréscimo de informações, de conhecimento.
- 31:44 SPEAKER_02 Eu vejo que ele é também uma técnica de alinhamento, no sentido de que você.
- 31:50 SPEAKER_02 Que ele vai estar mais próximo da resposta que eu quero que ele tem.
- 31:54 SPEAKER_02 Então, se eu pergunto alguma coisa de Bitcoin no modelo sem esse pré-treinamento continuado, ele vai ter uma resposta muito básica.
- 32:05 SPEAKER_02 Muito.
- 32:05 SPEAKER_02 Uma resposta mainstream ali.
- 32:08 SPEAKER_02 Falando que, por exemplo, sei lá.
- 32:10 SPEAKER_02 Mineração é resolver em computação.
- 32:15 SPEAKER_02 Que não é bem assim.
- 32:17 SPEAKER_02 Então você com esse pré-treinamento continuado, você consegue trazer conhecimento a mais e ele vai ter uma.
- 32:27 SPEAKER_02 Vai.
- 32:28 SPEAKER_02 Ele vai se aprofundar num tema e vai poder responder melhor.
- 32:32 SPEAKER_02 E aí, a gente tem o fine tuning do modelo completo, né?
- 32:36 SPEAKER_02 Que eu mencionei atrás.
- 32:38 SPEAKER_02 O fine tuning de parte modelo.
- 32:40 SPEAKER_02 Que tem, inclusive, uma biblioteca, né?
- 32:42 SPEAKER_02 A PEFT.
- 32:43 SPEAKER_02 Perimeter efficient fine tuning.
- 32:48 SPEAKER_02 Tem o prompt learning e o prompt engineering.
- 32:50 SPEAKER_02 Alguns exemplos de prompt engineering.
- 32:55 Claro.
- 33:04 Isso.
- 33:07 Claro.
- 33:09 Então.
- 33:10 SPEAKER_02 Vamos voltar aqui na figura.
- 33:13 SPEAKER_02 Bom que essa figura foi útil.
- 33:16 SPEAKER_02 Você está vendo ali que tem vários W's, né?
- 33:18 SPEAKER_02 W1, W2, W3 até WN.
- 33:21 SPEAKER_02 Isso aí são os pesos do modelo.
- 33:22 SPEAKER_02 Isso aí são os pesos do modelo, um neurônio, né?
- 33:25 SPEAKER_02 Cada.
- 33:26 SPEAKER_02 E tem vários neurônios ali. que eles são interligados um no outro.
- 33:31 SPEAKER_02 E quando a gente...
- 33:32 SPEAKER_02 o que é o treinamento de um de machine learning, de deep learning.
- 33:37 SPEAKER_02 Você coloca um input, você coloca o output.
- 33:44 SPEAKER_02 Exatamente, você tem.
- 33:45 SPEAKER_02 Ele vai prever alguma coisa, ele vai te dar um resultado, você calcula a distância desse resultado pro outro, você encontra um erro e você faz o backpropagation.
- 33:54 SPEAKER_02 Esse backpropagation vai atualizando cada um dos neurônios.
- 34:01 SPEAKER_02 Beleza?
- 34:02 SPEAKER_02 O que acontece é que você não vai atualizar todos.
- 34:06 SPEAKER_02 Você vai escolher, por exemplo, vou atualizar só as duas últimas camadas.
- 34:17 SPEAKER_02 Exatamente, você vai fazer o backpropagation só de algumas camadas e as outras não vão mudar.
- 34:27 SPEAKER_02 O Dropout você tira o peso, né?
- 34:32 Oi?
- 34:40 SPEAKER_02 Isso, backpropagation você vai atualizando.
- 34:44 SPEAKER_02 E você vai atualizando os pesos de acordo com o erro, né?
- 34:49 SPEAKER_02 O patch é um cabo.
- 34:55 SPEAKER_02 Não, não, não, você seleciona a camada que você quer.
- 35:01 SPEAKER_02 Você seleciona a camada de peso.
- 35:03 SPEAKER_02 Então, por exemplo, você pega uma das camadas ali, em vez de você atualizar todos os pesos em todas as camadas, você congela algumas camadas e outras você deixa soltas.
- 35:14 SPEAKER_02 Você pode também escolher neurônios específicos, mas o normal que todo faz é congelar algumas camadas e algumas outras você atualiza.
- 35:24 SPEAKER_02 As outras você atualiza.
- 35:25 SPEAKER_02 E aí você faz essa atualização.
- 35:30 Beleza?
- 35:37 SPEAKER_02 Ok.
- 35:38 SPEAKER_02 Então.
- 35:39 SPEAKER_02 E aí com o Prompt Engineering a gente tem várias técnicas diferentes.
- 35:43 SPEAKER_02 Esse site é muito bom.
- 35:44 SPEAKER_02 Promptguide.
- 35:47 SPEAKER_02 Ele tem.
- 35:48 SPEAKER_02 É bem grande, é bem extenso, ele é um guia de Prompt Engineering.
- 35:57 SPEAKER_02 Então você vai ver lá Field Shot Prompt, Chain of Thought e vários outros.
- 36:04 SPEAKER_02 E tem alguns que eu coloquei de bônus aqui que eu acho muito interessante, que eles não são.
- 36:12 SPEAKER_02 Eles geralmente não estão colocados nas técnicas quando você procura na internet.
- 36:21 SPEAKER_02 O representation engineering.
- 36:24 SPEAKER_02 Ele é basicamente como se fosse.
- 36:27 SPEAKER_02 Se a gente considerar que a rede neural é um cérebro, a gente tá fazendo uma cirurgia no cérebro.
- 36:33 SPEAKER_02 E tentando mudar alguma informação, mudar alguma coisa.
- 36:38 SPEAKER_02 Ele é.
- 36:40 SPEAKER_02 Engenharia de representação, em português, representation engineering.
- 36:45 SPEAKER_02 Ele tenta encontrar a representação de um conceito.
- 36:50 SPEAKER_02 E você altera esse conceito.
- 36:52 SPEAKER_02 O paper é muito interessante, ele não sei se vocês viram recentemente.
- 36:58 SPEAKER_02 O Clode, ele fez justamente isso daí.
- 37:03 SPEAKER_02 E colocou o modelo pensar que ele é a ponte de Golden Gate Bridge.
- 37:10 SPEAKER_02 Então tudo que você perguntava sobre qualquer coisa.
- 37:14 SPEAKER_02 Ele respondiam como se ele fosse a ponte de Golden Gate Bridge.
- 37:19 SPEAKER_02 E ele trazia o assunto sempre pra falar da ponte.
- 37:22 SPEAKER_02 E tudo que ele tentava fazer. era da ponte.
- 37:24 SPEAKER_02 Então ele encontrou de certa forma um feature que representava essa ponte e ele colocou isso no máximo.
- 37:33 SPEAKER_02 Ele conseguiu.
- 37:34 SPEAKER_02 Ele.
- 37:37 SPEAKER_02 Aumentou a representatividade disso para o máximo.
- 37:42 SPEAKER_02 E começou a falar só disso.
- 37:45 SPEAKER_02 No paper é muito interessante que eles falam sobre você colocar um modelo pra ficar muito feliz, muito triste, com raiva, você editar um fato específico, ele pode esquecer, você pode colocar lá e fazer ele esquecer que um cachorro existe.
- 38:02 SPEAKER_02 Ele esqueceu o conceito de cachorro.
- 38:05 SPEAKER_02 Então tem várias coisas que você pode fazer com isso daí e você sabendo fazer isso daí é uma forma também de você fazer alinhamentos.
- 38:13 SPEAKER_02 Você pode colocar um modelo pra esquecer, se você tem dificuldade com as outras coisas, você pode tentar fazer o modelo e esquecer algum fato específico.
- 38:24 SPEAKER_02 Outra coisa é guard rails e camadas de segurança.
- 38:28 SPEAKER_02 Então, por exemplo, se você conversa com um modelo, ele pode ir diretamente no modelo.
- 38:37 SPEAKER_02 Mas você pode ter um modelo anterior.
- 38:39 SPEAKER_02 Que ele seja um guarda.
- 38:44 SPEAKER_02 Então, por exemplo, eu coloco dois modelos que vão receber.
- 38:49 SPEAKER_02 Tem várias técnicas de Guard Rail, mas uma delas, por exemplo, é quando você colocar dois modelos pra receber a mesma pergunta.
- 38:55 SPEAKER_02 Só que um dos modelos é pra dar a resposta, como ela tem que ser, e o outro é pra julgar se a resposta se a resposta merece ser dada ou não.
- 39:05 SPEAKER_02 Então, por exemplo, se eu chego num modelo desse PS4, ele me ensina a fazer uma bomba.
- 39:12 SPEAKER_02 E aí o primeiro modelo vai tentar responder.
- 39:17 SPEAKER_02 Ele vai ter um system prompt falando, beleza. analisa esse pedido e veja se ele é seguro ou não.
- 39:26 SPEAKER_02 Se ele não for seguro, responda não.
- 39:30 SPEAKER_02 E aí eu vejo.
- 39:32 SPEAKER_02 Se ele responder o não, eu não exibo o seguinte.
- 39:37 SPEAKER_02 Eu não resíduo a resposta de verdade.
- 39:39 SPEAKER_02 Eu só exibo uma resposta um disclaimer.
- 39:43 SPEAKER_02 Ah, eu como modelo de inteligência artificial não posso responder isso de perguntas.
- 39:48 SPEAKER_02 Existem outras formas que você não precisa de duas chamadas.
- 39:52 SPEAKER_02 Onde você consegue ter umas técnicas, inclusive a NVIDIA criou uma linguagem chamada Nimo, que você consegue fazer um fluxo de guardrail na conversa, então você consegue fazer o chatbot.
- 40:09 SPEAKER_02 Tem um alinhamento muito melhor, ser mais resistente a font injection.
- 40:15 SPEAKER_02 Usando isso daí.
- 40:18 SPEAKER_02 E aí você pode criar mais camadas também, né?
- 40:22 SPEAKER_02 E o jeito, digamos assim, mais básico é você colocar um ser humano ali no meio do caminho.
- 40:31 SPEAKER_02 Então ele responde e aí eu mando uma olhada, beleza, tá tudo certo.
- 40:35 SPEAKER_02 Vai.
- 40:35 SPEAKER_02 Não, esse aqui não tá bom, não vai.
- 40:38 SPEAKER_02 Ele onde esse ser humano vai analisar.
- 40:43 SPEAKER_02 Isso aí a gente pensa, pô, é ruim, né?
- 40:45 SPEAKER_02 Mas dependendo, a gente não necessariamente precisa de um LLM fazer tudo de cabra rabo, né?
- 40:53 SPEAKER_02 Não é tudo que precisa ser automático e instantâneo.
- 40:57 Pode perguntar.
- 41:06 SPEAKER_02 A forma que ele é feito no geral, é você coloca o.
- 41:12 SPEAKER_02 você cria vários prontes, dezenas, centenas de fontes diferentes.
- 41:18 SPEAKER_02 diferentes pra ele pensar sobre um tema pensar entre aspas ele responder algum tempo e com isso daí ele vai você ver quais neurônios são ativados ou não e aí com esses neurônios ativados você consegue ver o qual é a representação interna do modelo pra aquele conceito específico e aí a gente é a gente tenta mudar esse peso pra mudar essa ativadação dos neurônios é cada vez que aí você tem nele seguir as perguntas eu vi aí escolher o as perguntas você mesmo pode você mesmo pode fazer você pode criar as perguntas você pode automatizar um LNM pra escrever perguntas pra vocês entendas ou depende depende tem precisa ter mais estudos sobre isso os modelos os exemplos que eu vi com algumas dezenas com várias dezenas já funcionava tipo um70 ou80 perguntas talvez até menos já funcionava pra mais alguns exemplos simples né dependendo do que você quiser talvez precise de mais talvez talvez não precisa de tanto isso aí não vi ninguém ter um estudo específico desse ponto e aí é só pra só pra finalizar no Instruction Tuning só pra vocês saberem né Existem essas duas maneiras aí principais que é o Supervised Learning que é a forma normal de você trabalhar com quase todas essas neuróis você tem a entrada e tem a saída e você fala, ó, eu quero que você chegue perto aqui da saída.
- 43:21 SPEAKER_02 E tem o RLHF, que é Reinforcement Learning with Human Feedback.
- 43:27 SPEAKER_02 Ou seja, aprendizado por reforço com feedback humano.
- 43:31 SPEAKER_02 Esse é bem complexo.
- 43:35 SPEAKER_02 Eu vou mostrar até uma figura aqui da própria OpenAI.
- 43:41 SPEAKER_02 E tem gente usando já de várias maneiras diferentes.
- 43:47 SPEAKER_02 Tem gente que não considera o DPO como RLHF, porque ele não usa o reenforcement learning em si.
- 43:55 SPEAKER_02 Mas é meio que uma extensão disso disso aí, porque você...
- 44:03 SPEAKER_02 guarda-chuva meio como se fosse que nem inteligência artificial é um termo guarda-chuva hoje.
- 44:08 SPEAKER_02 Então, pra você fazer o PPO, você.
- 44:13 SPEAKER_02 Primeiro você treina com um supervised learning.
- 44:17 SPEAKER_02 E aí depois, com esse supervised learning, você começa a gerar várias respostas com o seu modelo, e você coloca um ser humano para classificar quais são as melhores, quais são as piores.
- 44:29 SPEAKER_02 E com isso você cria um modelo de recompensa.
- 44:35 SPEAKER_02 Todo mundo sabe como é que funciona o reinforcement learning.
- 44:38 Aprendizado por reforço?
- 44:40 Beleza.
- 44:41 SPEAKER_02 Então você cria um modelo de recompensa.
- 44:44 SPEAKER_02 Então você.
- 44:45 SPEAKER_02 Ao invés de.
- 44:47 SPEAKER_02 Você inicialmente os seres humanos ali vão começar a classificar isso daí.
- 44:55 SPEAKER_02 E com essa classificação isso vai ter um modelo de recompensa.
- 44:58 SPEAKER_02 Onde umas respostas vão ser melhor do que outras.
- 45:01 SPEAKER_02 E aí você usa tudo isso daí junto do modelo original.
- 45:06 SPEAKER_02 É um negócio bem complexo, chatinho de aprender.
- 45:09 SPEAKER_02 No DPO é muito mais simples, que você não precisa de fazer tudo isso aí do meio, você só precisa. falar essa aqui é boa e essa aqui é ruim e ele já faz isso daí tem gente que diz que inclusive é mais estável que o PPO Mas bem, diga o microfone aí, por favor você faz uma pergunta pro chat GPT, e aí ele dá uma resposta e tem um joinha do lado.
- 45:42 SPEAKER_02 Você tá dando um reinforcement nele, então você tá dando um feedback dizendo pra ele essa coisa foi boa ou ruim.
- 45:47 SPEAKER_02 Exatamente, exatamente.
- 45:48 SPEAKER_02 O chat GPT usa justamente essa técnica.
- 45:54 SPEAKER_02 Foi criado pela Open AI, inclusive.
- 45:57 SPEAKER_02 Você já já aconteceu com você de você fazer uma pergunta, ele te responde, ele te dá duas respostas?
- 46:03 Sim.
- 46:04 SPEAKER_02 É, então ele te dá duas respostas, você fala.
- 46:07 SPEAKER_02 E ele pergunta, qual das duas respostas é melhor?
- 46:09 SPEAKER_02 Você fala essa aqui.
- 46:10 SPEAKER_02 E aí, isso daí você tá treinando o modelo.
- 46:13 SPEAKER_02 Você tá ajudando o alinhamento.
- 46:15 SPEAKER_02 E é por isso que inclusive a gente tá usando o modelo e aí de repente todo mundo começa a falar, pô, o modelo tá degradando.
- 46:22 SPEAKER_02 O modelo tá mais burro do que antes.
- 46:24 Por quê?
- 46:25 SPEAKER_02 Porque enquanto eles estão fazendo ali o BPO.
- 46:30 SPEAKER_02 Enquanto eles estão fazendo esse fine tuning aí, esse Fine Tune com o reinforcement learning usando o nosso feedback.
- 46:40 SPEAKER_02 Pode acontecer que isso alterou o modelo base fundamental.
- 46:45 SPEAKER_02 E de uma maneira que piorou muitas coisas.
- 46:50 SPEAKER_02 Então, é pra filtrar o feedback ruim, graças.
- 46:57 SPEAKER_02 O robô ficou pior.
- 46:59 SPEAKER_02 A gente sabe que ficou pior.
- 47:00 SPEAKER_02 Já que não ficar causando ou é tipo impossível.
- 47:03 SPEAKER_02 Tem que ligar com.
- 47:05 SPEAKER_02 Vai ter feedback ruim é isso.
- 47:07 SPEAKER_02 Existem formas, mas é muito difícil, porque se a gente parar pra pensar, o chat GPT é um modelo genérico.
- 47:12 SPEAKER_02 O chat de GPT é um modelo genérico.
- 47:14 SPEAKER_02 Então você pode perguntar qualquer coisa e ele teoricamente tem que te responder qualquer coisa.
- 47:18 SPEAKER_02 Tem que responder tudo de acordo com o que você pergunta.
- 47:22 SPEAKER_02 Então, como é que você sabe, com base em toda a informação do mundo, se aquilo é bom ou é ruim.
- 47:32 SPEAKER_02 Você não consegue.
- 47:33 SPEAKER_02 É muito difícil você saber de antemão.
- 47:35 SPEAKER_02 Você consegue fazer várias bases de dados.
- 47:37 SPEAKER_02 Como, por exemplo, existem vários métodos de evaluation, de evaluation, de avaliação, onde você tem uma base de dados de matemática, tem uma base de dados de ciência, tem uma base de dados de medicina, tem uma base de dados de Wikipedia.
- 47:58 SPEAKER_02 E aí você vai e aí você tenta midir.
- 48:03 SPEAKER_02 E essa própria maneira de medir é complicado também, porque, por exemplo, quando eu tava trabalhando com isso daí Eu precisava medir se eu tenho, por exemplo, eu tenho milhares de perguntas e respostas que eu tenho que dar pro chat GPT para treinar ele Essas milhares Eu não consigo ler dezenas de milhares de respostas de perguntas e respostas Então eu tenho que medir de alguma forma Só que o melhor modelo que existe pra tentar Avariar isso daí é o próprio Chat GPT que não tá alinhado com o que eu quero E é por isso que eu tô trabalhando para fazer isso daí Então assim Você consegue fazer, mas você tem que fazer um bom prompt Engineering Técnicas diferentes Tem técnicas, por exemplo, de distância Tem gente que usa distância de cosseno Tem várias técnicas diferentes E assim Eu vou te dizer que a meu ver não existe técnica perfeita ainda.
- 49:15 SPEAKER_02 Ainda todas as técnicas tem problemas.
- 49:18 SPEAKER_02 E acaba que você precisa de um modelo pra treinar o outro.
- 49:22 SPEAKER_02 Se você consegue...
- 49:24 SPEAKER_02 Geralmente a técnica que funcionou melhor pra gente é você colocar perguntas e resposta objetivas com uma resposta curta e objetiva sem espaço pra nuance.
- 49:38 SPEAKER_02 Então no meu caso específico, a gente estava tentando criar um modelo pra galera do Bitcoin.
- 49:48 SPEAKER_02 E uma coisa que pra gente era inaceitável era falar que inflação era bom.
- 49:53 SPEAKER_02 Ah, mas em quantidades pequenas não sei o que, não.
- 49:56 SPEAKER_02 A gente que tinha...
- 49:58 SPEAKER_02 O modelo falasse que inflação é ruim.
- 50:01 SPEAKER_02 Então eu podia fazer uma pergunta ali, inflação é bom ou ruim.
- 50:04 SPEAKER_02 Respondo com uma palavra.
- 50:06 SPEAKER_02 E aí a resposta tem que ser bom.
- 50:10 SPEAKER_02 Tem que ser ruim.
- 50:11 SPEAKER_02 Se ele respondi bom por qualquer motivo.
- 50:14 SPEAKER_02 Isso é...
- 50:15 SPEAKER_02 isso não tá bom.
- 50:16 SPEAKER_02 Se a gente começa a deixar uma resposta maior, quanto maior a resposta, mais tem espaço pra nuance, mais é difícil do modelo responder de forma consistente.
- 50:30 SPEAKER_02 Porque as vezes, por exemplo, ele fala inflação é ruim por conta disso, disso e três parágrafos falando porque a inflação é ruim, mas no final tem o último, mas tem muitos economistas que falam que inflação é bom por conta disso e disso daquilo.
- 50:44 SPEAKER_02 Isso pra mim é uma resposta ruim.
- 50:46 SPEAKER_02 Eu não quero que ele fique falando que inflação é bom, mesmo que tenha...
- 50:49 SPEAKER_02 Eu não perguntei se existem se existem outros economistas que pensam.
- 50:55 SPEAKER_02 Não perguntar isso, eu perguntei se é bom ou se é ruim.
- 50:58 SPEAKER_02 E isso eu tô fazendo modelo de Bitcoin com esse viés, eu quero que respondam que a inflação é...
- 51:03 SPEAKER_02 Então se eu tenho uma resposta muito grande no modelo, as vezes o
- 51:08 SPEAKER_02 Às vezes o avaliação ele tem dificuldade de entender que na verdade lá realmente tá falando que inflação é bom nesse último parágrafo, porque a maior parte do texto falou que é ruim.
- 51:24 SPEAKER_02 Então às vezes uma palavra ou outra ali ele passa e faz ser um modelo ruim pra você um modelo não alinhado de acordo com o que você quer disso daí.
- 51:41 SPEAKER_02 Beleza, mais alguma pergunta, gente?
- 51:48 Boa noite.
- 51:49 SPEAKER_04 Boa noite.
- 51:49 SPEAKER_04 Eu gostaria de saber se como estudante de ciência computação com hardware caseiro, usando um ARTX modelo20,30.
- 52:00 SPEAKER_04 Até quantos parâmetros você acha que valeria a pena mesmo a treinar um modelo em casa, porque a gente sabe que essas empresas grandes, a OPA e a meta, ela disponde muita GPU, até mesmo PPU, né?
- 52:13 SPEAKER_04 Pra poder fazer carros, multiplicar a matriz, carro de peso.
- 52:18 SPEAKER_04 Então acaba que, sei lá, a gente em casa seja um pouco limitado, assim, de tentar implementar esses modelos com um hardware bem simples, né?
- 52:26 SPEAKER_04 Um hardware caseiro.
- 52:28 SPEAKER_04 Então ia perguntar essa opinião, assim, de se você acha que vale a pena tentar implementar um modelo com alguns milhões de parâmetros, eu acho que um bilhão não sei se dá pra chegar, né?
- 52:39 SPEAKER_04 Com a LPX, modelo I de30.
- 52:43 SPEAKER_04 Qual é a sua opinião que você recomenda a gente tentar implementar um modelo desse, pra quem é entrar nessa área de machine learning, aprender a treinar.
- 52:54 SPEAKER_02 Olha, é uma pergunta muito específica, me diz primeiro uma coisa.
- 52:58 SPEAKER_02 Você quando você tá perguntando sobre treinar, você tá perguntando sobre treinar do zero.
- 53:02 SPEAKER_02 Ou você pegar um modelo que já existe e você fazer um findur em cima dele.
- 53:07 SPEAKER_04 No caso... eu acho que fazer um fine tune mesmo, porque treinar um modelo do zero eu acho que não seria possível mesmo, né?
- 53:13 SPEAKER_04 Com hardware caseiro.
- 53:15 SPEAKER_02 Tá.
- 53:16 SPEAKER_02 Com fine tuning dá pra você fazer esse parameter fishing fine tuning.
- 53:21 Esse deft.
- 53:23 É.
- 53:24 SPEAKER_02 Que é lora, que é lora.
- 53:26 SPEAKER_02 Ele dá pra você fazer em casa, sim.
- 53:30 SPEAKER_02 Eu não sei, não vou conseguir te responder especificamente pra sua.
- 53:35 SPEAKER_02 Pra sua máquina específica, pra essa GPU.
- 53:41 SPEAKER_02 Mas...
- 53:42 SPEAKER_02 É.
- 53:43 SPEAKER_02 Na minha opinião, se você quer.
- 53:46 SPEAKER_02 Se você quer fazer isso daí.
- 53:48 SPEAKER_02 Faz mais sentido você entrar numa...
- 53:52 SPEAKER_02 Entrar em um lugar que é aluguel GPU.
- 53:55 SPEAKER_02 As vezes pode ficar.
- 53:57 SPEAKER_02 Claro, pode ficar caro, né?
- 53:58 SPEAKER_02 Mas é mais caro você comprar uma GPU e rodar, não sei que, assim, você queira você entenda muito bem disso aí, você quer fazer um negócio dedicado e aí você quer fazer um negócio já muito mais específico.
- 54:15 SPEAKER_02 Agora, se você aprender, eu quero treinar.
- 54:18 SPEAKER_02 Cara, procura na internet onde é que tem GPU barata.
- 54:22 SPEAKER_02 Você sobe ali o modelo.
- 54:24 SPEAKER_02 E treina.
- 54:26 SPEAKER_02 Dependendo, assim, dependendo do.
- 54:29 SPEAKER_02 do quanto.
- 54:32 SPEAKER_02 Depende muito assim, do tipo de treinamento que você quer, se você quiser fazer um treinamento mais simples, um treinamento mais específico.
- 54:42 SPEAKER_02 É um coisa.
- 54:43 SPEAKER_02 É só pra aprender?
- 54:44 SPEAKER_02 Isso é só pra aprender com.
- 54:47 SPEAKER_02 Dá pra você fazer com algumas poucas dezenas de dólares.
- 54:52 SPEAKER_02 Você não precisa gastar nem100 dólares pra você baixar um modelo de7 bilhões de parâmetros, por exemplo.
- 54:59 SPEAKER_02 E você fazer um treinamento aí numa GPU na cloud.
- 55:05 SPEAKER_02 É.
- 55:04 SPEAKER_02 Ou na faute.
- 55:05 SPEAKER_02 É...
- 55:07 SPEAKER_02 Se você quiser fazer um negócio do zero...
- 55:10 SPEAKER_02 Eu já vi muita gente falando que...
- 55:14 SPEAKER_02 que treinou uma...
- 55:17 SPEAKER_02 uma...
- 55:18 SPEAKER_02 treinou o GPT2, do zero no computador de casa.
- 55:21 SPEAKER_02 Um laptop.
- 55:23 SPEAKER_02 E funcionou bem, só que assim, muito menos parâmetro e obviamente não vai ficar tão bom, né?
- 55:29 É.
- 55:30 SPEAKER_02 É...
- 55:31 SPEAKER_02 Mas isso aí é treinando do zero.
- 55:33 SPEAKER_02 Eu acredito com a máquina aí, se você tem uma GPU que talvez seja razoável, talvez você consiga treinar.
- 55:41 SPEAKER_02 Fazer um fazer um fine twin com parâmetro eficiente, mas assim, você capaz você deixa aí o dia computador fazendo isso.
- 55:49 SPEAKER_02 Você faz ali arruma ali as coisas e deixa o dia e o computador fazendo e aí no final do dia você tem um resultado.
- 56:01 SPEAKER_02 Quem quem ainda não usou os créditos do Coleb ainda tem...
- 56:05 SPEAKER_02 será a primeira vez que você começa a usar você ganha crédito ali no Coleb você consegue fazer, tem várias...
- 56:12 SPEAKER_02 tem maneiras aí que você consegue fazer de forma gratuita.
- 56:16 SPEAKER_04 O problema que o Colebinho ele já expulsa você e o GPU na nuvem e coloca pra vocês.
- 56:27 SPEAKER_04 Então seria que um rádio com o Júlio Terminou de Ruby pra conseguir configurar com a sua GPU.
- 56:33 SPEAKER_04 Um modelo RTX Leader, você acha que daria pra implementar um GPT2?
- 56:39 SPEAKER_02 GPT2 com certeza.
- 56:41 SPEAKER_02 Com certeza.
- 56:42 SPEAKER_02 Agora o fazer...
- 56:45 SPEAKER_02 Pegar um desses modelos aí de7 bilhões de parâmetros aí.
- 56:49 SPEAKER_02 Não sei, talvez funcione.
- 56:52 SPEAKER_02 Talvez funcione pra fazer um fine twin.
- 56:55 SPEAKER_02 Oi?
- 56:59 SPEAKER_02 Hoje...
- 56:59 SPEAKER_02 Hoje você encontra.
- 57:01 SPEAKER_02 Você encontra modelos fundamentais aí. até menores de1.8
- 57:07 SPEAKER_03 Então às vezes você pega aquele você pega um desses aberto aí de um dois bilhões de parâmetros talvez acho que tem chance de dar certo pra você fazer fine toinha você acredita que seria uma experiência interessante para o currículo com certeza você pode sei lá pegar um nicho específico que você gosta pega um monte de dados e information ali treinando ele pra alguma coisa específica publica no huges sei lá esse modelo aqui é expert in Pokemon vai falar tudo que você quer saber sobre Pokémon, coloca lá no Hug Face e isso aí é com certeza quando você coloca isso aí no currículo as pessoas olham o seu currículo com outros olhos é coisa prática é sempre muito importante mais alguém aí minha dúvida é um pouco mais complexa eu queria entender sua opinião sobre o uso de framework de abstração de chamadas de API tipo auto-GPT, Link Chain Mais especificamente Não na área de MVP porque construir MVP com length chain é muito agilizado mas na área de produtização o uso de Langserve Lang Smith ou outras plataformas que fazem o tracking da sua mensagem e dos seus modelos até agentes e fazem essa sincronização deles eu queria saber a sua opinião na parte de produtização disso se é rentável se é viável ou se fica muito mais caro pra você como é um mapa muito black box fica mais caro você entender o que tá acontecendo do que realmente tirar da mão ali e fazer todas as conexões entre modelos com certeza isso fica fica mais difícil você entender o que está acontecendo por trás.
- 59:03 SPEAKER_02 Porque é muito simples, né?
- 59:05 SPEAKER_02 Você tem.
- 59:07 SPEAKER_02 Você está trabalhando com string.
- 59:09 SPEAKER_02 Você coloca uma string e ele te devolve uma string.
- 59:12 SPEAKER_02 Então, se você vai fazer um system prompt, você coloca um tokens específicos que colocam a pergunta e resposta.
- 59:19 SPEAKER_02 E você coloca isso daí, se você quiser fazer um histórico, você consegue.
- 59:24 SPEAKER_02 Você consegue criar todas essas funções na mão.
- 59:27 SPEAKER_02 Tipo, em minutos.
- 59:29 SPEAKER_02 É muito simples.
- 59:31 SPEAKER_02 Agora quando você começa a ir um pouquinho mais pra frente.
- 59:35 SPEAKER_02 Por exemplo, se eu for fazer um reg.
- 59:38 SPEAKER_02 O reg eu não cheguei a colocar ali, pra quem não conhece, é.
- 59:42 SPEAKER_02 Retrieval augmented generation, ou seja, Generação aumentada de retornos, né?
- 59:50 SPEAKER_02 De busca.
- 59:52 SPEAKER_02 É uma forma.
- 59:53 SPEAKER_02 Se a gente pensar assim que a inteligência artificial é um cérebro.
- 59:59 SPEAKER_02 O reg seria uma enciclopédia.
- 01:00:02 SPEAKER_02 Então é uma forma de.
- 01:00:05 SPEAKER_02 A inteligência artificial dá uma olhada ali, pega a colinha e te respondo com base naquela colinha.
- 01:00:12 SPEAKER_02 Da enciclopédia.
- 01:00:14 SPEAKER_02 E não é propriamente dito uma maneira de alinhamento, mas também dá pra ser do mesmo jeito que treinamento ou pré-treinamento continuado.
- 01:00:27 SPEAKER_02 Mas quando.
- 01:00:29 SPEAKER_02 Tem várias.
- 01:00:30 SPEAKER_02 Nossa.
- 01:00:31 SPEAKER_02 Tem várias e várias e várias e várias maneiras de você fazer o reg.
- 01:00:34 SPEAKER_02 Porque o reg nada mais é do que você copia um texto e cola no prompt.
- 01:00:40 SPEAKER_02 E aí.
- 01:00:41 SPEAKER_02 E aí você pode escrever lá com base nesse contexto respondo a pergunta.
- 01:00:47 SPEAKER_02 E só que isso daí você pode ter.
- 01:00:51 SPEAKER_02 Você pode ter várias formas diferentes.
- 01:00:53 SPEAKER_02 O prompt é limitado.
- 01:00:54 SPEAKER_02 Então você vai.
- 01:00:55 SPEAKER_02 Você pode colocar vários.
- 01:00:58 SPEAKER_02 várias respostas. Então você vai selecionar Como é que você sabe que você vai selecionar a melhor resposta Você não sabe Então você pode selecionar sei lá as5 melhores10 melhores15 melhores E aí quando você colar a resposta Você vai colocar quanto100 tokens200 tokens50 tokens60,600?
- 01:01:25 SPEAKER_02 Você vai fazer o ranqueamento as resposta ou não Você vai um modelo que é reggae hierárquico Onde você pega o corpus de conhecimento E aí você vai Você faz umaárvore que vai dividindo até o final você ter200 tokens E aí você compara com cada nó E aí você tenta ver Não pegar várias respostinhas de200 tokens você pega vários nós Você vai olhando ali e ver quais são os mais interessantesÀs vezes não é um específicoÀs vezes tem o contexto está quebrado Então você precisa desse nó superior que tem os dois juntos E por aí vai, tem dezenas de maneiras de você implementar isso daí E nesse caso específico Um Lang Chain etc ajuda muito Porque várias dessas técnicas já estão implementadas nisso Então eu vejo gente falando pra evitar Eu já vi várias vários profissionais falando que o ideal é evitar justamente o ponto de vista de black box Mas em compensação Se você estiver fazendo uma coisaÀs vezes é melhor você pegar o negócio que já tá todo mundo usando Porque fica mais simples Em vez de você ter que implementar do zero Você já pô esse
- 01:02:56 SPEAKER_02 Seja esse Herar Rag aqui tá ruim.
- 01:03:00 SPEAKER_02 E se eu tentar que ele outra e você muda com alguma cozinha de código que eu vou ter que implementar um negocinho?
- 01:03:08 Exatamente.
- 01:03:10 SPEAKER_01 Pessoal, vamos fazer só mais uma pergunta, tá?
- 01:03:13 SPEAKER_01 Quem foi que queria fazer?
- 01:03:15 Mais uma pergunta.
- 01:03:17 SPEAKER_01 Alguém mais chama da mão?
- 01:03:19 SPEAKER_01 Não?
- 01:03:19 Ninguém mais?
- 01:03:21 É isso.
- 01:03:23 SPEAKER_01 Muito obrigado, Bruno.
- 01:03:30 SPEAKER_02 Obrigado, gente.
- 01:03:31 SPEAKER_02 Quem quiser falar comigo depois.
- 01:04:33 SPEAKER_01 Só uma pergunta pro pessoal técnico.
- 01:04:36 SPEAKER_01 Tem algum problema se eu ficar mandando aqui no brilho?
- 01:04:39 Tá vendo?
- 01:04:40 Beleza.
- 01:04:41 SPEAKER_01 Eu sou um pouco de quieto.
- 01:04:45 Vamos lá, pessoal.
- 01:04:47 SPEAKER_01 Manda novamente pra vocês.
- 01:04:51 SPEAKER_01 Vamos falar um pouco agora sobre ciência de dados.
- 01:04:57 SPEAKER_01 But in the time, I'm going to conhecer until the area of dados.
- 01:05:05 SPEAKER_01 Can I travel in the area of the computation?
- 01:05:08 SPEAKER_01 Can you try in the area?
- 01:05:11 SPEAKER_01 Okay, so the mystery is in the area of dados, in a certain way, or can I do it or not computation.
- 01:05:25 SPEAKER_01 Anteriormente I don't a presentation.
- 01:05:27 SPEAKER_01 My name is Gabriel, I'm scientist of dados senior in the R Chiang.
- 01:05:41 SPEAKER_01 I work in different projects in the area of information, safe, and design, public, I travel in different areas de dados, not machine learning, a G BI, a automation, web scraping, and programming Full Steck, the amount of Java, my redesign.
- 01:06:22 SPEAKER_01 I think I have a school focused on treatments, in area of dados, intelligence artificial, and a programming.
- 01:07:49 SPEAKER_01 And a fada madrinha and dados that does this.
- 01:08:02 SPEAKER_01 Nivelador, but a area.
- 01:08:18 SPEAKER_01 Bancos, the Brazil.
- 01:08:20 SPEAKER_01 Nós temos area, nós temos segurança, esporte, foi muito pioneiro in Stati United, NBA, Baseball, very fortunate.
- 01:08:47 SPEAKER_01 Based on falses reactions, técnicos.
- 01:08:50 SPEAKER_01 Não técnico, ele simplesmente usou estatística para melhorar o time dele.
- 01:08:54 SPEAKER_01 Estatística, ciência de dados.
- 01:08:56 SPEAKER_01 Só que ele não fez ali com Python, com R, com Java, etc.
- 01:09:01 SPEAKER_01 Ele fez na mãozona ali, junto com estatístico, talvez usando um Excel, coisa do tipo, but ele usou estatística para melhorar o desempenho do.
- 01:09:11 SPEAKER_01 fazer melhor contratações, que consequentemente melhorou o desempenho do time dele.
- 01:09:16 SPEAKER_01 Marketing, também muito utilizado em ciência de dados.
- 01:09:19 SPEAKER_01 Então isso são os primórdios, a era das pedras da ciência de dados, and hoje nós temos ali o futuro, que já virou presente.
- 01:09:28 São quê?
- 01:09:29 SPEAKER_01 A inteligência artificial mais avançada, mais complexa.
- 01:09:33 SPEAKER_01 Nós temos os carros autônomos, drones, chat GPTs, algoritmos de imagem que o Breno mostrou aí.
- 01:09:42 SPEAKER_01 Nós temos também os robôs que já estão começando os testes dos robôs autonomos, os robôs com inteligência artificial, para fazer N coisas.
- 01:09:52 SPEAKER_01 Não sei se vocês viram esses dias foi publicado um vídeo no Instagram da fábrica de uma chinesa de carro, não é by AID.
- 01:10:06 SPEAKER_01 Não, não é a BID, não é uma outra.
- 01:10:09 Não vou lembrar o nome.
- 01:10:12 Não vou lembrar não.
- 01:10:13 SPEAKER_01 Mas que ela é praticamente100% de robôs.
- 01:10:17 SPEAKER_01 A construção de um carro todo é feita por robôs.
- 01:10:20 SPEAKER_01 Então, o que era futuro já está virando presente no nosso dia a dia.
- 01:10:24 Mas vamos lá.
- 01:10:26 SPEAKER_01 Agora o que.
- 01:10:27 SPEAKER_01 Qual é o meu objetivo hoje aqui com vocês?
- 01:10:30 SPEAKER_01 É apresentar um pouco do mundo da ciência de dados que a gente vê no dia a dia.
- 01:10:37 SPEAKER_01 Provavelmente vocês que usam redes sociais, nós que usamos redes sociais, já viram300 milhões de propagandas de cursos de ciência de dados.
- 01:10:47 SPEAKER_01 Com certeza vocês já viram várias.
- 01:10:48 SPEAKER_01 Com certeza vocês já viram vario especialistas inigência artificial vendendo alguma mentoria, alguma consultoria, etc.
- 01:10:57 SPEAKER_01 And principally iniciando, fica totalmente perdido.
- 01:11:05 SPEAKER_01 Sabe por quê?
- 01:11:06 SPEAKER_01 It's very common to perfil or an professor X, and esque Excel.
- 01:11:15 SPEAKER_01 You nunca will usually use Excel, Excel is totally indispensable.
- 01:11:18 SPEAKER_01 If you're a esquina the read social, and out of professor, out of coach, profissional false practice, Excel is o suficiente para você trabalhar com dados.
- 01:11:31 SPEAKER_01 E aí o fulaninho, coitado, ele vai falar.
- 01:11:35 SPEAKER_01 Fodeu, what you can do?
- 01:11:38 SPEAKER_01 You estudo Excel or not Excel.
- 01:12:00 SPEAKER_01 Então cresceu demais.
- 01:12:01 SPEAKER_01 As pessoas ficam totalmente perdidas, and my objective with sentiment dentro da nossa areia, tanto de carreira, tanto de treinamento, and exagero and mentira mesmo.
- 01:12:19 SPEAKER_01 Principally a salary, promesses, and other things.
- 01:12:33 SPEAKER_01 Não é uma notícia nova, relativamente antiga, but invoice, vocês acham que isso é uma própria típica.
- 01:12:46 SPEAKER_01 Vamos começar ali pelo próprio tipo.
- 01:12:48 SPEAKER_01 É um fato ou um mito, de acordo com a manchete apenas.
- 01:12:51 SPEAKER_01 A função mais técnica do século21 segue em alta no Brasil.
- 01:12:56 SPEAKER_01 Para quem que acha que é fato, que é verdade, levantam a mão.
- 01:13:01 SPEAKER_01 Para quem achar que é mentira.
- 01:13:03 SPEAKER_01 Para quem acha nada.
- 01:13:07 SPEAKER_01 Estamos divididos, estamos divididos.
- 01:13:09 Então vamos lá.
- 01:13:10 SPEAKER_01 De certa forma é.
- 01:13:13 SPEAKER_01 Só dando uma revivia rapidamente aqui para a gente não perder muito tempo.
- 01:13:18 SPEAKER_01 Essa notícia tem um tempo considerável, foi ali2013, mais ou menos,2014,10 anos.
- 01:13:30 SPEAKER_01 And a área estava começando a nascer no Brazil.
- 01:13:36 SPEAKER_01 Andamada science of dados, cientistas ofrece.
- 01:13:39 SPEAKER_01 Ela era chamada de mineration of dados in Brazil.
- 01:13:42 SPEAKER_01 Foi when I studied about the theme.
- 01:13:45 SPEAKER_01 Lá na minha graduação, ciência da computação, foi exatamente nesse ano que eu comecei a estudar sobre the thema.
- 01:13:50 SPEAKER_01 If you procure qualquer coisa de science of dados, você não achava quase nada in português.
- 01:13:55 SPEAKER_01 Data science, se você achar inglês, muita coisa.
- 01:13:59 SPEAKER_01 No Brasil chegou como mineração de dados.
- 01:14:01 SPEAKER_01 And this period se tornou verdade.
- 01:14:03 SPEAKER_01 Porém, as empresas começou a bater no seguinte questão que eu falei lá no início.
- 01:14:08 SPEAKER_01 Para você ter um algoritmo, or você ter uma análise descritiva qualquer, com estatística descritiva básica, você precisa de uma coisa, que é o quê?
- 01:14:18 Dos dados.
- 01:14:19 SPEAKER_01 E o que aconteceu?
- 01:14:20 SPEAKER_01 As empresas não tinham os dados.
- 01:14:22 SPEAKER_01 As bonitonas queriam contratar dois, três, quatro cientistas de dados, ou estatísticos, ou analistas de dados, que a Apple era chamada, nem existia cientistas de dados também na epoca, era mais analista, but não tinha os dados.
- 01:14:36 SPEAKER_01 Não tinha engenharia de dados para lá.
- 01:14:42 SPEAKER_01 Então eles simplesmente contrataram um monte de cientistas.
- 01:14:44 SPEAKER_01 Contratava um monte de cientistas, eu fui um deles, que chegava lá, beleza, cadê os dados.
- 01:14:49 SPEAKER_01 Ah, está lá no CNPq, está lá na Capes, está lá no Ministério do Seito das Quantas.
- 01:14:54 SPEAKER_01 Eu falei, beleza, e eu vou analisar o quê?
- 01:14:56 SPEAKER_01 Ah, coleta, aí o Zé Gatinha que ia fazer o quê?
- 01:15:00 O ETL.
- 01:15:02 SPEAKER_01 Então, as empresas começaram a travar nisso depois de um tempo.
- 01:15:06 SPEAKER_01 Mas hoje a gente pode dizer que isso está se tornando verdade novo.
- 01:15:09 SPEAKER_01 Por quê?
- 01:15:09 SPEAKER_01 Por conta das inteligências artificiais.
- 01:15:12 SPEAKER_01 Porque a área de engenharia de dados deu uma boa maturada.
- 01:15:15 SPEAKER_01 Até um tempo atrás, uns anos atrás, na verdade, tinha pesquisas dizendo que para cada um cientistas de dados tinha que ter pelo menos dois engenheiros.
- 01:15:23 SPEAKER_01 E as empresas começaram a contratar muito engenheiro de dados para quê?
- 01:15:27 SPEAKER_01 Para organizar a casa.
- 01:15:29 SPEAKER_01 E agora, agora, principalmente depois da pandemia, que a gente cresceu ali cinco anos em dois, três anos, a gente acelerou cinco anos nesse intervalo da pandemia, as empresas deram uma organizada.
- 01:15:41 SPEAKER_01 E agora estamos voltando o quê?
- 01:15:43 SPEAKER_01 A necessidade de um cientista de dados.
- 01:15:45 SPEAKER_01 Para inteligência artificial, para LLMs, para imagem, vídeo, ou até mesmo algoritmos tradicionais, tá, pessoal?
- 01:15:53 SPEAKER_01 Não pensem que existe só e a generativa, não.
- 01:15:58 SPEAKER_01 Muita empresa, eu estou prestando serviço no banco do Brasil, e nós temos setores ali que a gente está resolvendo problema com cluster.
- 01:16:05 SPEAKER_01 Cluster básico, estatística básica de distância.
- 01:16:08 SPEAKER_01 Cálculos estatísticos de distância e a gente está resolvendo os problemas ali lá na área.
- 01:16:12 SPEAKER_01 Nem tudo vai voltar para ir à generativa.
- 01:16:16 SPEAKER_01 Então tome cuidado desse hype da área de mercado.
- 01:16:21 SPEAKER_01 Aí a gente volta aqui, beleza, a profissão de cientistas de dados é a mais procurada do século XXI.
- 01:16:27 SPEAKER_01 Isso se tornou um pouco de atenção, pelo motivo que eu te falo, eu falei para vocês.
- 01:16:32 SPEAKER_01 As empresas começaram a procurar muitos engenheiros de dados para organizar a casa, depois foram organizando.
- 01:16:39 SPEAKER_01 E aí vem o assunto do momento.
- 01:16:42 SPEAKER_01 A inteligência artificial.
- 01:16:42 SPEAKER_01 The inteligência artificial vai acabar com os empregos in todo o mundo.
- 01:16:48 SPEAKER_01 In other palavras, nós estamos incluídos.
- 01:16:52 SPEAKER_01 Inteligência artificial vai acabar com todos os empregos.
- 01:16:55 SPEAKER_01 Vamos colocar um parênteses.
- 01:16:56 SPEAKER_01 Vai acabar com cientistas de dados?
- 01:16:59 SPEAKER_01 Mito fato.
- 01:17:00 SPEAKER_01 Can I think that's verdict?
- 01:17:02 SPEAKER_01 Levant a mãozinha for tio.
- 01:17:04 SPEAKER_01 Ninguém acha que é verdade.
- 01:17:05 SPEAKER_01 Can't mentira.
- 01:17:08 SPEAKER_01 Can I ask that.
- 01:17:11 SPEAKER_01 The pessoal ask that mentira.
- 01:17:14 SPEAKER_01 Mentira ganhou, na verdade, so.
- 01:17:19 SPEAKER_01 Um ponto de atenção.
- 01:17:22 SPEAKER_01 Personal, IA está avançando no ponto.
- 01:17:32 SPEAKER_01 Toda alguma coisa nova.
- 01:17:34 SPEAKER_01 But I lançou algumas coisas mais relacionadas a análise de dados.
- 01:17:41 SPEAKER_01 Você joga os dados lá, pede para ela analisar a tabela, anda e analisa iniciais, obviamente, mas faz.
- 01:17:51 SPEAKER_01 Aí a gente pensa the lascou.
- 01:18:02 SPEAKER_01 É dois tempos.
- 01:18:05 SPEAKER_01 But particularly penso muchas, you follow, cara, I preciso me reventar.
- 01:18:11 SPEAKER_01 I preciso fazer algo diferente.
- 01:18:13 SPEAKER_01 Senão ela vai comer meu emprego.
- 01:18:15 SPEAKER_01 Ando nisso, obviamente que eu não sou besta, só que a gente tem que racionalizar um pouco ali com a emoção, but com a razão.
- 01:18:29 SPEAKER_01 Come eu disse anteriormente, a gente tem que tomar cuidado com hype.
- 01:18:32 SPEAKER_01 And so no me engano é um gráfico do Gardner.
- 01:18:35 SPEAKER_01 You colocar aqui esqueci.
- 01:18:38 SPEAKER_01 É um gráfico da Gartner that the seguinte.
- 01:18:40 SPEAKER_01 Mostra o seguinte como funciona essas novidades da nossa área especificamente da ciência de dados.
- 01:18:47 SPEAKER_01 Ela começa aqui, o lançamento, aí ela baixa, meio que por falta de profissionais.
- 01:18:55 SPEAKER_01 Aí as empresas que estão desenvolvendo essas soluções, Google, Meta, OpenI, começa a desenvolver soluções para facilitar para outras pessoas e outras empresas utilizarem.
- 01:19:06 SPEAKER_01 For example, as APIs.
- 01:19:09 SPEAKER_01 Lançou as APIs para todos os empresas usarem.
- 01:19:11 SPEAKER_01 Aí volta o quê?
- 01:19:12 O hype.
- 01:19:13 SPEAKER_01 Todo mundo utilizando o IA, todo mundo utilizando LM, todos usando.
- 01:19:17 SPEAKER_01 Quando chega o pico, ela desaba novamente.
- 01:19:21 SPEAKER_01 Porque lá chega no pico, the one who asked que está arrebentando, está arrebentando a boca do balão, aí bate na parede e assim, lascou, não é bem assim.
- 01:19:32 SPEAKER_01 I começa a normalizar as coisas.
- 01:19:38 SPEAKER_01 Samsung.
- 01:19:40 SPEAKER_01 Os profissionais da Samsung mandando os códigos confidenciais para o chat GPT, na versão gratuita, deu uma OBO, o que a Samsung fez?
- 01:19:49 SPEAKER_01 Cortou os acessos.
- 01:19:50 SPEAKER_01 Ninguém use chat GPT.
- 01:19:52 SPEAKER_01 Tem empresas no Brasil que estão limitando por conta que elas não sabem o que a OpenI faz com os dados.
- 01:19:58 SPEAKER_01 Estava até conversando com o professor mais cedo.
- 01:20:01 SPEAKER_01 Reza lenda that quem paga a API notem seus dados armazenados pela OpenI.
- 01:20:06 SPEAKER_01 Reza linda.
- 01:20:07 SPEAKER_01 I particularmente não acredito.
- 01:20:09 SPEAKER_01 Você jogou os dados lá, meu amigo, é um buraco negro.
- 01:20:13 SPEAKER_01 You não acredito nesse papo furado, não.
- 01:20:15 SPEAKER_01 Quem viu os vazamentos dos documentos da Google viu lá.
- 01:20:18 SPEAKER_01 A Google vivia falando that usa aqui proteção de dados, sei o quê, o quê, o seu quê, sei lá, mas os dados, faz o documentos, na verdade, and viu que nada se batiam com o que a Globo falava.
- 01:20:29 SPEAKER_01 So tem esse momento.
- 01:20:31 SPEAKER_01 Andí vem essa parte.
- 01:20:33 SPEAKER_01 Cara, vai acabar com alguns carros, alguns empregos?
- 01:20:36 SPEAKER_01 Vai.
- 01:20:37 SPEAKER_01 Vai comer alguns cargos de engenheiro.
- 01:20:38 SPEAKER_01 Alguns cargos de engenheiros, de cientistas, de analistas, vai.
- 01:20:43 SPEAKER_01 Não tem para onde correr.
- 01:20:44 SPEAKER_01 Mas não vai acabar.
- 01:20:54 SPEAKER_01 Porém, nem toda empresa will be essa condição técnica andar comprando serviço da meta, da Open AI da Google para implementar na sua empresa.
- 01:21:05 SPEAKER_01 As vezes é mais barato você contratar um professional, mesmo que fechado, or até mesmo como consultoria, está mais barato fazer essa contratação do que você contratar uma API from the grandes empresas.
- 01:21:16 SPEAKER_01 Então está meio que incerto.
- 01:21:18 SPEAKER_01 Is certain que vai acabar com algumas coisas?
- 01:21:21 SPEAKER_01 É certo que a gente vai ter que se reivindicar, nós profissionais, andantes que querem entrar na área, vão ter que se reivindicar desde já?
- 01:21:27 SPEAKER_01 É também.
- 01:21:28 SPEAKER_01 Mas a gente só precisa ter um pouco de calma, paciência.
- 01:21:37 SPEAKER_01 Cientista de dados do zero ao PRO.
- 01:21:41 SPEAKER_01 Vocês se tornaram analista de dados, era capaz de.
- 01:21:45 SPEAKER_01 Num curso de Mansor.
- 01:21:48 A primeira reporta, primeiro título.
- 01:21:50 O segundo.
- 01:21:51 SPEAKER_01 O diferencial competitivo para alavancar sua carreira, se um cientista de dados, o profissional mais cobiçado atualmente by the grandes empresas.
- 01:22:00 SPEAKER_01 Formação completa e inédita.
- 01:22:03 Vamos lá, pessoal.
- 01:22:04 Duas perguntas.
- 01:22:06 SPEAKER_01 É possibil se tornar um cientista de dados do zero ao PRO com um curso de capacitação?
- 01:22:17 Can I ask that?
- 01:22:19 Can I?
- 01:22:37 SPEAKER_01 Fazer curso, sim ou não depende.
- 01:22:43 SPEAKER_01 A gente adora falar dependio, né?
- 01:22:45 SPEAKER_01 Eu lá no trabalho adora falar dependente.
- 01:22:47 SPEAKER_01 Pô, depende.
- 01:22:48 SPEAKER_01 Dá para fazer tal coisa?
- 01:22:49 SPEAKER_01 Depende.
- 01:22:50 Então vamos lá.
- 01:22:54 SPEAKER_01 Cientista de dados do Zero ao PRO, não vai.
- 01:22:57 SPEAKER_01 Com curso não vai.
- 01:22:59 SPEAKER_01 Eu falo isso muito para os meus alunos.
- 01:23:01 SPEAKER_01 Vivem me perguntando, ah, se eu fizer um curso tal, se eu estudar12 horas por dia,15 horas por dia, não sei quantas vezes por dia, durante não sei quantos tempos, eu vou me tornar um avançado em inteligência artificial, um avançado in Python, etc.
- 01:23:14 SPEAKER_01 Eu falo, não.
- 01:23:15 SPEAKER_01 Infelizmente não vai.
- 01:23:17 SPEAKER_01 Por quê?
- 01:23:18 SPEAKER_01 Uma coisa é você na sua casa sem pressão, sem chefe do seu ouvido aqui, e sem você correr o risco de fazer uma besteira e dar prejuízo de alguns milhões para a empresa.
- 01:23:28 SPEAKER_01 Outra coisa é você in casa, assistindo Pokémon, tomando seu café e programando.
- 01:23:36 SPEAKER_01 So a pessoa se tornar avançado, profissional, sênior mesmo, no tiro e porrada de bomba na empresa do dia a dia.
- 01:23:45 SPEAKER_01 Isso é fato e isso é comprovado.
- 01:23:47 SPEAKER_01 Mas é possível com os estudos, com o curso e etc.
- 01:23:51 SPEAKER_01 Você se tornar pelo menos ali um intermediário.
- 01:23:53 SPEAKER_01 O que seria intermediário?
- 01:23:55 SPEAKER_01 Você recebe uma tabela, um Excel, um CSV, e seu chefe fala assim, cara, pega essa base para mim e faz uma análise descritiva.
- 01:24:04 SPEAKER_01 E você vai lá, e faz.
- 01:24:06 SPEAKER_01 Sabe para onde ir.
- 01:24:08 SPEAKER_01 A inteligência artificial, vai fazer por conta própria, não importa.
- 01:24:12 SPEAKER_01 Mas você sabe para onde ir.
- 01:24:13 SPEAKER_01 Isso é um conhecimento intermediário.
- 01:24:15 SPEAKER_01 Agora você se deparou com um erro que nunca viu na vida, é só de mercado.
- 01:24:20 SPEAKER_01 Você não vai conseguir simular todos os erros possíveis que a gente acontece na empresa, com os gatos que outras pessoas fazem, que nós fazemos e a gente não lembra das gato, não.
- 01:24:31 SPEAKER_01 Pequenas adaptações para melhor funcionamento do nosso código.
- 01:24:34 Não é gato.
- 01:24:36 SPEAKER_01 Então não tem como.
- 01:24:38 Então.
- 01:24:39 É marketing.
- 01:24:41 É.
- 01:24:42 É errado.
- 01:24:44 SPEAKER_01 Aí depende do que cada um vai considerar certo e errado.
- 01:24:47 SPEAKER_01 Porque ele falou assim, ah, se tornou sentido de dados do zero ao Pro.
- 01:24:52 SPEAKER_01 Eu acho errado.
- 01:24:54 SPEAKER_01 Aí outras pessoas não acham, e beleza.
- 01:24:56 SPEAKER_01 O diferencial competitivo pro alavancar sua carreira.
- 01:25:00 SPEAKER_01 Cara, tem cursos muito bons que vai fazer isso por você.
- 01:25:03 SPEAKER_01 Tem cursos ali de40 horas, que vai te dar insights, prática, desenvolvimento muito bons, que vai conseguir te orientar.
- 01:25:12 SPEAKER_01 Que vai focar muito na prática, muito em dados reais, que quando você chegar num.
- 01:25:20 SPEAKER_01 Um primeiro trabalho como Júnior, como treining, ou como estagiário, e você vai falar, putz, eu já vi isso daqui.
- 01:25:26 SPEAKER_01 Então, por exemplo, tratar valores anômulos, os conhecidos outliers, ou os valores faltantes, conhecidos os valores nulos, é possível de você aprender isso no curso e replicar no seu dia a dia no trabalho.
- 01:25:41 SPEAKER_01 É totalmente possível.
- 01:25:42 SPEAKER_01 Então tem cursos que realmente.
- 01:25:44 SPEAKER_01 E esse é um dos que fez uma propaganda justa.
- 01:25:48 SPEAKER_01 Vai ser um diferencial pra sua carreira.
- 01:25:50 SPEAKER_01 Então dá pra ser assim sim sim sim.
- 01:25:54 SPEAKER_01 A dos salários.
- 01:25:55 SPEAKER_01 Os salários são os melhores, eu que mais me divirto.
- 01:25:58 SPEAKER_01 Temos duas propagandas aqui.
- 01:26:00 SPEAKER_01 Uma.
- 01:26:02 SPEAKER_01 Pequeno parênteses, eu estou tampando nome, vou tampar nomes, vou tampar caras de pessoas, porque tudo isso são fatos, tá?
- 01:26:10 SPEAKER_01 Dados baseados em fatos reais.
- 01:26:13 SPEAKER_01 De rede social, LinkedIn.
- 01:26:15 SPEAKER_01 Rede social no geral, propaganda.
- 01:26:16 SPEAKER_01 E como eu ainda não fiz6 em7 ou7 em7, em outras palavras, não ganhei alguns milhões vendendo cursos, eu não tenho o dinheiro pra pagar advogado e nem process.
- 01:26:28 SPEAKER_01 Então eu estou apagando, tampando tudo.
- 01:26:32 Mas vamos lá.
- 01:26:33 SPEAKER_01 Esse primeiro é uma propaganda de um curso, os dois, na verdade, e um falando assim.
- 01:26:42 SPEAKER_01 O salário mensal médio de um profissional, de um profissional da área de dados, é de8 mil e300 reais.
- 01:26:49 SPEAKER_01 Podendo chegar a14 mil, aí ele coloca ali até a referência.
- 01:26:53 SPEAKER_01 Valor referência do Glassdoor.
- 01:26:55 SPEAKER_01 Puts, olha só, uma referência real.
- 01:26:58 Beleza.
- 01:26:59 SPEAKER_01 Aí tem um outro, um curso.
- 01:27:01 SPEAKER_01 Esse eu vou até usar referência.
- 01:27:04 SPEAKER_01 Esse curso é de uma empresa, não sei se vocês lembram, de uma moça que falava assim, Oi, meu nome é tal, eu tenho21 anos e já tenho um milhão de reais na minha conta.
- 01:27:15 SPEAKER_01 Não citem nomes, mas essa empresa que fez.
- 01:27:19 SPEAKER_01 vender esse curso do nada, quando eu vi eu falei, caracas, meu irmão.
- 01:27:24 SPEAKER_01 Do nada os caras faziam investimento e do nada que os caras estão vendendo um curso de ciência de dados.
- 01:27:29 SPEAKER_01 Mas bem na pegada deles, né?
- 01:27:31 SPEAKER_01 Cinco vagas de trabalho ao final do curso, com salários de até25 mil reais.
- 01:27:38 Vamos lá.
- 01:27:39 SPEAKER_01 A primeira ali, de8.300
- 01:27:41 SPEAKER_01 reais.
- 01:27:42 SPEAKER_01 O que vocês acham?
- 01:27:43 SPEAKER_01 Faz sentido?
- 01:27:47 SPEAKER_01 A segunda faz sentido?
- 01:27:51 SPEAKER_01 Se eu falar para vocês que as duas faz sentido.
- 01:27:53 SPEAKER_01 Vocês acreditam em mim?
- 01:28:01 SPEAKER_01 As duas estão falsas, né?
- 01:28:02 SPEAKER_01 Vamos lá.
- 01:28:03 SPEAKER_01 Qual é o problema disso daqui?
- 01:28:05 Hoje, vamos lá.
- 01:28:08 SPEAKER_01 Vamos começar por partes aqui, com alguns conceitos técnicos de estatística.
- 01:28:12 SPEAKER_01 Quem já leu como mentir com estatística?
- 01:28:16 SPEAKER_01 Gente, vocês querem trabalhar na área e nunca leu esse livro?
- 01:28:21 SPEAKER_01 Não, na próxima eu vou trazer um livro desse para sortear aqui para vocês.
- 01:28:24 SPEAKER_01 Isso é a Bíblia de quem quer trabalhar com dados, tá?
- 01:28:27 SPEAKER_01 Como emitir com estatística.
- 01:28:29 SPEAKER_01 É obrigatório para vocês lerem quem é trabalhar.
- 01:28:30 SPEAKER_01 É obrigatório para vocês lerem que é trabalhar com dados, ou não quiserem ser enganados.
- 01:28:35 SPEAKER_01 Eu prefiro, eu não quis ser enganado mais, eu fui lá e li esse livro muito bom, de1950.
- 01:28:42 SPEAKER_01 E tem coisas que bate lá com a realidade até hoje.
- 01:28:45 Fecha parênteses.
- 01:28:47 SPEAKER_01 Vamos lá.
- 01:28:47 SPEAKER_01 Salário mensal de8.300
- 01:28:50 SPEAKER_01 reais.
- 01:28:51 SPEAKER_01 Ah, mas ele colocou a fonte do Glassdoor.
- 01:28:53 SPEAKER_01 Esse é o problema.
- 01:28:54 SPEAKER_01 Sabe por quê?
- 01:28:55 SPEAKER_01 Eu sempre alerta isso para os meus alunos.
- 01:28:57 SPEAKER_01 Cara, entra lá no Glassdoor e olha o salário médio de você da sua área.
- 01:29:02 SPEAKER_01 Beleza, porque muita gente tem essa dúvida.
- 01:29:04 SPEAKER_01 Ah, qual é o salário médio para tal, para tal, tal?
- 01:29:06 SPEAKER_01 Normal.
- 01:29:06 SPEAKER_01 Aí a gente sempre recomenda, vai no Glass Dó, que é o site mais popular.
- 01:29:10 SPEAKER_01 A questão é, o Glassdoor, ele tem um range muito grande de disparidade, que a gente chama de variabilidade dos dados.
- 01:29:19 SPEAKER_01 Então a média é8 mil, mas ele já coloca ali, chega na14 mil.
- 01:29:23 SPEAKER_01 Por quê?
- 01:29:24 SPEAKER_01 Alguém registrou14 mil reais de salário.
- 01:29:27 SPEAKER_01 Então essa média não vai representar bem a média.
- 01:29:31 SPEAKER_01 Primeira coisa é essa variabilidade dos dados.
- 01:29:33 SPEAKER_01 Então, a discrepância dos dados de um canto para o outro.
- 01:29:37 SPEAKER_01 Outro ponto, região.
- 01:29:40 SPEAKER_01 Se você pega a média salarial aqui de Brasília, está em torno ali, para Júnior, está em torno de4 mil e500,5 mil reais para cientistas de dados.
- 01:29:50 SPEAKER_01 Se você pega São Paulo, vai para9 mil,7 mil, ali a variabilidade de7 mil.8
- 01:29:56 SPEAKER_01 mil,7 mil reais para júnior.
- 01:29:58 SPEAKER_01 Mas quando você vai ver ali nos pés menores, o que puxa muito o salário lá de São Paulo, banco, Itaú paga dois mil e pouco para estagiário.
- 01:30:09 SPEAKER_01 Então, o estagiário ganha mais do que muitos profissionais por aí.
- 01:30:13 SPEAKER_01 Aí você vai pegar as outras empresas que não seja, não é banco, o salário ali é3 mil,4 mil, mesma média daqui em média nacional.
- 01:30:21 SPEAKER_01 Está em torno ali de4 mil.
- 01:30:22 SPEAKER_01 Varia entre4 e5 mil reais.
- 01:30:25 SPEAKER_01 Então o Glassdoor é uma fonte?
- 01:30:27 SPEAKER_01 É, é uma fonte real?
- 01:30:29 SPEAKER_01 É.
- 01:30:28 SPEAKER_01 É uma fonte real?
- 01:30:29 SPEAKER_01 É.
- 01:30:30 SPEAKER_01 É confiável?
- 01:30:31 SPEAKER_01 Depende de como você usa.
- 01:30:33 SPEAKER_01 Então, ali eles não falaram como é que fizeram o range.
- 01:30:36 SPEAKER_01 Ali eles não falaram como é que se filtaram.
- 01:30:38 SPEAKER_01 Eles até citaram ali em14 mil reais, beleza.
- 01:30:41 SPEAKER_01 Mas essa média não representa uma média para o seu caso.
- 01:30:46 SPEAKER_01 Essa média não representa a média para um carinha que mora lá, sabe se longe quer.
- 01:30:51 SPEAKER_01 Essa média não fala nem qual o cargo que é.
- 01:30:55 Entende?
- 01:30:56 SPEAKER_01 Então, muita coisa pode interferir.
- 01:30:58 SPEAKER_01 Então tem que tomar cuidado com essas médias salariais.
- 01:31:01 SPEAKER_01 Tem até um vídeo muito bom do Aquita, depois vocês procuram no YouTube.
- 01:31:06 SPEAKER_01 Problemas de média salarial a Kita.
- 01:31:09 SPEAKER_01 No YouTube ele explica qual o problema de analisar apenas a média.
- 01:31:12 SPEAKER_01 E o outro caso, obviamente, é uma mentira.
- 01:31:19 SPEAKER_01 A gente pode considerar como uma mentira, eu coloquei uma exclamação ali com um ponto de verdade.
- 01:31:24 SPEAKER_01 Por quê?
- 01:31:25 Duas questões.
- 01:31:26 SPEAKER_01 Duas questões.
- 01:31:28 SPEAKER_01 Eles falaram cinco vagas de trabalho ao final do curso com salário de até25 mil reais.
- 01:31:33 SPEAKER_01 Tem dois pontos aí.
- 01:31:35 SPEAKER_01 Eles estão dizendo que quem terminar o curso vai concorrer, vai ter cinco vagas para ser concorrida com esse salário.
- 01:31:41 SPEAKER_01 Pode ser dentro da empresa deles, ou pode ser qualquer outra empresa como eles quiserem.
- 01:31:47 SPEAKER_01 Esse é o primeiro ponto, então pode acontecer.
- 01:31:49 SPEAKER_01 Pode acontecer deles quererem pagar25 mil reais por profissional.
- 01:31:53 SPEAKER_01 Eu, eu particularmente, não tive notícia de ninguém que fez esse curso e foi contratado com esse salário.
- 01:31:59 SPEAKER_01 Eu tenho certeza absoluta, se alguém fosse contratado, a primeira coisa que ia fazer é colocar no LinkedIn.
- 01:32:03 SPEAKER_01 Até hoje ninguém apareceu com esse com essa vaga nessa empresa.
- 01:32:09 SPEAKER_01 Segundo ponto, eles colocaram o APE.
- 01:32:12 SPEAKER_01 Então, meu amigo, o salário mínimo e até25 mil reais está dentro do ATE.
- 01:32:17 SPEAKER_01 Você pode ser contratado, ganhando um salário mínimo.
- 01:32:20 SPEAKER_01 Ganhando lá.
- 01:32:21 SPEAKER_01 Quanto está salário mínimo hoje?2
- 01:32:22 SPEAKER_01 mil e pouco?
- 01:32:23 Mil e o800?
- 01:32:28 SPEAKER_01 1.300,
- 01:32:29 SPEAKER_01 no redundar,1.300.
- 01:32:30 SPEAKER_01 Beleza, está dentro dos dados do ring.
- 01:32:33 SPEAKER_01 Eles não estão mentindo.
- 01:32:33 SPEAKER_01 Ah, eu vou processar vocês que vocês mentiram.
- 01:32:36 SPEAKER_01 No, não.
- 01:32:36 SPEAKER_01 Eu coloquei até25 mil reais.
- 01:32:39 SPEAKER_01 Eu não falei que era um salário de25 mil reais.
- 01:32:42 SPEAKER_01 E isso não são só eles não, tá?99%
- 01:32:46 SPEAKER_01 das pessoas usam esse macetezinho aí de até, quando relacionada a salário.
- 01:32:52 SPEAKER_01 Esse daqui são recentes.
- 01:32:54 SPEAKER_01 Menos aqui do professor ali na frente lá.
- 01:32:57 SPEAKER_01 Ainda relacionado a salários.
- 01:32:59 SPEAKER_01 Então, primeiro caso lá em cima, esse é um professor bem antigo, diretor acadêmico de uma faculdade, que ele falou com essas seguintes palavras.
- 01:33:11 SPEAKER_01 Com seis meses de graduação, ou seja, a pessoa terminou a graduação, está ganhando90 mil reais.
- 01:33:17 SPEAKER_01 Isso in2015.2015?2015.
- 01:33:23 SPEAKER_01 Foi a primeira vez que eu peguei isso e fiz uma apresentação lá no IESB sobre esse assunto.2015,
- 01:33:31 SPEAKER_01 um salário de90 mil reais, que hoje é que valeria aí uns15 mil reais, mais ou menos, pegando ali os reajustes, o acompanhamento do mercado, não do valor monetário em si, mas do mercado.
- 01:33:44 SPEAKER_01 Cara, uma pessoa que está com seis meses de experiência, não vai ganhar15 mil reais.
- 01:33:51 SPEAKER_01 Não vai ganhar10 mil reais assim, se ela não for a diferenciada.
- 01:33:57 SPEAKER_01 Se ela for diferenciada, sabe qual é a chance dela estar numa faculdade?
- 01:34:01 Mínimas.
- 01:34:03 SPEAKER_01 Ela está lá criando um negócio, abrindo uma empresa.
- 01:34:06 SPEAKER_01 Com guardadas algumas exceções, tá?
- 01:34:10 SPEAKER_01 O outro caso ali, torna-se um analista de dados e ganhe mais de10 mil reais por mês.
- 01:34:16 SPEAKER_01 Eu nem fiz a pergunta, já estou dando a resposta para vocês.
- 01:34:19 SPEAKER_01 Mito ou verdade.
- 01:34:21 Mito fato.
- 01:34:22 SPEAKER_01 Torna-se um analista de dados e ganhe mais de10 mil reais. por mês.
- 01:34:28 Verdade?
- 01:34:29 SPEAKER_01 O que vocês acham?
- 01:34:30 SPEAKER_01 Devanta a mão quem acha verdade.
- 01:34:32 Quem acha mentira?
- 01:34:34 Que não acha nada.
- 01:34:35 SPEAKER_01 Quem acha depende.
- 01:34:36 SPEAKER_01 Não vou falar mais acha, não, vou falar depende.
- 01:34:38 Quem acha dependem?
- 01:34:39 SPEAKER_01 Depende sempre vai ganhar.
- 01:34:41 SPEAKER_01 Beleza.
- 01:34:42 SPEAKER_01 A gente vai ver esse daí.
- 01:34:43 SPEAKER_01 Agora esse daqui é atual.
- 01:34:44 SPEAKER_01 Esse aqui é o conhecido.
- 01:34:46 SPEAKER_01 Se vocês procurarem, principalmente no LinkedIn.
- 01:34:49 SPEAKER_01 Olha aí que ele me tem confusão.
- 01:34:51 SPEAKER_01 Data Poney.
- 01:34:53 SPEAKER_01 Eu chamo ele de coach dos dados.
- 01:34:55 SPEAKER_01 Vou te mostrar como ganhar5 mil reais em90 dias.
- 01:35:03 É possível?
- 01:35:06 SPEAKER_01 Não é possível?
- 01:35:07 Ou depende?
- 01:35:09 O que vocês acham?
- 01:35:16 SPEAKER_01 Vou te mostrar como ganhar5 mil reais em90 dias.
- 01:35:20 SPEAKER_01 Ser contratado.
- 01:35:23 SPEAKER_01 Ser contratado em90 dias você vai ser contratado para ganhar5 mil reais.
- 01:35:36 SPEAKER_01 Vamos ali pro terceiro.
- 01:35:38 SPEAKER_01 Quanto tempo você levou para atingir os50 mil reais?
- 01:35:41 SPEAKER_01 Porque ele se vende como o profissional que ganha50 mil reais com dados, trabalhando com dados.
- 01:35:47 SPEAKER_01 Aí ele falou ali, primeiro ano6 mil.
- 01:35:52 SPEAKER_01 Ele nem falou90 dias, ele falou primeiro ano.
- 01:35:54 SPEAKER_01 Ele vende90 dias.
- 01:35:55 SPEAKER_01 É a mesma pessoa, tá?
- 01:35:57 SPEAKER_01 Segundo ano,10 mil, terceiro ano50 mil.
- 01:36:01 SPEAKER_01 Quarto ano, tenho que fazer a média, mas deve estar aí próximo de80 mil.
- 01:36:05 SPEAKER_01 Quinto ano, meta de milhões.
- 01:36:08 SPEAKER_01 Depende, fato.
- 01:36:11 Verdade.
- 01:36:13 Mentira.
- 01:36:16 SPEAKER_01 Vamos lá, vamos lá.
- 01:36:20 SPEAKER_01 Aqui do professor já falei, né?
- 01:36:22 SPEAKER_01 Nem tem o que discutir.
- 01:36:23 SPEAKER_01 Ainda mais da
- 01:36:22 SPEAKER_01 Nem tem o que discutir.
- 01:36:23 SPEAKER_01 Ainda mais10 anos atrás, quem ia sair da faculdade de6 meses e para ganhar10 mil reais.
- 01:36:29 SPEAKER_01 O segundo ali, do analista de dados, ganhar mais de2 mil reais.
- 01:36:35 SPEAKER_01 Não é mentira.
- 01:36:36 SPEAKER_01 Você pode se tornar um analista de dados para ganhar10 mil reais.
- 01:36:41 SPEAKER_01 Porém, não é com um curso.
- 01:36:43 SPEAKER_01 Você vai ralar, meu amigo, ralar alguns anos aí, a não ser mais uma vez.
- 01:36:49 SPEAKER_01 As exceções de mercado sempre vai existir exceções.
- 01:36:53 SPEAKER_01 Um cara fora da média, e ele vai em um ano ser top ali na empresa e vai ganhar uns10 mil reais.
- 01:37:02 SPEAKER_01 Mas isso é exceção da exceção da exceção.
- 01:37:05 SPEAKER_01 A gente não encontra em qualquer esquina um profissional desses.
- 01:37:08 SPEAKER_01 Mas acontece, mas no geral não.
- 01:37:10 SPEAKER_01 E as empresas de marcha, elas fazem o contrário.
- 01:37:13 SPEAKER_01 Ela pega a exceção, coloca como regra.
- 01:37:18 SPEAKER_01 Vou te mostrar como ganhar5 mil reais em90 dias.
- 01:37:21 SPEAKER_01 Esse daí não é que você vai ganhar5 mil reais in3 meses fazendo algum trabalho.
- 01:37:27 SPEAKER_01 É você estudar90 dias andratado para ganhar5 mil reais.
- 01:37:33 Entende?
- 01:37:35 SPEAKER_01 Cara, isso daqui já deu muito pra fafar no LinkedIn, principalmente.
- 01:37:40 SPEAKER_01 É possível?
- 01:37:41 SPEAKER_01 É.
- 01:37:42 SPEAKER_01 Vai acontecer com todo mundo, ou com a maioria?
- 01:37:45 SPEAKER_01 Não.
- 01:37:45 Não vai.
- 01:37:46 SPEAKER_01 Você vai ralar pra caramba ali8 meses,10 meses,1 ano, aí você vai conseguir um salário, que a média salarial é esse para quem está começando.
- 01:37:54 SPEAKER_01 Entre4 e5 mil reais aqui em Brasília, aqui em Brasília está em torno disso daí, entre4 e meio,5 mil reais para analistas e cientistas de dados, algo em torno disso também.
- 01:38:04 SPEAKER_01 Então, ele vem de mentorias, ele faz uns esquemas lá muito louco, alguns consideram antiéticos, and alguns consideram até que pode ser problema, ter problemas judiciais, para colocar esses90 dias aí.
- 01:38:20 SPEAKER_01 Mas tranquilo.
- 01:38:20 SPEAKER_01 Mas trampiqueiro.
- 01:38:22 SPEAKER_01 E o outro, a mesma coisa.
- 01:38:24 SPEAKER_01 Ali, coloquei um ponto de atenção.
- 01:38:28 SPEAKER_01 Não é totalmente mentira, porém foi o que o Jonas falou aqui.
- 01:38:33 SPEAKER_01 Ele ganha isso tudo com dados?
- 01:38:36 SPEAKER_01 Ganha.
- 01:38:37 SPEAKER_01 Mas ele não ganha sendo analista de dados ou cientista de dados.
- 01:38:40 SPEAKER_01 Ele ganha vendendo curso.
- 01:38:43 É possível?
- 01:38:44 SPEAKER_01 É.
- 01:38:46 SPEAKER_01 Ele vem de cursos sobre dados.
- 01:38:49 SPEAKER_01 Então, de certa forma ele não mentiu.
- 01:38:52 SPEAKER_01 Aí quem é P vai lá e paga o que ele pedir.
- 01:38:56 SPEAKER_01 Ferramentas.
- 01:38:57 SPEAKER_01 Ferramentas aqui é outro problema bem, bem, bem crítico in nossa área, e é normal, vocês já vão ver mais pra frente.
- 01:39:07 SPEAKER_01 A propaganda era a seguinte coisa.
- 01:39:09 SPEAKER_01 É incrível, na verdade usa a palavra é engraçado.
- 01:39:13 SPEAKER_01 É engraçado como as pessoas mentem por aí pra você, dizendo pra você que precisa de50 mil ferramentas para que tu possa trabalhar com tecnologia.
- 01:39:27 SPEAKER_01 Quem acha que a gente precisa de muitas ferramentas para trabalhar com tecnologia como um todo, não só na área de dados.
- 01:39:32 SPEAKER_01 Muita tecnologia, vamos dizer assim.
- 01:39:34 SPEAKER_01 Quem já viu divulgação de vagas, no LinkedIn, site de empresa, tanto faz.
- 01:39:43 Cloud.
- 01:39:44 É muito comum.
- 01:39:45 SPEAKER_01 Ah, você precisa ter conhecimento em cloud.
- 01:39:47 SPEAKER_01 Qual?
- 01:39:48 SPEAKER_01 Azure, AWS, GCP, Databricks, não sei o quê, da Magalu, que foi lançado esses dias, precisa conhecer todas as vagas.
- 01:39:59 SPEAKER_01 Todas as clouds.
- 01:40:00 SPEAKER_01 Quem já viu vagas assim do tipo?
- 01:40:02 SPEAKER_01 Ou linguagem de programação, né?
- 01:40:04 SPEAKER_01 Você tem que saber Python, R, Java, PHP, C
, C Sharp e não sei o quê. - 01:40:09 SPEAKER_01 Cara, a gente vê isso todo dia.
- 01:40:12 SPEAKER_01 Especialmente para quem trabalha nessa parte acadêmica, treinamento, etc.
- 01:40:15 SPEAKER_01 Recrutamento, entrevista de pessoas, a gente vê isso todo santo dia.
- 01:40:20 SPEAKER_01 E é normal a gente ver isso todo santo dia.
- 01:40:24 SPEAKER_01 A gente tem que saber filtrar, porque os RHs, eles são meio doidinhos, coitado.
- 01:40:45 SPEAKER_01 No back end, aí ela vai lá e sai pegando as palavras-chave e coloca.
- 01:40:49 SPEAKER_01 Mas eu, particularmente, eu nunca vi, pelo menos nos últimos anos, ninguém vendendo curso ou treinamento, ou consultoria, ou mentoria ou coisa do tipo, falando que você tem que aprender três, quatro linguagens de programação para entrar na área de mercado.
- 01:41:07 Na área de dados.
- 01:41:08 SPEAKER_01 Eu basicamente nunca vi.
- 01:41:10 SPEAKER_01 Aí o que ele fez aqui?
- 01:41:12 SPEAKER_01 Criou que a gente, na área de marketing, a gente chama de um inimigo comum.
- 01:41:18 SPEAKER_01 O inimigo comum é o quê?
- 01:41:20 SPEAKER_01 Cara, o que eu preciso aprender para entrar na área de dados?
- 01:41:24 SPEAKER_01 Foi o que eu falei lá no começo.
- 01:41:25 SPEAKER_01 Preciso aprender Python?
- 01:41:27 SPEAKER_01 Precisa aprender Excel?
- 01:41:28 SPEAKER_01 Precisa aprender R, precisa aprender Java, sei o que lá, sei o que lá.
- 01:41:32 SPEAKER_01 E ele foi.
- 01:41:33 SPEAKER_01 Ele criou um problema que não existe, but it's certainly.
- 01:41:38 SPEAKER_01 Nesse caso aí ele está certo.
- 01:41:39 SPEAKER_01 Porque o quê?
- 01:41:40 SPEAKER_01 Não precisa.
- 01:41:41 SPEAKER_01 A gente tem que discernir.
- 01:41:43 SPEAKER_01 Qual é a principal linguagem de programação para tratar hoje com dados?
- 01:41:48 SPEAKER_01 Seja inteligência artificial, seja de dados.
- 01:41:51 Can shoota aí.
- 01:41:53 Python.
- 01:41:54 SPEAKER_01 Então vai, cara.
- 01:41:55 SPEAKER_01 Vai no Python.
- 01:41:57 SPEAKER_01 Hoje com a technologia, a ferramenta para tratar a mais chamada, a mais divulgada, mais exigida para trabalhar.
- 01:42:04 SPEAKER_01 Vi ninguém falando que precisa, mas eu lembrei aqui agora.
- 01:42:08 SPEAKER_01 Eu já vi muitos cursos, gringos e brasileiros, que tem na trilha, na trilha do curso, que você vai aprender Python, SQL. R, o Escambau Asa.
- 01:42:22 SPEAKER_01 Então o que esse curso está querendo dizer de forma indireta, que você precisa aprender tudo aquilo.
- 01:42:29 SPEAKER_01 Vai ser ruim in partes, sim.
- 01:42:33 SPEAKER_01 But em partes não.
- 01:42:34 SPEAKER_01 For example, I'm saying com R.
- 01:42:38 SPEAKER_01 Depois eu migrei com Python.
- 01:42:41 SPEAKER_01 And hoje eu uso mais o Python e às vezes eu uso o R.
- 01:42:45 SPEAKER_01 But, como o mercado está muito disputado, o mercado está muito disputado, está exigente.
- 01:42:52 SPEAKER_01 Não compensa você querer aprender Python e R ao mesmo tempo.
- 01:42:56 SPEAKER_01 Vai no Python, aprende o Python.
- 01:42:59 SPEAKER_01 Quando você tiver uns dois, three experience, quatro anos, se o R ainda existir, infelizmente eu vejo que o R está a caminho de ser finalizado na área, aprende o R.
- 01:43:11 SPEAKER_01 Donc eu seja contra o R, eu acabei de falar, eu comecei com o R, eu gosto muito do R, ainda uso o R em projetos pessoais meu.
- 01:43:19 SPEAKER_01 Forem a tendência é essa.
- 01:43:21 SPEAKER_01 A maior mantenedora do R, que era o.
- 01:43:27 SPEAKER_01 É, que não era Posit, o R Studio, era manter, ela mudou de R Studio porque ela queria desvincular o nome dela ao R, e virou o Posite.
- 01:43:36 SPEAKER_01 And a tendência é o R realmente virar pelo menos ali bem sozinho na área de dados.
- 01:43:44 SPEAKER_01 Então tomem cuidado com isso daí quando vocês forem procurar algum curso para estudarem.
- 01:43:49 Por quê?
- 01:43:50 SPEAKER_01 Isso aqui é uma landscape de2018 in the área como um todo, não só ciência de dados.
- 01:43:59 SPEAKER_01 So a gente tem infraestrutura, analytics, desenvolvimento de aplicações, engenharia, ciência de dados, APIs, data vis, inteligência artificial, isso de2018.
- 01:44:14 SPEAKER_01 Is de2018.2018
- 01:44:16 SPEAKER_01 era essa linda aí.
- 01:44:20 SPEAKER_01 A mais atual está assim.
- 01:44:22 SPEAKER_01 Essa foi de2023.
- 01:44:25 SPEAKER_01 Recente,2023.
- 01:44:27 SPEAKER_01 Então, cara, é impossível aprender tudo.
- 01:44:30 SPEAKER_01 Como eu falei para vocês agora, o Scala está começando a crescer muito na engenharia de dados.
- 01:44:37 SPEAKER_01 Se você for estudar Python e Scala ao mesmo tempo, você vai ficar doido.
- 01:44:40 SPEAKER_01 Vai ficar maluco.
- 01:44:41 SPEAKER_01 É igual o Python com R.
- 01:44:44 SPEAKER_01 Tem um Júlia, que o pessoal está querendo forçar aí, mas Júlia não usa lugar nenhum, cara.
- 01:44:49 SPEAKER_01 Usar Júlia para quê?
- 01:44:50 SPEAKER_01 Você vai estudar Julia para quê, senhor?
- 01:44:53 SPEAKER_01 O que eu recomendo para os meus alunos geralmente?
- 01:44:55 SPEAKER_01 Cara, foca no que importa.
- 01:44:57 Python.
- 01:44:58 SPEAKER_01 Entrou na área, está trabalhando na área, uns dois, três anos, aí começa a aprender outras coisas.
- 01:45:03 SPEAKER_01 O Júlia, o R, outra ferramenta que apareceu, uma outra linguagem de programação apareceu aí que deu um hypezinho de uma semana andar e depois morreu.
- 01:45:14 SPEAKER_01 Não, SQL.
- 01:45:16 SPEAKER_01 SQL para cientista, analista e engenheiro não tem como correr, não.
- 01:45:20 SPEAKER_01 Tem que aprender.
- 01:45:23 SPEAKER_01 E aí, continuando aqui, como assim não precisa de Python para tratar para trabalhar com dados?
- 01:45:30 SPEAKER_01 Trata os dados como?
- 01:45:32 SPEAKER_01 Aí o coach dos dados, naquele tom dele bem.
- 01:45:36 SPEAKER_01 Nossa, bizarro, como os vendedores de curso de Python enganam vocês fácil.
- 01:45:41 SPEAKER_01 O que ele faz?
- 01:45:42 SPEAKER_01 Ele adora ele adora publicar umas pesquisas, pesquisas internas dele, demonstrando que99,99% de quem respondia a pesquisa dele usa Excel para trabalhar com dados.
- 01:46:00 SPEAKER_01 Só que ele não fala que ele vem de curso de Excel.
- 01:46:03 SPEAKER_01 Então, se ele está fazendo pesquisa com os alunos dele, que está no mercado de trabalho, pelo menos isso, que está no mercado de trabalho e está respondendo trabalho com Excel, obviamente que. vão usar Excel, porque são alunos deles.
- 01:46:16 SPEAKER_01 Seria estranho se não usassem.
- 01:46:17 SPEAKER_01 Se ele está vendendo curso de Excel e o pessoal, a maioria está usando o Python.
- 01:46:21 SPEAKER_01 Aí seria uma coisa bem estranha.
- 01:46:23 SPEAKER_01 E essa daqui é uma pesquisa recente, feita ano passado, da Data.
- 01:46:30 Ah, meu Deus.
- 01:46:31 SPEAKER_01 State of Data Brasil.
- 01:46:33 SPEAKER_01 State of Data Brasil, do Data Hackers.
- 01:46:36 SPEAKER_01 É uma pesquisa de mercado de trabalho específica para a área de dados, tá?
- 01:46:40 SPEAKER_01 Ela é específica para a área de dados, então por isso que eu gosto de usar muito ela.
- 01:46:44 SPEAKER_01 E aqui a gente tem algumas demonstrações das linguagens de programação utilizadas no mercado de trabalho.
- 01:46:50 SPEAKER_01 Então, Python, a gente tem discute.
- 01:46:53 SPEAKER_01 Python e SQL são os principais para cientista de dados.
- 01:46:57 SPEAKER_01 É sim a laranja de cientistas de dados.
- 01:46:59 SPEAKER_01 Analista de dados.
- 01:47:01 SPEAKER_01 SQL e Python.
- 01:47:03 SPEAKER_01 Olha só que coisa.
- 01:47:05 SPEAKER_01 SQL e Python para analista de analista de dados.
- 01:47:09 SPEAKER_01 E ali tem uma demonstração também desse tanto aqui que não usam programação.
- 01:47:17 SPEAKER_01 Olha a diferença do que não usam programação.
- 01:47:20 É minoria.
- 01:47:21 SPEAKER_01 Esse mesmo professor, que gosta de falar que não se usa página para analista de dados, ele também fala que não precisa de graduação.
- 01:47:30 SPEAKER_01 Mas eu nem vou entrar nesses méritos aqui agora, porque senão a gente fica até amanhã de manhã.
- 01:47:36 SPEAKER_01 Então tem que tomar cuidado.
- 01:47:38 SPEAKER_01 Tem que tomar cuidado com algumas coisas.
- 01:47:40 SPEAKER_01 Aí eu peguei algumas vagas no LinkedIn.
- 01:47:43 SPEAKER_01 Não vai dar para enxergar direito, porque está pequenininho para vocês, mas eu peguei algumas dados específicas para analistas de dados.
- 01:47:50 SPEAKER_01 Que tinha lá conhecimento necessário.
- 01:47:53 SPEAKER_01 SQL e Python.
- 01:47:54 SPEAKER_01 Analista de dados, conhecimento necessário, mais de dois anos de experiências com Python e SQL.
- 01:48:01 SPEAKER_01 Analista de dados sendo na iFood, aqui no Brasil.
- 01:48:04 SPEAKER_01 Domínio de Python.
- 01:48:06 SPEAKER_01 Analista de dados de cartões, banco, conhecimento necessário, preferência com candidatos. em SQL e Python.
- 01:48:15 SPEAKER_01 Então não é que não usa Python.
- 01:48:17 SPEAKER_01 Não é que não usa Excel.
- 01:48:19 SPEAKER_01 Vai ter casos e casos.
- 01:48:21 SPEAKER_01 Vai ter empresas que usa Excel.
- 01:48:23 SPEAKER_01 Eu trabalhei na Americanas, antes de estourar a bomba deles lá.
- 01:48:27 SPEAKER_01 A bombinha de40 bilhões.
- 01:48:30 SPEAKER_01 E cara, eles usavam o Excel pra tudo.
- 01:48:33 SPEAKER_01 Eu ficava desesperado.
- 01:48:36 SPEAKER_01 Porque eu cheguei lá como consultor, sênior, pra dar uma suporte de algumas coisas.
- 01:48:42 SPEAKER_01 Aí tudo que eu fazia eu tinha que fazer com o Excel.
- 01:48:45 SPEAKER_01 Eu demorava10 dias pra fazer uma média no Excel, que eu não sei mexer na porcaria do Excel.
- 01:48:51 SPEAKER_01 Ela falava, moço, deixa eu mexer com Python.
- 01:48:54 SPEAKER_01 Aí o pessoal desenvolvia um dashboard lindo, maravilhoso.
- 01:48:58 SPEAKER_01 Aí que a galera fazia.
- 01:48:59 O que a galera pedia?
- 01:49:02 SPEAKER_01 Coloca um botão para embaixar no Excel.
- 01:49:05 SPEAKER_01 Os analistas e eu ficava puto da vida, viu?
- 01:49:09 SPEAKER_01 Tem empresa que usa, e tem empresa que não vai usar, tem empresa que vai usar Python, vai dar preferência para o Python.
- 01:49:13 SPEAKER_01 Então não é que não usa Python e não usa Excel.
- 01:49:16 SPEAKER_01 Cada caso, cada caso.
- 01:49:23 Node.
- 01:49:23 Node?
- 01:49:25 SPEAKER_01 Não usa, né?
- 01:49:26 SPEAKER_01 Esquece.
- 01:49:27 SPEAKER_01 É igual uma vaga que eu vi uma vez pedindo um PHP para cientistas de dados.
- 01:49:31 SPEAKER_01 Eu falei, eu ainda pensei assim, cara, será que o pessoal está desenvolvendo alguma coisa, algum algoritmo de PHP e eu não estou sabendo?
- 01:49:38 SPEAKER_01 Não, é justamente nesse caso aí que eu falei.
- 01:49:41 SPEAKER_01 Os executadores entram na internet e saem pegando tudo que vê, e nem filtra.
- 01:49:46 SPEAKER_01 Acontece demais.
- 01:49:48 Então.
- 01:49:49 SPEAKER_01 É, eu já vi PHP, sem sacanagem, já vi PHP.
- 01:49:52 SPEAKER_01 Então ignora, só ignora.
- 01:49:55 SPEAKER_01 Nada de JavaScript para ser de dados.
- 01:49:57 SPEAKER_01 Qualquer coisa de JavaScript para ciência de dados não existe, a não ser datavis.
- 01:50:03 SPEAKER_01 Visualização.
- 01:50:04 SPEAKER_01 Gráfico e grafos.
- 01:50:05 SPEAKER_01 Também tem umas bibliotecas em JavaScript para grafos muito legais. aí sim.
- 01:50:10 SPEAKER_01 Mas para a ciência de dados mesmo, algoritmo, estatística descritiva, probabilidade, não existe.
- 01:50:16 SPEAKER_01 É ilusão.
- 01:50:19 SPEAKER_01 Vamos lá.
- 01:50:19 SPEAKER_01 Você precisa saber de todas as novidades de lançamentos da área, é o que eu comentei, né?
- 01:50:24 SPEAKER_01 Não, alguém quase falou um sim!
- 01:50:27 SPEAKER_01 Eu escutou um sim, não, não, não.
- 01:50:30 SPEAKER_01 Não vai, pessoal.
- 01:50:31 SPEAKER_01 Sabe por quê?
- 01:50:32 SPEAKER_01 Esse daqui, algumas novidades que eu coloquei ao longo do tempo.
- 01:50:35 SPEAKER_01 A gente já teve antes do BI, já teve um milhão de coisas, aí veio o BI, aí veio o data mine, aí veio o algoritmo de Machine Learning, aí veio o Big Data, aí algoritmos mais complexos de Machine Learning, aí veio algoritmos de assumble, aí veio o test mine, aí veio o NLP, que são algoritmos focados para test mine, aí veio o Deep Learning, fiz um computação, LA MMs, e a para imagens e etc, etc, etc.
- 01:51:00 SPEAKER_01 Cara, não tem como.
- 01:51:03 SPEAKER_01 Não tem como, a gente fica maluco, se você querer saber de tudo a todo momento, vocês vão ficar maluco.
- 01:51:09 SPEAKER_01 E eu não caio nessa, tá?
- 01:51:11 SPEAKER_01 Cai nessa e fica maluco, maluco assim, fica frustrado, porque não consegue acompanhar.
- 01:51:15 SPEAKER_01 Como eu falei, open eye lança uma novidade a cada seis horas.
- 01:51:19 SPEAKER_01 De manhã OpenI fala que lançou uma coisa, à noite ela fala que já lançou outra.
- 01:51:23 SPEAKER_01 Não tem como.
- 01:51:24 SPEAKER_01 É preciso focar.
- 01:51:25 SPEAKER_01 Principalmente para quem está começando.
- 01:51:27 SPEAKER_01 Focar.
- 01:51:27 SPEAKER_01 Focar em quê?
- 01:51:29 SPEAKER_01 Python, estatística descritiva, banco de dados.
- 01:51:32 SPEAKER_01 Python, estatística descritiva, banco de dados, e um pouco de lógica de programação ali.
- 01:51:37 SPEAKER_01 Então é preciso focar, senão a gente fica maluco.
- 01:51:40 SPEAKER_01 Aí já coloquei a resposta aqui, um ponto muito importante sobre qualquer cargo.
- 01:51:46 SPEAKER_01 Tem como trabalhar em duas CLTs ao mesmo tempo?
- 01:51:49 SPEAKER_01 Dois trabalhos?
- 01:51:51 SPEAKER_01 Claro que tem.
- 01:51:52 SPEAKER_01 Temos mentorados que possui três empregos, inclusive, três empregos.
- 01:51:57 SPEAKER_01 Eu nunca fiz, mas os outros fazem.
- 01:52:00 SPEAKER_01 Mas é possível, na hora de estar aí, saiu um cara agora na mídia, que trabalhava para o Facebook, Tinder, e mais um.
- 01:52:07 SPEAKER_01 Um cara.
- 01:52:06 SPEAKER_01 E mais um.
- 01:52:07 SPEAKER_01 Um cara no meio de8 bilhões de pessoas.
- 01:52:10 SPEAKER_01 Tinha um que trabalhava em three empresas.
- 01:52:13 SPEAKER_01 Olha só que exemplo, uma estatística bem considerável.
- 01:52:16 SPEAKER_01 O cara tirava4 milhões de reais por ano em salário.
- 01:52:20 SPEAKER_01 Galera, não se iludam.
- 01:52:23 SPEAKER_01 Principalmente aqui no Brasil.
- 01:52:24 SPEAKER_01 Já começa que se você tiver dois CLT no mesmo horário, você já pode ser levar justa causa.
- 01:52:29 Já começa por aí.
- 01:52:31 SPEAKER_01 Pode ter como CLT e PJ?
- 01:52:33 SPEAKER_01 Pode, é possível.
- 01:52:34 SPEAKER_01 Inclusive eu já fiz this.
- 01:52:35 SPEAKER_01 But todavia, você não tem vida.
- 01:52:38 SPEAKER_01 Ah, é só conciliar horário das reuniões.
- 01:52:41 SPEAKER_01 Cara, é quase impossível você conciliar horário de reuniões.
- 01:52:44 SPEAKER_01 Porque todo mundo vai trabalhar de8 a5 ou de9 a6.
- 01:52:48 SPEAKER_01 Como é que você vai conciliar horário de reuniões de duas, three empresas nesse horário.
- 01:52:52 SPEAKER_01 Aí ele, essa mesma pessoa aí fala, não, mas eu tenho um mentorando who trabalha em três empresas, ele entrega o resultado aqui.
- 01:53:00 SPEAKER_01 Cara, quem trabalha com dados, quem trabalha com análise de dados, sabe que não é assim.
- 01:53:03 SPEAKER_01 Você não vai trocar um.
- 01:53:10 SPEAKER_01 Não vai.
- 01:53:11 SPEAKER_01 Não cai nessa ilusão, não.
- 01:53:12 SPEAKER_01 Uma porque pode dar problemas para vocês.
- 01:53:15 SPEAKER_01 Muito feio, ando que as empresas querem voltar.
- 01:53:17 SPEAKER_01 Esse é um dos motivos que as empresas querem voltar para o presencial, for desse tipo de coisa aí também.
- 01:53:23 SPEAKER_01 Além de dar problemas judiciais, principalmente onto de atenção, principalmente por conta de compliance hoje.
- 01:53:30 SPEAKER_01 As empresas estão com compliance pesadíssimos.
- 01:53:33 SPEAKER_01 Por quê?
- 01:53:33 SPEAKER_01 Se você tem acesso a dados de uma empresa A e vai trabalhar em uma empresa B com os acessos e de repente elas são concorrentes, meu amigo, você vai receber um processo ali de pelo menos50 mil reais.
- 01:53:44 SPEAKER_01 Pelo menos.
- 01:53:45 SPEAKER_01 Então o compliance das empresas hoje estão pesadíssimos, mesmo você sendo PJ e CLT.
- 01:53:51 SPEAKER_01 Então, cuidado para não cair nesse conto de fadas aí.
- 01:53:55 SPEAKER_01 Aí aqui eu coloquei algumas questões de layoffs, que eu acho que achava interessante de discutir, que veio falar assim, a Bol estourou, não tem mais vagas para June.
- 01:54:05 SPEAKER_01 Não é bem assim.
- 01:54:04 SPEAKER_01 Para Júnior.
- 01:54:05 SPEAKER_01 Não é bem assim.
- 01:54:06 SPEAKER_01 Como eu falei, o mercado ficou muito exigente, a régua subiu demais, but ainda tem muito mercado.
- 01:54:12 SPEAKER_01 Aconteceu muitas demissões?
- 01:54:14 SPEAKER_01 Sim, aconteceu como já aconteceu antes, como vai acontecer daqui algum tempo de novo.
- 01:54:20 SPEAKER_01 So não se desesperem para quem quer entrar na área, não consigo essa oportunidade ainda, não se desespera.
- 01:54:28 SPEAKER_01 A régua subiu, não tem como fingir that as empresas estão mais exigentes, estão cobrando mais conhecimento técnico, estão começando a cobrar mais conhecimento negocial também.
- 01:54:38 SPEAKER_01 Nego negociar o que a gente fala assim, o analítico, você sabe resolver the problem, identificar o problema andas técnicas.
- 01:54:47 SPEAKER_01 I coloquei algumas coisas aqui sobre a areia de dados.
- 01:54:51 SPEAKER_01 Só para concluir aqui, basicamente cuidado com as promessas fáciles, cuidado com sensacionalismo, tanto para mais como para o menos, o exagero, salário, vagas, etc.
- 01:55:06 SPEAKER_01 And cuidado principally with quem está falando.
- 01:55:09 SPEAKER_01 Them pessoas no LinkedIn, que era especialista in metaverso, when the metaverso miou virou especialista em área narrativa da noite para o dia.
- 01:55:24 SPEAKER_01 Depois Bitcoin, criptomoedas, não sei o quê.
- 01:55:27 SPEAKER_01 Então, cuidado com quem, beleza?
- 01:55:30 SPEAKER_01 Agora, só para a gente encerrar aqui, para partir do dúvidas.
- 01:55:34 SPEAKER_01 Como a gente falou no início, a gente vai sortear duas mentorias.
- 01:55:37 SPEAKER_01 Uma vai funcionar da seguinte forma.
- 01:55:39 SPEAKER_01 Faz um story aqui nosso agora, and marca aquele perfil lá, arroba info dados, que é o sorteio vai ser por lá.
- 01:55:48 SPEAKER_01 Can't say the story agora do story nossa aqui mesmo.
- 01:55:53 SPEAKER_01 Da palestra, você sorteia, marca lá o perfil, info dados, depois I'm fazer o sorteio andar in contato com vocês, and the próximo sorteio vai ser feito ali.
- 01:56:02 SPEAKER_01 O próximo sorteio vai ser feito ali pelo Jôs.
- 01:56:07 SPEAKER_01 Muito obrigado.
- 01:56:09 SPEAKER_01 Alguma dúvida.
- 01:56:14 SPEAKER_02 Fazendo um comentário sobre a questão de sensacionalismo, é que é muitoóbvio que ele só vai aparecer os extremos.
- 01:56:19 SPEAKER_02 Sempre vai ser um cara que eu ganho muito grana muito fora da média, ele vai compartilhar isso com as pessoas.
- 01:56:25 SPEAKER_02 O cara eu participei já de.
- 01:56:27 SPEAKER_02 Já mandei mil currículos pra minha empresa e não foi contratado.
- 01:56:29 SPEAKER_02 O cara que tá na média, ele não tá nem aí pra compartilhar as informações dele, porque ninguém quer saber.
- 01:56:34 SPEAKER_02 Só os caras que são extremos que chamam a atenção.
- 01:56:36 SPEAKER_02 Então, ter a consciência disso de que existe um viés pra extremos é muito importante, sabe?
- 01:56:41 SPEAKER_02 Que nem o caso absurdo para o bem e para o mal representa a realidade direito.
- 01:56:45 SPEAKER_02 Por conta dessa seleção humana mesmo.
- 01:56:47 SPEAKER_02 De que o que é extremo é mais legal de ficar sabendo.
- 01:56:50 SPEAKER_01 Sim, e porque o.
- 01:56:51 SPEAKER_01 Não vou dizer a população, mas o Brasileiro é enviesado pra isso, né?
- 01:56:57 SPEAKER_01 Prosperidade.
- 01:56:59 SPEAKER_01 Quem não quer, né?
- 01:57:00 SPEAKER_01 Ganhar15 mil reais, quem não quer trabalhar pra ganhar20 mil reais.
- 01:57:05 SPEAKER_01 Normal, só porque tem muita gente que se arrepenta, né?
- 01:57:07 SPEAKER_01 O Tigrinho tá aí pra mostrar, né?
- 01:57:09 SPEAKER_01 Pessoal da Bolsa Família, pessoal que ganha salário mínimo, ontem saiu uma cozinheira perder80 mil conto em jogos de aposta.
- 01:57:19 SPEAKER_01 Enfim.
- 01:57:21 SPEAKER_01 Como diz o grande filósofo Emílio Surita, todo dia nasce um otário e um malandrão, né?
- 01:57:30 SPEAKER_01 E a gente vive assim, e alguns fazem o trabalho com o meu tento de alertar.
- 01:57:34 SPEAKER_01 Aí quem quer escutar, escuta, quem não quer, tchau e pensa.