datamining

Fuck yeah, looks like we’re going to be getting some new DLC soon!

Gotta get my pipe dreams out before reality hits:  

  • Debris from the Inquisitor’s LI in their quarters.  They have to have moved in after like two years, right?  Or at least taken over some drawers.  
  • Decent-looking purple cloth for crafting.  I love purple.  Why won’t Bioware let me have purple??  No, imperial vestment cotton does not count.
  • KAL SHAROK
  • More potential renovations to Skyhold.  Bonus points if Dorian supplies the requisition for proper Tevinter baths, leading to wacky  Sandor sexy bathhouse antics.
  • Follow-up on that adorable hint that unromanced Sera may have a thing with Dagna.  At the very least they should be huge bros.  They could open the world’s most terrifying weapons development lab!  With a potential side-line in even more terrifying sex toys. 
  • More Skyhold history in general.  What is up with the home base?  Why is it unnaturally warm, why does no one ever settle there permanently, and what blasted a huge hole in the dungeons?  This lore belongs in DA:I DLC, not in future games.  Bioware pls.  
  • LESS SCOUT HARDING.  Don’t get me wrong, I love Scout Harding, but there is tons of potential for her to show up in future games!  Meanwhile, a lot of our other companion and advisor characters are unlikely to be seen again.  Let’s leave the spotlight with them while we have the chance.  Harding will have her day, I’m sure. 
youtube

Facebook - The CIA’s Datamining Website!

There is always the quest for interdisciplinarity in research. The paper repository JSTOR provided access to their complete archive to three researchers. What they came up with is the map of interdisciplinary relationships. Quite revealing how central Sociology has become for all Social Sciences. Very interesting article in the Chronicle on how the data could help to improve the overall research process.

Via (Domesday)

youtube

Found a video! ‘VersuS - Rome, October 15th, the riots on social networks - YouTube’: http://mag.ma/davide/3061681

Blogpost: "Miss es, oder vergiss es!" - Lose Gedanken zum Umgang mit Daten

Eigentlich ein klasse Geschäftsmodell, das TomTom da angeblich betreibt.

Eine Art “Perpetuum Mobile”: Verkaufe Blitzerdaten teuer an die Kunden & verdeale deren Bewegungsdaten gleichermaßen heimlich an den Staat, der die Daten der Polizei übergibt, für eine optimale Blitzer-Positionierung?

Wie eine Lok bei Jim Knopf, die sich selbst über die Schienen zieht, indem man vorne eine Angel mit einem großen Magneten daran befestigt…

Aus kaufmännischer Sicht könnte man da ja nur den Hut ziehen. [Nur erwischen lassen sollte man sich dabei halt nicht. Man hätte vielleicht diskret einen externen Datenhändler nutzen sollen, der in dem Geschäft als Strohmann fungiert…?]

Eine Ausnahmeerscheinung, ein einmaliges Schurkenstück mit “HanSolo-Faktor?” Mitnichten.

Die Gerüchte um TomTom zerren nur im ein Geschäft an die Öffentlichkeit, dass sonst lieber im Verborgenen bleibt: den Datenhandel.

Was wird mit den erworbenen Daten dann in der Regel eigentlich gemacht?

“Vertriebsoptimierung mit quantitativen, wissenschaftlichen Methoden”

Wobei der Begriff “Vertrieb” mittlerweile durch viele unternehmerische Ziele und Teilziele ersetzt werden kann. Platzierung von Werbung, Standortbestimmung,…whatever.

Kundendaten lassen sich kummulieren, mit statistischen Methoden über Software -Tools auswerten und in und an Datenbanken übergeben…

Gäbe es für die Erkenntnisse einen Markt, dann müsste, induziert durch diese neue Vielfalt an Möglichkeiten Daten zu gewinnen und zu analysieren, ja bereits den Rohdaten betriebsintern ein Wert zugerechnet werden, sie stellen de facto einen Vermögenswert dar.

“Automatisierung macht Daten nutzbar(er).”

Auf diesen einfachen Nenner kann man es bringen: Je fortschreitender die technische Entwicklung und damit der Grad an Automatisierung, desto einfacher lassen sich Kundendaten auswerten, nutzen und auch vermarkten. Ein attraktiver Markt, der Begehrlichkeiten weckt. Wer weiß schon genau, welche Geschäfte dort in der Grauzone am Rande, oder unterhalb des Datenschutz-Radars sonst noch so getätigt werden…

Die bisher in der Öffentlichkeit diskutierten “Aufreger”, die regelmäßig breit getreten wurden, beschränkten sich früher überwiegend auf Effekte wie z.B. unerwünschte Call- Center- Anrufe, aktuell auf eine “diffuse” Angst vor dem Tracking von Personen- wie auch Bewegungs- Daten durch Mobile Devices und den Mißbrauch von KK- Daten.

Wofür diese Daten letztlich konkret sonst noch genutzt werden könnten, das blieb bisher oft im Unklaren.

Das Topic war in erster Linie lediglich: Die “Angst vor Mißbrauch” als solchem.

Sofern die Informationen zum Sachverhalt der Wahrheit entsprechen, zeigt der “Fall TomTom” nun auf, wohin die Reise bzgl. “Mißbrauch” noch gehen kann:

Dass Blitzer (in Holland) schon lange nicht mehr der Erhöhung der Verkehrssicherheit wegen errichtet werden, sondern in erster Linie der Entlastung kommunaler und städtischer Kassen (in Holland) dienen sollen, dass haben wir (Holländer) schon alle irgendwie geahnt und uns darüber geärgert. Diese Ahnung hat sich jetzt bestätigt. Denn eigentlich sollten ja nicht Raser-Statistiken über solche Standorte (in Holland) entscheiden, sondern Unfall- Statistiken…

Welche Befürchtungen sich zukünftig erst noch zeigen und bestätigen werden, das weiß ich nicht, aber durch die Digitalisierung in Alltag und Beruf und die Bereitschaft des “Mitmachens”, wird sich sicher noch der ein oder andere Deal als Scoop in Sachen Datenhandel offenbaren.

Die technischen Entwicklungen in MaFo, Data Mining, Data Publishing, Datenbank- Entwicklung & CloudIT(SaaS) schreiten mit 7-Meilen-Stiefeln voran: Auswertungsmethoden und Anwendungsgebiete im Umgang mit Datensätzen, die vor ein paar Jahren noch ausgewiesenes Expertenwissen und teures Equipment verlangten, sind heute bereits in “günstigen” Software- Paketen enthalten. Man muss oft nur noch das “Was” kennen und definieren, das “Wie” erledigen Rechner.

Tiefergehende Kenntnisse, also Wissen über Multivariate Analysemethoden (die früher als Einstiegshürden in diesen Markt angesehen werden konnten) die sind oft nicht mehr gefragt. Und wenn Expertenwissen benötigt wird, dann kann man das als Beratungsleistung einkaufen:

“Zeige mir Deine Kundendaten, ich werte sie aus, ermittle Einsatzgebiet und das Vermarktungspotenzial sowie einen passenden Kundenkreis, verkaufe sie innerhalb dessen, ohne dass Du genannt wirst, und bekomme dafür eine Provision. Das ganze rechnen wir als Beratungsleistung für einen regulären Geschäftsbereich in deinem Kerngeschäft ab. Kostenpunkt je nach Datenvolumen und Projektdauer zwischen 50.000€-100.000€. Zusatzleistungen in Tagessätzen von 2000€.”

Klingt nach einem guten Geschäftsmodell.

Waren heruntergewirtschaftete Unternehmen früher noch für Käufer attraktiv, um sich lediglich die Markenrechte einzuverleiben (z.B. Grundig), geht es und wird es zukünftig vermehrt auch um die Frage gehen: “Welchen Datenpool gibt es hier abzugreifen, und wie ist der zu bewerten?”

Darf man das offiziell eigentlich? Wenn “Nein”, wer überwacht das, wie kann man das kontrollieren? Eigentlich garnicht: wenn zwei sich einig sind wandern Nullen und Einsen unbemerkt von einem Server zum anderen. Oder?

Erinnert sich noch jemand an das Ende von “?€&?!”? Wurde von “?!€&:” übernommen. Was war für die Hamburger da eigentlich interessant? Die Marke, die Logistikstandorte, und/ oder der Bestand an Kundendaten? Gab es bzgl. der Daten da nicht sogar eine hitzige Debatte im Vorfeld? …

“Miss es, oder vergiss es!”?

Ist Cafeten- Sozialhygiene aus Uni- Zeiten.

“Weiche” Faktoren galten in der Lehre wenig. Es gab z.B. keine Veranstaltung Marketing- Psychologie. Das war beiden Fakultäten “nicht wissenschaftlich genug.” Alles was nicht “konkret messbar” gemacht werden konnte, war in der WiWi- Lehre als “prosaisch” und “esoterisch” verpönt (z.B #CluetrainManifest).

Wenn man sich an der Cafete traf und kollektiv über irgendwelches bretthartes verschrobenes Mikrotheorie- oder anderes Rechen- Martyrium etc. aufregte, kam immer jemand mit einem wölfischen Grinsen um die Ecke, klopfte auf die Schulter und haute den Spruch raus: “Mensch, regt Euch nicht auf, ihr wisst doch wie es hier läuft: “Miss es, oder vergiss,es!”

Ein Runner, irgendwer lachte immer…

Damals ein Ärgernis, so bin ich heute fast froh darüber, einmal so straight auf ein Kennzahlenbewusstein “gedrillt” worden zu sein: der dadurch induzierte kritische Blick auf “prosaischen” BusinessSprech schadet imo generell nicht, und das Gefühl von Kontrollverlust in der Digitalen Welt fällt bei mir (gefühlt) geringer aus, als in meiner Umgebung.

Nicht, dass ich deshalb leichtfertig mit meinen Daten umgehen würde. Ich bin jedoch weniger ängstlich und stelle mir jeweils die Frage: wer kann was in welchem Kontext damit anfangen, worin besteht also das Mißbrauchspotenzial und welcher konkrete Schaden kann mir entstehen? Da ich mir diese Frage oftmals selbst beantworten kann, ist mein Umgang offener: ich empfinde die Weitergabe meiner Daten weniger als eine unklare, abstrakte Unsicherheit (wie ich es in meinem Bekanntenkreis häufig erlebe), denn als kalkulierbares Risiko: ich kann in der FuZo beklaut werden, wie auch im Internet(unabhängig von der Schuldfrage): Beides kann passieren, aber wo Risiken&Maßnahmen bekannt sind, da kann man sich auch weiterhin aufhalten…

Oder?

Von meinem iPhone gesendet

Datamining

People sometimes ask me what does it mean when sociopaths say they datamine.
Basically they are collecting information about you in an effort to predict your future behavior and what might please or displease you.

Sociopaths watch your behavior to figure out who you are. It can be something as small as the way you grip a steering wheel when you drive or whether you break prolonged eye contact and when. The sociopath collects all of this information about you and mentally references it to the thousands of other people he has collected information from, coming up with a rough sketch of who you are. As marketers have known for centuries, people that like certain things will probably like other similar things.

It’s not hard to collect this information, the sociopath is paying attention to these little behavioral responses anyway to make sure that he is remaining undetected. And it’s hard not to notice certain very common human behavioral patterns, once you’ve been made aware of them.

After the sociopath has collected all of this information, he can use it in various ways. He can use it to better construct his own masks to stay hidden. He can use it to anticipate your every need and desire. Or he can use it to get into your mind and plant yet another type of mine. That’s the mining that you really should be worried about, and the only way that the sociopath can set traps in your mind is if you have weaknesses or needs that you refuse to address yourself.

Data Warehouse - Conceito

É um tema recente, conceitualmente foi descrito por Inmon em 1992 (um dos pioneiros no assunto), podemos defini-lo como um sistema de bando de dados onde são armazenados os dados relativos às atividades de uma organização, dados esses retirados de seus sistemas transacionais. Tem como finalidade a geração de relatórios complexos e com informações estratégicas que irão auxiliar na tomada de decisões, devido a isso uma de suas principais características é o armazenamento de uma grande quantidade de informações (o que faz com que um data warehouse leve anos para se tornar funcional). Informações essas que devem ser limpas, claras e bem refinadas, o que cabe a um processo de analise a planejamento extremamente bem feito.

Mas o que o difere dos demais SGBDs (Sistema de Gerenciamento de Banco de Dados)?
Bom para responder a essa pergunta vamos dar uma olhada em algumas das características de um data warehouse:

  • Orientado a assuntos
  • Integrado, são integrados os dados de diversas fontes
  • Time-varying, as informações geradas por um data warehouse dependem diretamente do tempo em que estão sendo analisadas, pois geram analises de um determinado período de tempo passado para que com essas informações sejam geradas previsões e estimativas de mercados futuros
  • Não volátil, uma vez inserido um dado em um data warehouse esse dado não será modificado, talvez excluído ou transportado, mas nunca modificado
  • São bancos de dados operacionais projetados e afinados para transações e cargas conhecidos
  • Suas pesquisas são complexas e podem degradar o desempenho das transações operacionais
  • Seus dados são organizados de forma especial, acesso e métodos de implementação complexos e bem definidos são necessários para visões e consulta multidimensional
  • Sofre influencia de informações externas.
  • Para um melhor aproveitamento de um data warehouse são utilizadas outras ferramentas para a manipulação de suas informações (Data Mining, OLAP)
  • Deve ser capaz de abrigar diversos bancos de dados

ilustração

Uma atividade muito importante no gerenciamento de um data warehouse é sua limpeza, e por quê?
  • Data warehouses contém dados que são analisados para decisões de negócios
  • Muitos dados e múltiplas fontes podem significar mais erros nos dados e maior dificuldade em investigar tais erros
  • Pode resultar em análises incorretas

A limpeza tem como principais finalidades:
  • Detectar anomalias nos dados e retificá-los rapidamente geram boas recompensas
  • Importante identificar ferramentas que trabalhem bem juntas

Provavelmente em estudos sobre data warehouse o termo Data Marts irá aparecer, Data Marts são pequenos data warehouses que cobrem apenas partes da organização, vendas, marketing, produção, etc., são mais rápidos tanto em sua utilização quanto em sua criação e implantação, no entanto, podem gerar problemas de integração a longo prazo.
Quando falamos de data warehouse o primeiro nome que vem em nossas mentes ( pelo menos dos que já ouviram falar do assunto) é Data Mining ou Mineração de Dados, talvez o mais conhecido processo para utiliza/extração de informações de data warehouses, consiste na busca de padrões, utilizando regras de associação e seqüências temporais. Diversas ferramentas e técnicas que utilizam algoritmos baseados em redes neurais e estatísticas que exploram/mineram dados identificando e agrupando padrões.

OLTP vs. OLAP
  • OLTP: On Line Transaction Processing
  • OLAP: On Line Analytical Processing
Ambas são ferramentas utilizadas para a manipulação de dados de data warehouses. No entanto com funções diferentes enquanto OLAP fornece para organizações um método de acessar, visualizar, e analisar dados corporativos com alta flexibilidade e desempenho enquanto OLTP é quem se encarrega de registrar todas as transações contidas em uma determinada operação organizacional. Em outras palavras, um é responsável por armazenar ( OLTP ) as informações que o outro irá utilizar (OLAP). Atualmente OLAP é uma das ferramentas mais utilizadas para a manipulação de dados em data warehouses, possui também algumas variações:
  • DOLAP (Desktop On Line Analytical Processing) são ferramentas que disparam consultas utilizando a arquitetura cliente/servidor, reduzindo assim o tráfego na rede.
  • ROLAP (Relational On Line Analytical Processing) são ferramentas que disparam uma consulta para o servidor de banco de dados relacional e onde é processado processado. É uma simulação da tecnologia OLAP feita em banco de dados relacionais que, por utilizar a estrutura relacional, possui a vantagem de não restringir o volume de armazenamento de dados (CARVALHO, 2004). Essa ferramenta não utiliza cubos pré-calculados como a MOLAP. A ferramenta acessa os metadados e outros recursos que possua, para gerar uma consulta SQL.
  • MOLAP (Multidimensional On Line Analytical Processing) são ferramentas onde as requisições são feitas diretamente ao servidor de dados multidimensional, onde os dados já dados estão armazenados de forma multi-dimensional.Após o envio da requisição o usuário continua manipulando os dados diretamente no servidor multidimensional, tendo assim um ganho em seu desempenho desempenho.
  • HOLAP (Hybrid On Line Analytical Processing) deriva são ferramentas hibridas, a combinação entre ROLAP e MOLAP, utilizando o melhor das duas ferramentas (escalabilidade de ROLAP e o alto desempenho do MOLAP).
  • WOLAP é a utilização de uma ferramenta OLAP a partir de um web browser, o que facilita a sua distribuição.
Vejamos algumas das operações que podem ser realizadas com as ferramentas acima mencionadas:
  • Drill Across: ocorre quando o usuário pula um nível intermediário dentro de uma mesma dimensão
  • Drill Down: ocorre quando o usuário aumenta o nível de detalhe da informação, diminuindo a granularidade
  • Drill Up: é o contrário do Drill Down, ocorre quando o usuário aumenta a granularidade, diminuindo o nível de detalhamento da informação
  • Drill Throught: ocorre quando o usuário passa de uma informação contida em uma dimensão para outra.
A granularidade tem influencia direta na velocidade do acesso às informações e no volume de dados armazenados.